特開2024-164981 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 沖電気工業株式会社の特許一覧

特開2024-164981情報処理装置、情報処理方法およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024164981

(43)【公開日】2024-11-28

(54)【発明の名称】情報処理装置、情報処理方法およびプログラム

(51)【国際特許分類】

G06N 3/088 20230101AFI20241121BHJP

G06T 7/00 20170101ALI20241121BHJP

G06V 10/82 20220101ALI20241121BHJP

【ＦＩ】

G06N3/088

G06T7/00 350C

G06V10/82

【審査請求】未請求

【請求項の数】16

【出願形態】ＯＬ

(21)【出願番号】P 2023080750

(22)【出願日】2023-05-16

(71)【出願人】

【識別番号】000000295

【氏名又は名称】沖電気工業株式会社

(74)【代理人】

【識別番号】100140958

【弁理士】

【氏名又は名称】伊藤学

(74)【代理人】

【識別番号】100137888

【弁理士】

【氏名又は名称】大山夏子

(74)【代理人】

【識別番号】100190942

【弁理士】

【氏名又は名称】風間竜司

(72)【発明者】

【氏名】泊口万里子

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096AA06

5L096CA01

5L096DA02

5L096EA03

5L096EA39

5L096FA19

5L096HA09

5L096HA11

5L096JA05

5L096JA11

5L096KA04

(57)【要約】（修正有）

【課題】クラス分類の精度の向上に寄与する学習済みモデルを生成する情報処理装置、方法およびプログラムを提供する。
【解決手段】学習装置は、入力データに含まれる第１の学習用データに基づいて、第１の学習用データにおいて検出対象が存在する第１の領域を推定する領域推定部と、第１の学習用データにおける第１の領域または第１の学習用データから変換される特徴テンソルのうちの前記第１の領域に対応する特徴量に対して重み付けして重み付け後のデータを生成する重み付け処理部と、第１のニューラルネットワークに基づいて、重み付け後のデータから第１の特徴量を抽出する第１の特徴抽出部と、入力データに含まれる第２の学習用データに基づいて、第２の特徴量を抽出する第２の特徴抽出部と、第１の特徴量および第２の特徴量の類似度に基づいて、第１のニューラルネットワークの重みパラメータを更新する更新部と、を備える。
【選択図】図１

【特許請求の範囲】

【請求項1】

入力データに含まれる第１の学習用データに基づいて、前記第１の学習用データにおいて検出対象が存在する第１の領域を推定する領域推定部と、
前記第１の学習用データにおける前記第１の領域、または、前記第１の学習用データから変換される特徴テンソルのうちの前記第１の領域に対応する特徴量に対して重み付けして重み付け後のデータを生成する重み付け処理部と、
第１のニューラルネットワークに基づいて、前記重み付け後のデータから第１の特徴量を抽出する第１の特徴抽出部と、
前記入力データに含まれる第２の学習用データに基づいて、第２の特徴量を抽出する第２の特徴抽出部と、
前記第１の特徴量および前記第２の特徴量の類似度に基づいて、前記第１のニューラルネットワークの重みパラメータを更新する更新部と、
を備える情報処理装置。

【請求項2】

前記第１の学習用データは、画像データであり、
前記検出対象は、前記画像データに写っている物体である、
請求項１に記載の情報処理装置。

【請求項3】

前記第２の学習用データは、テキストデータである、
請求項１または２に記載の情報処理装置。

【請求項4】

前記重み付け処理部は、前記第１の学習用データにおける前記第１の領域に対して重み付けして、前記重み付け後のデータを生成する、
請求項１に記載の情報処理装置。

【請求項5】

前記重み付け処理部は、前記特徴テンソルのうちの前記第１の領域に対応する特徴量に対して重み付けして重み付け後のデータを生成する、
請求項１に記載の情報処理装置。

【請求項6】

前記重み付け処理部は、前記第１の学習用データにおける前記第１の領域または前記特徴テンソルのうちの前記第１の領域に対応する前記特徴量に対して値を乗算することにより、前記重み付け後のデータを生成する、
請求項１に記載の情報処理装置。

【請求項7】

前記重み付け処理部は、前記第１の学習用データにおける前記第１の領域以外の領域または前記特徴テンソルのうちの前記第１の領域以外の領域に対応する特徴量に対して値を乗算することにより、前記重み付け後のデータを生成する、
請求項１に記載の情報処理装置。

【請求項8】

前記更新部は、前記類似度に基づいて、前記第１のニューラルネットワークの重みパラメータおよび前記値を更新する、
請求項６または７に記載の情報処理装置。

【請求項9】

前記第１の学習用データは、複数の部分データを含み、
前記重み付け処理部は、前記複数の部分データの各々について、部分データに対する、当該部分データのうち前記第１の領域と重なる領域の比率を算出し、当該比率に応じた前記値を、当該部分データまたは当該部分データから変換された特徴量に対して乗算することにより、前記重み付け後のデータを生成する、
請求項６または７に記載の情報処理装置。

【請求項10】

前記第２の特徴抽出部は、前記第２の学習用データと第２のニューラルネットワークとに基づいて、前記第２の特徴量を抽出し、
前記更新部は、前記類似度に基づいて、前記第１のニューラルネットワークの重みパラメータと前記第２のニューラルネットワークの重みパラメータとを更新する、
請求項１に記載の情報処理装置。

【請求項11】

前記第１の学習用データは、複数の部分データを含み、
前記重み付け処理部は、前記複数の部分データの各々が、前記第１の領域に属するか否かを示すデータを、前記第１の学習用データまたは前記特徴テンソルに付与することにより、前記重み付け後のデータを生成する、
請求項１に記載の情報処理装置。

【請求項12】

前記領域推定部は、前記第１の学習用データと、第３のニューラルネットワークとに基づき、前記第１の領域を推定し、
前記更新部は、前記類似度に基づいて、前記第１のニューラルネットワークの重みパラメータと前記第３のニューラルネットワークの重みパラメータとを更新する、
請求項１に記載の情報処理装置。

【請求項13】

前記重み付け処理部は、前記第１の領域を拡大または縮小して得られる第２の領域、または、前記特徴テンソルのうちの前記第２の領域に対応する特徴量に対して重み付けして前記重み付け後のデータを生成する、
請求項１に記載の情報処理装置。

【請求項14】

前記第１の学習用データは、各々が同じサイズを有し、重み付けの単位に該当する、複数の部分データを含み、
前記重み付け処理部は、前記サイズに応じて前記第１の領域を拡大または縮小することにより前記第２の領域を得る、
請求項１３に記載の情報処理装置。

【請求項15】

入力データに含まれる第１の学習用データに基づいて、前記第１の学習用データにおいて検出対象が存在する第１の領域を推定することと、
前記第１の学習用データにおける前記第１の領域、または、前記第１の学習用データから変換される特徴テンソルのうちの前記第１の領域に対応する特徴量に対して重み付けして重み付け後のデータを生成することと、
第１のニューラルネットワークに基づいて、前記重み付け後のデータから第１の特徴量を抽出することと、
前記入力データに含まれる第２の学習用データに基づいて、第２の特徴量を抽出することと、
前記第１の特徴量および前記第２の特徴量の類似度に基づいて、前記第１のニューラルネットワークの重みパラメータを更新することと、
を含む、コンピュータにより実行される情報処理方法。

【請求項16】

コンピュータを、
入力データに含まれる第１の学習用データに基づいて、前記第１の学習用データにおいて検出対象が存在する第１の領域を推定する領域推定部と、
前記第１の学習用データにおける前記第１の領域、または、前記第１の学習用データから変換される特徴テンソルのうちの前記第１の領域に対応する特徴量に対して重み付けして重み付け後のデータを生成する重み付け処理部と、
第１のニューラルネットワークに基づいて、前記重み付け後のデータから第１の特徴量を抽出する第１の特徴抽出部と、
前記入力データに含まれる第２の学習用データに基づいて、第２の特徴量を抽出する第２の特徴抽出部と、
前記第１の特徴量および前記第２の特徴量の類似度に基づいて、前記第１のニューラルネットワークの重みパラメータを更新する更新部と、
を備える情報処理装置として機能させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置、情報処理方法およびプログラムに関する。

【背景技術】

【0002】

ニューラルネットワーク（以下、「ＮＮ」とも言う。）は、画像認識などの問題において高い性能を有する。近年では、このＮＮを活用した深層学習の分野において、特に自己教師有り学習が注目されている。自己教師有り学習は、学習用データとして正解データを必要としない教師無し学習の一種である。また、自己教師有り学習の一つとして対照学習も知られている。対照学習によれば、似たデータの特徴量同士は近くなるように、かつ、似ていないデータの特徴量同士は遠くなるように学習が行われる。

【0003】

このような対照学習は、画像処理分野および自然言語処理分野などにおいて特に注目されている。例えば、対照学習は、主に特徴抽出器を作るために用いられ、対照学習によりあるドメインにおいて生成された特徴抽出器は、他のドメインに転移され、転移先のドメインにおける再学習に用いられる。再学習によって生成されたモデルは、他のタスク（以下、「下流タスク」とも言う。）を解くために用いられる。

【0004】

また、異なるモーダルの学習用データを用いてＮＮの学習を行うことについても注目されている。例えば、特許文献１には、多様なモーダルの学習用データによってＮＮの学習を行う技術が開示されている。

【0005】

さらに、上記で説明した対照学習について、異なるモーダルに属する学習用データが用いられる場合もある。例えば、非特許文献１には、ｗｅｂ上の画像データとキャプションが示すテキストデータを学習用データとして、画像データとテキストデータの類似度を算出するモデルであるＣＬＩＰ（Contrastive Language-Image Pre-training）が開示されている。ＣＬＩＰは、学習用データにないデータを予測する、ｚｅｒｏ－ｓｈｏｔ性能の高いモデルとして注目されており、画像認識をはじめとする多くの下流タスクに適用される。

【0006】

また、上記のＣＬＩＰを物体検出に適用することも行われている。例えば、非特許文献２には、ＣＬＩＰモデルを２ステージの物体検出モデルに適用させたモデルであるＶｉＬＤが開示されている。また、非特許文献３には、Ｐｒｏｍｐｔｌｅａｒｎｉｎｇの手法であるＣｏＯｐ（非特許文献４に記載）をＶｉＬＤに適用させた、ＤｅｔＰｒｏが開示されている。

【0007】

２ステージの物体検出モデルでは、１ステージ目で物体が写っている領域が推定される。そして、２ステージ目で、物体が写っていると推定されたすべての領域に対してクラス分類が行われる。

【先行技術文献】

【特許文献】

【0008】

【特許文献1】特開２０２２－１４１５８７号公報

【非特許文献】

【0009】

【非特許文献1】Alec Radford、他１１名、"Learning Transferable Visual Models From Natural Language Supervision"、[online]、［令和5年4月28日検索］、インターネット＜https://arxiv.org/pdf/2103.00020.pdf＞

【非特許文献2】Xiuye Gu、他３名、"Open-vocabulary Object Detection via Vision and Language Knowledge Distillation"、[online]、［令和5年4月28日検索］、インターネット＜https://arxiv.org/pdf/2104.13921.pdf＞

【非特許文献3】Yu Du、他５名、"Learning to Prompt for Open-Vocabulary Object Detection with Vision-Language Model"、[online]、［令和5年4月28日検索］、インターネット＜https://arxiv.org/pdf/2203.14940.pdf＞

【非特許文献4】Kaiyang Zhou、他３名、"Learning to Prompt for Vision-Language Models"、[online]、［令和5年4月28日検索］、インターネット＜https://arxiv.org/pdf/2109.01134.pdf＞

【発明の概要】

【発明が解決しようとする課題】

【0010】

しかし、ＶｉＬＤおよびＤｅｔＰｒｏでは、１ステージ目で推定された領域のみを参照して２ステージ目のクラス分類を行わなければならないという問題点があった。すなわち、１ステージ目で推定された領域外に含まれる情報を２ステージ目で用いることができないため、推定された領域の情報と推定された領域外の情報との関係性を考慮したクラス分類ができなかった。さらに、このようなクラス分類に適用可能な学習済みモデルの生成も困難であった。

【0011】

そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、クラス分類の精度の向上に寄与する学習済みモデルを生成することが可能な、新規かつ改良された技術を提供することにある。

【課題を解決するための手段】

【0012】

上記課題を解決するために、本発明のある観点によれば、入力データに含まれる第１の学習用データに基づいて、前記第１の学習用データにおいて検出対象が存在する第１の領域を推定する領域推定部と、前記第１の学習用データにおける前記第１の領域、または、前記第１の学習用データから変換される特徴テンソルのうちの前記第１の領域に対応する特徴量に対して重み付けして重み付け後のデータを生成する重み付け処理部と、第１のニューラルネットワークに基づいて、前記重み付け後のデータから第１の特徴量を抽出する第１の特徴抽出部と、前記入力データに含まれる第２の学習用データに基づいて、第２の特徴量を抽出する第２の特徴抽出部と、前記第１の特徴量および前記第２の特徴量の類似度に基づいて、前記第１のニューラルネットワークの重みパラメータを更新する更新部と、を備える情報処理装置が提供される。例えば、前記第１のニューラルネットワークの重みパラメータの更新は、深層学習により実現され得る。

【0013】

前記第１の学習用データは、画像データであり、前記検出対象は、前記画像データに写っている物体であってもよい。

【0014】

前記第２の学習用データは、テキストデータであってもよい。

【0015】

前記重み付け処理部は、前記第１の学習用データにおける前記第１の領域に対して重み付けして、前記重み付け後のデータを生成してもよい。

【0016】

前記重み付け処理部は、前記特徴テンソルのうちの前記第１の領域に対応する特徴量に対して重み付けして重み付け後のデータを生成してもよい。

【0017】

前記重み付け処理部は、前記第１の学習用データにおける前記第１の領域または前記特徴テンソルのうちの前記第１の領域に対応する前記特徴量に対して値を乗算することにより、前記重み付け後のデータを生成してもよい。

【0018】

前記重み付け処理部は、前記第１の学習用データにおける前記第１の領域以外の領域または前記特徴テンソルのうちの前記第１の領域以外の領域に対応する特徴量に対して値を乗算することにより、前記重み付け後のデータを生成してもよい。

【0019】

前記更新部は、前記類似度に基づいて、前記第１のニューラルネットワークの重みパラメータおよび前記値を更新してもよい。

【0020】

前記第１の学習用データは、複数の部分データを含み、前記重み付け処理部は、前記複数の部分データの各々について、部分データに対する、当該部分データのうち前記第１の領域と重なる領域の比率を算出し、当該比率に応じた前記値を、当該部分データまたは当該部分データから変換された特徴量に対して乗算することにより、前記重み付け後のデータを生成してもよい。

【0021】

前記第２の特徴抽出部は、前記第２の学習用データと第２のニューラルネットワークとに基づいて、前記第２の特徴量を抽出し、前記更新部は、前記類似度に基づいて、前記第１のニューラルネットワークの重みパラメータと前記第２のニューラルネットワークの重みパラメータとを更新してもよい。

【0022】

前記第１の学習用データは、複数の部分データを含み、前記重み付け処理部は、前記複数の部分データの各々が、前記第１の領域に属するか否かを示すデータを、前記第１の学習用データまたは前記特徴テンソルに付与することにより、前記重み付け後のデータを生成してもよい。

【0023】

前記領域推定部は、前記第１の学習用データと、第３のニューラルネットワークとに基づき、前記第１の領域を推定し、前記更新部は、前記類似度に基づいて、前記第１のニューラルネットワークの重みパラメータと前記第３のニューラルネットワークの重みパラメータとを更新してもよい。

【0024】

前記重み付け処理部は、前記第１の領域を拡大または縮小して得られる第２の領域、または、前記特徴テンソルのうちの前記第２の領域に対応する特徴量に対して重み付けして前記重み付け後のデータを生成してもよい。

【0025】

前記第１の学習用データは、各々が同じサイズを有し、重み付けの単位に該当する、複数の部分データを含み、前記重み付け処理部は、前記サイズに応じて前記第１の領域を拡大または縮小することにより前記第２の領域を得てもよい。

【0026】

また、上記課題を解決するために本発明の別の観点によれば、入力データに含まれる第１の学習用データに基づいて、前記第１の学習用データにおいて検出対象が存在する第１の領域を推定することと、前記第１の学習用データにおける前記第１の領域、または、前記第１の学習用データから変換される特徴テンソルのうちの前記第１の領域に対応する特徴量に対して重み付けして重み付け後のデータを生成することと、第１のニューラルネットワークに基づいて、前記重み付け後のデータから第１の特徴量を抽出することと、前記入力データに含まれる第２の学習用データに基づいて、第２の特徴量を抽出することと、前記第１の特徴量および前記第２の特徴量の類似度に基づいて、前記第１のニューラルネットワークの重みパラメータを更新することと、を含む、コンピュータにより実行される情報処理方法が提供される。

【0027】

また、上記課題を解決するために本発明の別の観点によれば、コンピュータを、入力データに含まれる第１の学習用データに基づいて、前記第１の学習用データにおいて検出対象が存在する第１の領域を推定する領域推定部と、前記第１の学習用データにおける前記第１の領域、または、前記第１の学習用データから変換される特徴テンソルのうちの前記第１の領域に対応する特徴量に対して重み付けして重み付け後のデータを生成する重み付け処理部と、第１のニューラルネットワークに基づいて、前記重み付け後のデータから第１の特徴量を抽出する第１の特徴抽出部と、前記入力データに含まれる第２の学習用データに基づいて、第２の特徴量を抽出する第２の特徴抽出部と、前記第１の特徴量および前記第２の特徴量の類似度に基づいて、前記第１のニューラルネットワークの重みパラメータを更新する更新部と、を備える情報処理装置として機能させるプログラムが提供される。

【発明の効果】

【0028】

以上説明したように本発明によれば、クラス分類の精度の向上に寄与する学習済みモデルを生成することが可能である。

【図面の簡単な説明】

【0029】

【図1】本発明の実施形態に係る学習装置１０の機能構成例を示す図である。

【図2】本発明の実施形態に係る学習装置１０によって実行される学習段階の動作例を示すフローチャートである。

【図3】本発明の実施形態に係る学習装置１０の例としての情報処理装置９００のハードウェア構成を示す図である。

【発明を実施するための形態】

【0030】

以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

【0031】

（０．実施形態の概要）
まず、本発明の一実施形態の概要について説明する。本実施形態では、ＮＮの学習を行う情報処理装置（以下、「学習装置」とも言う。）について説明する。学習装置においては、学習用データに基づいてＮＮの学習が行われる（学習段階）。その後、識別装置において、学習済みのＮＮとテストデータとに基づいてテスト結果が出力される（テスト段階）。

【0032】

本実施形態では、学習装置によって行われる学習段階について主に説明する。なお、学習装置と識別装置とは同一のコンピュータによって実現されてもよいし、別のコンピュータによって実現されてもよい。学習装置と識別装置とが別のコンピュータによって実現される場合には、学習装置によって生成された学習済みのＮＮが識別装置に提供される。例えば、学習済みのＮＮは、学習装置から識別装置に、記録媒体を介して提供されてもよいし、通信を介して提供されてもよい。

【0033】

また、本実施形態の学習段階では、異なるモーダルの学習用データである第１の学習用データおよび第２の学習用データのセットが属するデータセットを用いて、２ステージでの学習が行われる。第１の学習用データおよび第２の学習用データのセットは、学習装置に入力される入力データの一例である。

【0034】

第１の学習用データは、画像データであってもよい。画像データは、例えば、静止画像データであってもよいし、複数のフレームを含んだ動画像データであってもよい。あるいは、後にも説明するように、第１の学習用データは、画像データ以外のデータであってもよい。

【0035】

第２の学習用データは、テキストデータであってもよい。また、第２の学習用データは、音声データであってもよい。

【0036】

より具体的には、第１の学習用データおよび第２の学習用データのセットは画像データおよび当該画像データに対応付けられたテキストデータのセットであってもよい。本実施形態では、第１の学習用データおよび第２の学習用データのセットが画像データおよびテキストデータのセットである場合を主に説明する。

【0037】

ただし、第１の学習用データおよび第２の学習用データのセットは上記の例に限定されず、例えば、第１の学習用データが動画像データである場合には、第２の学習用データは、当該動画像データに対応する音声データであってもよい。

【0038】

ここで、２ステージ物体検出モデルにおいては、２ステージのうちの１ステージ目では、画像データにおいて、検出対象である物体が写っている領域を推定する処理が実施される。以下、画像データにおいて物体が写っている領域を、「物体領域」とも言う。

【0039】

２ステージ目では、画像データおよびテキストデータの各々の特徴量が算出され、特徴量同士の類似度に基づき、クラス分類が行われる。ここで、画像データの特徴量は、１ステージ目で推定された物体領域に基づき算出される。上記でも説明したように、ＶｉＬＤおよびＤｅｔＰｒｏでは、画像データの特徴量が物体領域内の情報のみによって抽出される。

【0040】

しかし、画像データにおける、物体領域以外の領域（以下、「非物体領域」とも言う。）は、物体領域に写る物体のクラス分類に利用できる情報を含む可能性がある。例えば、物体領域に写る物体が動物であり、かつ非物体領域から屋外であるか屋内であるかが識別可能な場合には、非物体領域の情報がクラス分類の学習に影響を与える可能性がある。そのため、このような一般的な２ステージ物体検出モデルでは、クラス分類の精度が向上し得ない。学習段階においても、画像データにおける物体領域のみが学習モデルの生成に用いられるのが一般的であり、クラス分類の精度の向上に寄与する学習済みモデルの生成も困難であった。

【0041】

そのため、本実施形態では、物体領域と非物体領域の両方に基づき、画像データの特徴量を抽出し、物体領域と非物体領域の両方から抽出された特徴量をモデルの学習に利用する。ただし、物体領域と非物体領域とに対応する重みを異ならせることにより、特徴量に基づいて生成されるモデルの精度を向上させることを考える。例えば、本実施形態では、画像データにおける物体領域に関する重み付けを行い、重み付け後のデータに基づき画像データの特徴量を抽出する。

【0042】

（１．学習装置の構成）
続いて、図１を参照しながら、本発明の実施形態に係る学習装置の構成例について説明する。図１は、本発明の実施形態に係る学習装置１０の機能構成例を示す図である。図１に示されるように、本発明の実施形態に係る学習装置１０は、データセット１００と、入力部１０１と、ＮＮ１１と、類似度評価部１２１と、更新部１２２とを備える。

【0043】

ＮＮ１１は、重みパラメータ１１０と、領域推定部１１１と、画像特徴抽出部１１２と、テキスト特徴抽出部１１５と、を有する。なお、ＮＮ１１の主な構成は、ＣＬＩＰに準じて構成されてもよい。

【0044】

ＮＮ１１は、画像特徴抽出部１１２に含まれる第１のＮＮ（以下、「画像特徴抽出ＮＮ」とも言う。）と、テキスト特徴抽出部１１５に含まれる第２のＮＮ（以下、「テキスト特徴抽出ＮＮ」とも言う。）と、領域推定部１１１に含まれる第３のＮＮ（以下、「領域推定ＮＮ」とも言う。）と、を有する。画像特徴抽出ＮＮには、ニューロンが含まれており、更新対象となる重みパラメータが画像特徴抽出ＮＮに対応付けられている。

【0045】

なお、本実施形態においては、テキスト特徴抽出ＮＮおよび領域推定ＮＮにも、それぞれニューロンが含まれており、更新対象となる重みパラメータがテキスト特徴抽出ＮＮおよび領域推定ＮＮのそれぞれに対応付けられている場合を主に想定する。しかし、テキスト特徴抽出ＮＮおよび領域推定ＮＮのそれぞれには、ニューロンが含まれていなくてもよい。すなわち、テキスト特徴抽出ＮＮおよび領域推定ＮＮのそれぞれには、更新対象となる重みパラメータが対応付けられていなくてもよい。

【0046】

領域推定部１１１、画像特徴抽出部１１２、およびテキスト特徴抽出部１１５は、入力部１０１に接続されている。より詳細に、領域推定部１１１、画像特徴抽出部１１２、およびテキスト特徴抽出部１１５は、入力部１０１の後段に接続されている。

【0047】

また、画像特徴抽出部１１２は、領域推定部１１１の後段に接続されている。なお、領域推定部１１１の後段は、領域推定部１１１を基準として、ＮＮ１１の順方向における前方を意味し得る。ここでは、画像特徴抽出部１１２が領域推定部１１１と直接的に接続されている場合を主に想定する。しかし、画像特徴抽出部１１２は、領域推定部１１１と間接的に接続されていてもよい。

【0048】

類似度評価部１２１は、画像特徴抽出部１１２およびテキスト特徴抽出部１１５の後段に接続されている。なお、画像特徴抽出部１１２およびテキスト特徴抽出部１１５の後段は、画像特徴抽出部１１２およびテキスト特徴抽出部１１５を基準として、ＮＮ１１の順方向における前方を意味し得る。ここでは、類似度評価部１２１が画像特徴抽出部１１２およびテキスト特徴抽出部１１５のそれぞれと直接的に接続されている場合を主に想定する。しかし、類似度評価部１２１は、画像特徴抽出部１１２および／またはテキスト特徴抽出部１１５と間接的に接続されていてもよい。

【0049】

以下の説明においては、ＮＮ１１においてＮＮ１１の順方向にデータを伝播させることを、単に「順伝播」とも言う。一方、ＮＮ１１においてＮＮ１１の順方向とは逆方向（以下、単に「逆方向」とも言う。）にデータを伝播させることを、単に「逆伝播」とも言う。

【0050】

入力部１０１、領域推定部１１１、画像特徴抽出部１１２、テキスト特徴抽出部１１５、類似度評価部１２１、更新部１２２などは、ＣＰＵ（Central Processing Unit）またはＧＰＵ（Graphics Processing Unit）などの演算装置を含み、ＲＯＭ（Read Only Memory）により記憶されているプログラムが演算装置によりＲＡＭ（Random Access Memory）に展開されて実行されることにより、その機能が実現され得る。

【0051】

このとき、当該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。あるいは、これらのブロックは、専用のハードウェアにより構成されていてもよいし、複数のハードウェアの組み合わせにより構成されてもよい。演算装置による演算に必要なデータは、図示しない記憶部によって適宜記憶される。

【0052】

データセット１００および重みパラメータ１１０は、図示しない記憶部によって記憶される。かかる記憶部は、ＲＡＭ、ハードディスクドライブまたはフラッシュメモリなどのメモリによって構成されてよい。

【0053】

（重みパラメータ１１０）
重みパラメータ１１０は、画像特徴抽出ＮＮ、テキスト特徴抽出ＮＮおよび領域推定ＮＮのそれぞれに対応する重みパラメータを含む。なお、上記したように、テキスト特徴抽出ＮＮまたは領域推定ＮＮがニューロンを含まない場合などには、重みパラメータ１１０は、当該ＮＮに対応する重みパラメータを含まなくてもよい。初期状態において、重みパラメータ１１０には、初期値が設定されている。重みパラメータ１１０に設定される初期値は、どのような値であってもよく、例えば、ランダムな値であってもよい。また、重みパラメータ１１０に設定される初期値は、あらかじめ学習によって得られた学習済みの値であってもよい。

【0054】

（データセット１００）
データセット１００は、複数の、第１の学習用データおよび第２の学習用データのセットを含んで構成される。本実施形態では、第１の学習用データが画像データで、第２の学習用データがテキストデータである場合の例について主に説明するが、第１の学習用データおよび第２の学習用データがかかる例に限定されないのは上述した通りである。

【0055】

（入力部１０１）
入力部１０１は、データセット１００から、入力データとして、画像データとテキストデータのセットを取得する。ここで、入力部１０１は、データセット１００に格納される、あらかじめ互いに対応付けられた画像データとテキストデータとを正例のセットとして取得する。また、入力部１０１は、データセット１００に格納される、画像データと、当該画像データとあらかじめ対応付けられたテキストデータ以外のテキストデータとを負例のセットとして取得する。

【0056】

なお、画像データとテキストデータとの対応付けの手法は限定されない。一例として、ファイル名が付された画像ファイルがデータセット１００に格納されている場合には、画像ファイルが画像データに該当し、その画像ファイルに付されたファイル名がその画像データに対応付けられたテキストデータに該当する。ただし、正例のセットと負例のセットの取得方法は上述した例に限定されない。

【0057】

入力部１０１は、正例のセットおよび負例のセットに含まれる画像データを、領域推定部１１１および画像特徴抽出部１１２に出力する。また、入力部１０１は、正例のセットおよび負例セットに含まれるテキストデータを、テキスト特徴抽出部１１５に出力する。

【0058】

なお、学習装置１０によってミニバッチ学習が行われる場合には、入力部１０１は、正例のセットおよび負例のセットとの所定サイズ分の組み合わせをミニバッチとして作成する。そして、入力部１０１は、作成したミニバッチに含まれる、画像データを領域推定部１１１および画像特徴抽出部１１２に、テキストデータをテキスト特徴抽出部１１５に出力する。このとき、ミニバッチのサイズは特に限定されない。学習装置１０によってオンライン学習が行われる場合などには、ミニバッチは作成されなくてよい。

【0059】

（領域推定部１１１）
領域推定部１１１は、入力部１０１から出力された画像データと、領域推定ＮＮとに基づいて、画像データにおいて物体が写っている第１の領域を、物体領域として推定する。物体領域の推定は、直接的には画像データから変換された画像特徴テンソルから物体領域が推定されることによっても実現され得る。なお、領域推定部１１１では物体のクラス識別まではしなくてよい。

【0060】

領域推定ＮＮは、畳み込み層、プーリング層および活性化関数を含んで構成され得る。

【0061】

より詳細に、領域推定部１１１は、重みパラメータ１１０から領域推定ＮＮに対応する重みパラメータを取得する。そして、領域推定部１１１は、取得した重みパラメータが設定された領域推定ＮＮに、画像データを入力させて順伝播を行うことに基づいて、当該画像データにおける物体領域を推定する。

【0062】

すなわち、領域推定部１１１は、入力部１０１から出力された正例のセットに含まれる画像データと、領域推定ＮＮとに基づいて、正例のセットに含まれる画像データにおける物体領域を推定する。さらに、領域推定部１１１は、入力部１０１から出力された負例のセットに含まれる画像データと、領域推定ＮＮとに基づいて、負例のセットに含まれる画像データにおける物体領域を推定する。

【0063】

領域推定部１１１には、例えば、ＦａｓｔｅｒＲ－ＣＮＮ（Towards Real-Time Object Detection with Region Proposal Networks）の領域提案ネットワーク（ＲＰＮ：Region Proposal Network）等が用いられてもよい。あるいは、領域推定部１１１は、物体領域の推定のために領域推定ＮＮを用いなくてもよい。例えば、領域推定部１１１は、背景差分技術またはテンプレートマッチング技術などを用いて、物体領域を推定してもよい。

【0064】

なお、領域推定部１１１は、同一の画像データについて、複数の、物体が写っている領域を推定してもよい。

【0065】

領域推定部１１１は、推定した物体領域についての情報を画像特徴抽出部１１２に出力する。物体領域についての情報は、例えば、物体領域を特定するための座標情報等であってもよい。

【0066】

（画像特徴抽出部１１２）
画像特徴抽出部１１２は、重み付け処理部１１３と、抽出処理部１１４とを有する、第１の特徴抽出部の一例である。重み付け処理部１１３は、入力部１０１から出力された画像データについて、領域推定部１１１から出力された物体領域に関する重み付けを行い、重み付け後のデータを生成する。このとき、非物体領域は、画像データから除外されずに画像データに残されるため、重み付け後のデータには、物体領域だけではなく非物体領域も含まれる。抽出処理部１１４は、画像特徴抽出ＮＮに基づいて、重み付け後のデータから第１の特徴量（以下、「画像特徴量」とも言う。）を抽出する。

【0067】

なお、領域推定部１１１から同一の画像データについて複数の物体領域が出力された場合には、画像特徴抽出部１１２は、複数の物体領域の各々について重み付けを行ってもよい。

【0068】

抽出処理部１１４は、重みパラメータ１１０から画像特徴抽出ＮＮに対応する重みパラメータを取得する。そして、抽出処理部１１４は、取得した重みパラメータが設定された画像特徴抽出ＮＮに、画像データを入力させて順伝播を行うことに基づいて、画像特徴抽出ＮＮから出力されるデータを画像特徴量として得る。

【0069】

すなわち、抽出処理部１１４は、入力部１０１から出力された正例のセットに含まれる画像データと、画像特徴抽出ＮＮとに基づいて、画像特徴量を抽出する。さらに、抽出処理部１１４は、入力部１０１から出力された負例のセットに含まれる画像データと、画像特徴抽出ＮＮとに基づいて、画像特徴量を抽出する。抽出処理部１１４は、正例および負例のセットのそれぞれに含まれる画像データのそれぞれの特徴量を、類似度評価部１２１に出力する。

【0070】

ここで、画像特徴抽出ＮＮは、複数の層を含んで構成され得る。例えば、画像特徴抽出ＮＮとしては、ＲｅｓＮｅｔ（Residual Network）またはＶｉＴ（Vision Transformer）等の複数の層を含む画像特徴抽出モデルが用いられてもよい。

【0071】

画像特徴抽出ＮＮが複数の層を含む場合、重み付け処理部１１３は、重み付け処理を、当該複数の層の各々に入力される各データのうち少なくともいずれかのデータに対して行えばよい。

【0072】

例えば、重み付け処理部１１３が、画像特徴抽出ＮＮの先頭に設けられる場合などには、重み付け処理部１１３には、画像データそのものが入力される。そこで、重み付け処理部１１３は、入力部１０１から出力された画像データにおける物体領域に対して重み付けして、重み付け後のデータを生成してもよい。

【0073】

また、重み付け処理部１１３が、画像特徴抽出ＮＮの先頭以外の場所に設けられる場合などには、重み付け処理部１１３は、重み付け処理部１１３が設けられた場所の直前までの層において画像データから変換された後の特徴テンソルが入力される。そこで、重み付け処理部１１３は、画像データから変換された後の特徴テンソルのうちの、物体領域に対応する特徴量に対して重み付けして、重み付け後のデータを生成してもよい。

【0074】

重み付け処理部１１３は、複数の層の各々に入力されるデータ（画像データまたは特徴テンソル）のうちの、いずれのデータに対して重み付けを行ってもよい。例えば、重み付け処理部１１３は、複数の層のうち所定の少なくとも一つの層に入力されるデータに対して重み付けを行ってもよいし、ランダムに決定される少なくとも一つの層に入力されるデータに対して重み付けを行ってもよい。

【0075】

続いて、重み付け処理の具体的な処理内容について説明する。なお、以下では、特徴量に対して乗算される値を「重み係数」とも言う。一例として、重み付け処理部１１３は、画像データにおける物体領域または上記の特徴テンソルのうちの物体領域に対応する特徴量に対して重み係数を乗算することにより、重み付け後のデータを生成してもよい。この場合、乗算する重み係数は、例えば、１より大きい定数であってもよいし、後述の更新部１２２によって更新されるパラメータであってもよい。例えば、重み付け処理部１１３は、物体領域に対して重み係数を乗算する場合、物体領域に含まれる各画素値に対して重み係数を乗算してもよい。

【0076】

他の一例として、重み付け処理部１１３は、入力部１０１から出力された画像データにおける非物体領域または上記の特徴テンソルのうちの非物体領域に対応する特徴量に対して重み係数を乗算することにより、重み付け後のデータを生成してもよい。この場合、乗算する重み係数は、例えば、１より小さい定数であってもよいし、後述の更新部１２２によって更新されるパラメータであってもよい。

【0077】

なお、物体領域、非物体領域、または特徴テンソルのうちの物体領域または非物体領域に対応する特徴量に対して乗算する重み係数は、物体領域または非物体領域内の領域または特徴量毎に異なる値であってもよい。

【0078】

例えば、画像特徴抽出ＮＮにＶｉＴが用いられる場合には、抽出処理部１１４は、画像データを複数のパッチ（部分データの一例）に分割するので、物体領域と非物体領域の両方を含むパッチが発生する可能性がある。そのため、重み付け処理部１１３は、パッチに対する、当該パッチのうち物体領域と重なる領域の比率を算出し、当該比率に応じた重み係数を、当該パッチまたは当該パッチから変換された特徴量に対して乗算することにより、重み付け後のデータを生成してもよい。

【0079】

同様に、重み付け処理部１１３は、パッチに対する、当該パッチのうち非物体領域と重なる領域の比率を算出することに基づき重み付け後のデータを生成してもよい。

【0080】

さらに、他の一例として、重み付け処理部１１３は、物体領域と非物体領域を区別するためのデータを用いることにより重み付け処理を行ってもよい。

【0081】

例えば、画像特徴抽出ＮＮにＶｉＴが用いられる場合には、抽出処理部１１４は、画像データを複数のパッチに分割する。この場合、重み付け処理部１１３は、複数のパッチの各々が、物体領域に属するか否かを示すデータを、重み付け処理部１１３に入力されるデータに付与することにより、重み付け後のデータを生成してもよい。複数のパッチの各々が物体領域に属するか否かを示すデータの付与は、ＢＥＲＴ（Bidirectional Encoder Representations from Transformers）においてパッチに付与されるセグメントエンベディングに当該データが設定されることによって実現されてもよい。

【0082】

以上、重み付け処理の具体的な処理内容の例について説明した。ここまで、物体領域または非物体領域、または物体領域または非物体領域に対応する特徴量に対して処理を行うことにより、物体領域の重み付けを行う例について説明した。しかし、重み付け処理部１１３は、物体領域を拡大または縮小して得られる第２の領域に対して重み付けすることにより重み付け後のデータを生成してもよい。物体領域を拡大または縮小して得られる、物体領域についての重み付け処理に用いられる第２の領域を、「処理対象領域」とも称する。

【0083】

重み付け処理部１１３は、画像データから変換される特徴テンソルのうちの、処理対象領域に対応する特徴量に対して重み付けすることにより、重み付け後のデータを生成してもよい。

【0084】

より具体的に、重み付け処理部１１３は、処理対象領域を、物体領域を所定の比率で拡大または縮小することにより取得してもよい。

【0085】

物体領域を拡大した処理対象領域に対して重み付け処理が行われることにより、物体領域から物体が見切れる可能性を考慮しながら学習が行われるよう、物体領域に関する重み付けを行うことが可能である。

【0086】

また、物体領域を縮小した処理対象領域に対して重み付け処理が行われることにより、物体領域のうちより物体が存在する可能性が高い領域の情報に特に重きをおいて学習が行われるよう、物体領域に関する重み付けを行うことが可能である。

【0087】

また、重み付け処理部１１３は、重み付けの単位のサイズに応じて処理対象領域を取得してもよい。例えば、画像特徴抽出ＮＮにＶｉＴが用いられる場合には、抽出処理部１１４は、画像データを複数の、同じサイズを有するパッチに分割する。ここで、重み付け処理部１１３は、パッチが重み付けの単位に該当する場合、パッチのサイズに応じて物体領域を拡大または縮小してもよい。

【0088】

例えば、重み付け処理部１１３は、選択するパッチの数が最も少なくなるように、物体領域を包含する１または複数のパッチを選択し、当該１または複数のパッチの領域を処理対象領域としてもよい。また、重み付け処理部１１３は、物体領域のみが含まれる１または複数のパッチを選択し、当該１または複数のパッチの領域を処理対象領域としてもよい。

【0089】

（テキスト特徴抽出部１１５）
テキスト特徴抽出部１１５、入力部１０１から出力されたテキストデータと、テキスト特徴抽出ＮＮとに基づいて、テキストデータから第２の特徴量（以下、「テキスト特徴量」とも言う。）を抽出する、第２の特徴抽出部の一例である。テキスト特徴抽出ＮＮとしては、Ｔｒａｎｓｆｏｒｍｅｒ等の複数の層を含むモデルが用いられてもよい。

【0090】

テキスト特徴抽出部１１５は、重みパラメータ１１０からテキスト特徴抽出ＮＮに対応する重みパラメータを取得する。そして、テキスト特徴抽出部１１５は、取得した重みパラメータが設定されたテキスト特徴抽出ＮＮに、テキストデータを入力させて順伝播を行うことに基づいて、テキスト特徴抽出ＮＮから出力されるデータをテキスト特徴量として得る。

【0091】

すなわち、テキスト特徴抽出部１１５は、入力部１０１から出力された正例のセットに含まれるテキストデータと、テキスト特徴抽出ＮＮとに基づいて、正例のセットに含まれるテキストデータのテキスト特徴量を抽出する。また、テキスト特徴抽出部１１５は、入力部１０１から出力された負例のセットに含まれるテキストデータと、テキスト特徴抽出ＮＮとに基づいて、負例のセットに含まれるテキストデータのテキスト特徴量を抽出する。テキスト特徴抽出部１１５は、正例のセットおよび負例のセットのそれぞれに含まれるテキスト特徴量を、類似度評価部１２１に出力する。

【0092】

（類似度評価部１２１）
類似度評価部１２１は、画像特徴抽出部１１２から出力される画像特徴量と、テキスト特徴抽出部１１５から出力されるテキスト特徴量の類似度を算出する。ここで、類似度は、特徴量同士がどの程度似ているかを示す指標であってよい。例えば、類似度は、コサイン類似度であってもよい。より詳細に、類似度評価部１２１は、正例のセットに含まれる画像データおよびテキストデータから抽出された画像特徴量およびテキスト特徴量の類似度と、負例のセットに含まれる画像データおよびテキストデータから抽出された画像特徴量およびテキスト特徴量の類似度を算出する。

【0093】

類似度評価部１２１は、算出した類似度に基づいて類似度の評価をさらに行う。例えば、類似度評価部１２１は、損失を算出することにより類似度を評価してもよい。

【0094】

例えば、類似度評価部１２１は、正例のセットに含まれる画像データおよびテキストデータのそれぞれの特徴量同士の類似度が高いほど、損失が小さくなるように、損失を算出してもよい。これによって、画像データおよびテキストデータの関連性が高いほど、画像データおよびテキストデータの特徴量同士の類似度が高くなるように、画像特徴抽出ＮＮ、テキスト特徴抽出ＮＮ、および領域推定ＮＮに対応する重みパラメータが更新されることが期待される。

【0095】

さらに、類似度評価部１２１は、負例のセットに含まれる画像データおよびテキストデータのそれぞれの特徴量同士の類似度が低いほど、損失が小さくなるように、損失を算出してもよい。これによって、画像データおよびテキストデータの関連性が低いほど、画像データおよびテキストデータの特徴量同士の類似度が低くなるように、画像特徴抽出ＮＮ、テキスト特徴抽出ＮＮ、および領域推定ＮＮに対応する重みパラメータが更新されることが期待される。

【0096】

一例として、損失は、正例のセットに含まれる画像データおよびテキストデータのそれぞれの特徴量同士の類似度、および、負例のセットに含まれる画像データおよびテキストデータのそれぞれの特徴量同士の類似度に基づくＮＣＥ（ＮｏｉｓｅＣｏｎｔｒａｓｔｉｖｅＥｓｔｉｍａｔｉｏｎ）によって算出されてもよい。

【0097】

他の一例として、損失は、ＮＣＥの代わりに、正例のセットに含まれる画像データおよびテキストデータのそれぞれの特徴量同士の類似度よりも、負例のセットに含まれる画像データおよびテキストデータのそれぞれの特徴量同士の類似度を多く用いるｉｎｆｏＮＣＥによって算出されてもよい。なお、学習装置１０によってミニバッチ学習が行われる場合には、類似度評価部１２１は、ミニバッチ単位に、損失を算出する。類似度評価部１２１は、算出した損失を更新部１２２に出力する。

【0098】

（更新部１２２）
更新部１２２は、類似度評価部１２１によって得られた損失に基づいて、画像特徴抽出ＮＮ、テキスト特徴抽出ＮＮ、および領域推定ＮＮのそれぞれに対応する重みパラメータ１１０を更新する。例えば、重みパラメータ１１０の更新は、誤差逆伝播法（バックプロパゲーション）を用いて行われる。

【0099】

また、更新部１２２は、類似度評価部１２１によって得られた損失に基づいて、重み付け処理部１１３による重み付け処理の際に用いられるパラメータをさらに更新してもよい。より具体的に、重み付け処理の際に用いられるパラメータには、特徴量に対して乗算される重み係数と、物体領域に対する拡大率または縮小率とのうち、一方が含まれてもよいし、双方が含まれてもよい。

【0100】

なお、上記したように、テキスト特徴抽出ＮＮまたは領域推定ＮＮにニューロンが含まれておらず、テキスト特徴抽出ＮＮまたは領域推定ＮＮに更新対象となる重みパラメータが対応付けられていない場合も想定される。かかる場合には、更新部１２２は、テキスト特徴抽出ＮＮまたは領域推定ＮＮの重みパラメータを更新せずに、画像特徴抽出ＮＮに対応する重みパラメータ１１０を更新すればよい。

【0101】

なお、更新部１２２は、重みパラメータの更新が終わるたびに、学習終了条件が満たされたか否かを判断する。学習終了条件が満たされていないと判断された場合には、入力部１０１によって次の入力データが取得され、領域推定部１１１、画像特徴抽出部１１２、テキスト特徴抽出部１１５、類似度評価部１２１、および更新部１２２によって、当該次の入力データに基づく処理が再度実行される。一方、学習終了条件が満たされたと判断された場合には、学習が終了される。

【0102】

なお、学習終了条件は特に限定されず、学習がある程度行われたことを示す条件であればよい。具体的に、学習終了条件は、損失が閾値よりも小さいという条件を含んでもよい。あるいは、学習終了条件は、損失の変化が閾値よりも小さいという条件（損失が収束状態になったという条件）を含んでもよい。

【0103】

あるいは、学習終了条件は、重みパラメータの更新が所定の回数行われたという条件を含んでもよい。

【0104】

以上、本発明の実施形態に係る学習装置１０の構成例について説明した。

【0105】

なお、学習段階においては、上記のようにして、学習済みの画像特徴抽出部１１２が得られる。テスト段階においては、入力部１０１、領域推定部１１１（領域推定部１１１も学習を行う場合には、学習済みの領域推定部１１１）および学習済みの画像特徴抽出部１１２の後段に、識別器が接続され、識別器は、テスト用の画像データから画像特徴抽出部１１２によって抽出された画像特徴量に基づいて、クラス分類を行う。

【0106】

（２．動作例）
続いて、図２を参照しながら、本発明の実施形態に係る学習装置１０によって実行される学習段階の動作の流れについて説明する。図２は、本発明の実施形態に係る学習装置１０によって実行される学習段階の動作例を示すフローチャートである。

【0107】

まず、入力部１０１は、データセット１００から入力データを取得する（Ｓ１０１）。入力データには、画像データとテキストデータのセットが含まれる。入力部１０１は、画像データとテキストデータのセットとして、正例のセットと負例のセットとを取得する。例えば、入力部１０１は、あらかじめ互いに対応付けられた画像データとテキストデータとを正例のセットとして取得してもよい。さらに、入力部１０１は、互いに対応付けられていない画像データとテキストデータとを負例のセットとして取得する。

【0108】

入力部１０１は、正例のセットおよび負例のセットに含まれる画像データを領域推定部１１１および画像特徴抽出部１１２の各々に出力する。また、入力部１０１は、正例のセットおよび負例のセットに含まれるテキストデータをテキスト特徴抽出部１１５に出力する。

【0109】

テキスト特徴抽出部１１５は、入力部１０１から出力されたテキストデータから、テキスト特徴量を抽出する（Ｓ１０２）。

【0110】

一方、領域推定部１１１は、入力部１０１が出力した画像データから、物体領域を推定する（Ｓ１０３）。領域推定部１１１は、推定した物体領域についての情報を、画像特徴抽出部１１２に出力する。

【0111】

画像特徴抽出部１１２の重み付け処理部１１３は、画像データにおける物体領域についての重み付け処理を行うことにより、重み付け後のデータを生成する（Ｓ１０４）。このとき、非物体領域は、画像データから除外されずに画像データに残されるため、重み付け後のデータには、物体領域だけではなく非物体領域も含まれる。そして、画像特徴抽出部１１２の抽出処理部１１４は、重み付け後のデータから画像特徴量を抽出する（Ｓ１０５）。

【0112】

なお、重み付け処理部１１３による重み付け処理は、抽出処理部１１４による画像特徴量の抽出の過程で行われてもよい。例えば、重み付け処理部１１３による重み付け処理は、画像特徴抽出ＮＮに含まれる複数の層の少なくともいずれかの層に入力されるデータに対して行われてもよい。

【0113】

また、重み付け処理部１１３は、画像データから変換される特徴テンソルのうちの、物体領域に対応する特徴量に対して重み付けして重み付け後のデータを生成してもよい。このとき、非物体領域に対応する特徴量は、特徴テンソルから除外されずに特徴テンソルに残されるため、重み付け後のデータには、物体領域に対応する特徴量だけではなく非物体領域に対応する特徴量も含まれる。

【0114】

類似度評価部１２１は、画像特徴抽出部１１２から出力された画像特徴量と、テキスト特徴抽出部１１５から抽出されたテキスト特徴量の類似度を算出する（Ｓ１０６）。そして、類似度評価部１２１は、算出した類似度から損失を得ることにより、類似度を評価する（Ｓ１０７）。

【0115】

更新部１２２は、類似度評価部１２１によって得られた損失に基づいて、画像特徴抽出ＮＮ、テキスト特徴抽出ＮＮ、および領域推定ＮＮのそれぞれに対応する重みパラメータ１１０を更新する（Ｓ１０８）。

【0116】

そして、学習終了条件が満たされない場合（Ｓ１０９／ＮＯ）、動作はＳ１０１に戻る。一方、学習終了条件が満たされた場合（Ｓ１０９／ＹＥＳ）、ＮＮ１１による学習が終了される。

【0117】

以上、本発明の実施形態に係る学習装置１０によって実行される動作の流れについて説明した。

【0118】

以上に説明したように、本発明の実施形態によれば、物体領域の推定結果を考慮しながら、物体領域と非物体領域の両方に基づき画像特徴量を抽出し、当該画像特徴量に基づき、各ＮＮの学習を進めることが可能である。これによって、特徴抽出器の精度が向上する。

【0119】

（３．ハードウェア構成例）
続いて、本発明の実施形態に係る学習装置１０のハードウェア構成例について説明する。

【0120】

以下では、本発明の実施形態に係る学習装置１０のハードウェア構成例として、情報処理装置９００のハードウェア構成例について説明する。なお、以下に説明する情報処理装置９００のハードウェア構成例は、学習装置１０のハードウェア構成の一例に過ぎない。したがって、学習装置１０のハードウェア構成は、以下に説明する情報処理装置９００のハードウェア構成から不要な構成が削除されてもよいし、新たな構成が追加されてもよい。

【0121】

図３は、本発明の実施形態に係る学習装置１０の例としての情報処理装置９００のハードウェア構成を示す図である。情報処理装置９００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）９０１と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）９０２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９０３と、ホストバス９０４と、ブリッジ９０５と、外部バス９０６と、インタフェース９０７と、入力装置９０８と、出力装置９０９と、ストレージ装置９１０と、通信装置９１１と、を備える。

【0122】

ＣＰＵ９０１は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置９００内の動作全般を制御する。また、ＣＰＵ９０１は、マイクロプロセッサであってもよい。ＲＯＭ９０２は、ＣＰＵ９０１が使用するプログラムや演算パラメータ等を記憶する。ＲＡＭ９０３は、ＣＰＵ９０１の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはＣＰＵバス等から構成されるホストバス９０４により相互に接続されている。

【0123】

ホストバス９０４は、ブリッジ９０５を介して、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バス等の外部バス９０６に接続されている。なお、必ずしもホストバス９０４、ブリッジ９０５および外部バス９０６を分離構成する必要はなく、１つのバスにこれらの機能を実装してもよい。

【0124】

入力装置９０８は、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチおよびレバー等ユーザが情報を入力するための入力手段と、ユーザによる入力に基づいて入力信号を生成し、ＣＰＵ９０１に出力する入力制御回路等から構成されている。情報処理装置９００を操作するユーザは、この入力装置９０８を操作することにより、情報処理装置９００に対して各種のデータを入力したり処理動作を指示したりすることができる。

【0125】

出力装置９０９は、例えば、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）ディスプレイ装置、液晶ディスプレイ（ＬＣＤ）装置、ＯＬＥＤ（ＯｒｇａｎｉｃＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）装置、ランプ等の表示装置およびスピーカ等の音声出力装置を含む。

【0126】

ストレージ装置９１０は、データ格納用の装置である。ストレージ装置９１０は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置等を含んでもよい。ストレージ装置９１０は、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）で構成される。このストレージ装置９１０は、ハードディスクを駆動し、ＣＰＵ９０１が実行するプログラムや各種データを格納する。

【0127】

通信装置９１１は、例えば、ネットワークに接続するための通信デバイス等で構成された通信インタフェースである。また、通信装置９１１は、無線通信または有線通信のどちらに対応してもよい。

【0128】

以上、本発明の実施形態に係る学習装置１０のハードウェア構成例について説明した。

【0129】

（４．まとめ）
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

【0130】

例えば、上記実施形態では、学習段階においてＰｒｏｍｐｔＬｅａｒｎｉｎｇが適用されてもよい。学習段階においてＰｒｏｍｐｔＬｅａｒｎｉｎｇが適用される場合、入力部１０１は、画像データまたはテキストデータの少なくとも一方に学習可能パラメータ（プロンプト）を付与してもよい。または、入力部１０１は入力データの一部をプロンプトに置き換えてもよい。

【0131】

または、画像特徴抽出部１１２またはテキスト特徴抽出部１１５は、画像特徴抽出ＮＮまたはテキスト特徴抽出ＮＮを構成する層へ入力されるデータ（例えば、ｔｒａｎｓｆｏｒｍｅｒ層に入力されるデータ）に学習可能パラメータ（プロンプトあるいはメモリートークン）を付与しても良い。これにより、ＣＬＩＰの事前学習に用いられるデータと、本実施形態における物体検出モデルの学習に用いる入力データとのドメインの違いに対応することが可能である。

【0132】

また、上記実施形態では、重み付けがされる第１の学習用データが画像データである例を説明した。しかし、第１の学習用データとして、画像データの代わりに他の学習用データが用いられてもよい。また、上記実施形態では、検出対象が物体である例を説明したが、検出対象は第１の学習用データの種類に応じて適宜に変更されてよい。例えば、第１の学習用データとして音声データが用いられる場合には、検出対象として物体の代わりに特定の音が存在する領域が領域推定部１１１によって推定されてもよい。第１の学習用データとして音声データが用いられる場合には、第２の学習用データは、テキストデータなどであってもよい。

【符号の説明】

【0133】

１０学習装置
１１ニューラルネットワーク
１００データセット
１０１入力部
１１０重みパラメータ
１１１領域推定部
１１２画像特徴抽出部
１１３重み付け処理部
１１４抽出処理部
１１５テキスト特徴抽出部
１２１類似度評価部
１２２更新部

【図1】

【図2】

【図3】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版