IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 沖電気工業株式会社の特許一覧

特開2024-164981情報処理装置、情報処理方法およびプログラム
<>
  • 特開-情報処理装置、情報処理方法およびプログラム 図1
  • 特開-情報処理装置、情報処理方法およびプログラム 図2
  • 特開-情報処理装置、情報処理方法およびプログラム 図3
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024164981
(43)【公開日】2024-11-28
(54)【発明の名称】情報処理装置、情報処理方法およびプログラム
(51)【国際特許分類】
   G06N 3/088 20230101AFI20241121BHJP
   G06T 7/00 20170101ALI20241121BHJP
   G06V 10/82 20220101ALI20241121BHJP
【FI】
G06N3/088
G06T7/00 350C
G06V10/82
【審査請求】未請求
【請求項の数】16
【出願形態】OL
(21)【出願番号】P 2023080750
(22)【出願日】2023-05-16
(71)【出願人】
【識別番号】000000295
【氏名又は名称】沖電気工業株式会社
(74)【代理人】
【識別番号】100140958
【弁理士】
【氏名又は名称】伊藤 学
(74)【代理人】
【識別番号】100137888
【弁理士】
【氏名又は名称】大山 夏子
(74)【代理人】
【識別番号】100190942
【弁理士】
【氏名又は名称】風間 竜司
(72)【発明者】
【氏名】泊口 万里子
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096CA01
5L096DA02
5L096EA03
5L096EA39
5L096FA19
5L096HA09
5L096HA11
5L096JA05
5L096JA11
5L096KA04
(57)【要約】      (修正有)
【課題】クラス分類の精度の向上に寄与する学習済みモデルを生成する情報処理装置、方法およびプログラムを提供する。
【解決手段】学習装置は、入力データに含まれる第1の学習用データに基づいて、第1の学習用データにおいて検出対象が存在する第1の領域を推定する領域推定部と、第1の学習用データにおける第1の領域または第1の学習用データから変換される特徴テンソルのうちの前記第1の領域に対応する特徴量に対して重み付けして重み付け後のデータを生成する重み付け処理部と、第1のニューラルネットワークに基づいて、重み付け後のデータから第1の特徴量を抽出する第1の特徴抽出部と、入力データに含まれる第2の学習用データに基づいて、第2の特徴量を抽出する第2の特徴抽出部と、第1の特徴量および第2の特徴量の類似度に基づいて、第1のニューラルネットワークの重みパラメータを更新する更新部と、を備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
入力データに含まれる第1の学習用データに基づいて、前記第1の学習用データにおいて検出対象が存在する第1の領域を推定する領域推定部と、
前記第1の学習用データにおける前記第1の領域、または、前記第1の学習用データから変換される特徴テンソルのうちの前記第1の領域に対応する特徴量に対して重み付けして重み付け後のデータを生成する重み付け処理部と、
第1のニューラルネットワークに基づいて、前記重み付け後のデータから第1の特徴量を抽出する第1の特徴抽出部と、
前記入力データに含まれる第2の学習用データに基づいて、第2の特徴量を抽出する第2の特徴抽出部と、
前記第1の特徴量および前記第2の特徴量の類似度に基づいて、前記第1のニューラルネットワークの重みパラメータを更新する更新部と、
を備える情報処理装置。
【請求項2】
前記第1の学習用データは、画像データであり、
前記検出対象は、前記画像データに写っている物体である、
請求項1に記載の情報処理装置。
【請求項3】
前記第2の学習用データは、テキストデータである、
請求項1または2に記載の情報処理装置。
【請求項4】
前記重み付け処理部は、前記第1の学習用データにおける前記第1の領域に対して重み付けして、前記重み付け後のデータを生成する、
請求項1に記載の情報処理装置。
【請求項5】
前記重み付け処理部は、前記特徴テンソルのうちの前記第1の領域に対応する特徴量に対して重み付けして重み付け後のデータを生成する、
請求項1に記載の情報処理装置。
【請求項6】
前記重み付け処理部は、前記第1の学習用データにおける前記第1の領域または前記特徴テンソルのうちの前記第1の領域に対応する前記特徴量に対して値を乗算することにより、前記重み付け後のデータを生成する、
請求項1に記載の情報処理装置。
【請求項7】
前記重み付け処理部は、前記第1の学習用データにおける前記第1の領域以外の領域または前記特徴テンソルのうちの前記第1の領域以外の領域に対応する特徴量に対して値を乗算することにより、前記重み付け後のデータを生成する、
請求項1に記載の情報処理装置。
【請求項8】
前記更新部は、前記類似度に基づいて、前記第1のニューラルネットワークの重みパラメータおよび前記値を更新する、
請求項6または7に記載の情報処理装置。
【請求項9】
前記第1の学習用データは、複数の部分データを含み、
前記重み付け処理部は、前記複数の部分データの各々について、部分データに対する、当該部分データのうち前記第1の領域と重なる領域の比率を算出し、当該比率に応じた前記値を、当該部分データまたは当該部分データから変換された特徴量に対して乗算することにより、前記重み付け後のデータを生成する、
請求項6または7に記載の情報処理装置。
【請求項10】
前記第2の特徴抽出部は、前記第2の学習用データと第2のニューラルネットワークとに基づいて、前記第2の特徴量を抽出し、
前記更新部は、前記類似度に基づいて、前記第1のニューラルネットワークの重みパラメータと前記第2のニューラルネットワークの重みパラメータとを更新する、
請求項1に記載の情報処理装置。
【請求項11】
前記第1の学習用データは、複数の部分データを含み、
前記重み付け処理部は、前記複数の部分データの各々が、前記第1の領域に属するか否かを示すデータを、前記第1の学習用データまたは前記特徴テンソルに付与することにより、前記重み付け後のデータを生成する、
請求項1に記載の情報処理装置。
【請求項12】
前記領域推定部は、前記第1の学習用データと、第3のニューラルネットワークとに基づき、前記第1の領域を推定し、
前記更新部は、前記類似度に基づいて、前記第1のニューラルネットワークの重みパラメータと前記第3のニューラルネットワークの重みパラメータとを更新する、
請求項1に記載の情報処理装置。
【請求項13】
前記重み付け処理部は、前記第1の領域を拡大または縮小して得られる第2の領域、または、前記特徴テンソルのうちの前記第2の領域に対応する特徴量に対して重み付けして前記重み付け後のデータを生成する、
請求項1に記載の情報処理装置。
【請求項14】
前記第1の学習用データは、各々が同じサイズを有し、重み付けの単位に該当する、複数の部分データを含み、
前記重み付け処理部は、前記サイズに応じて前記第1の領域を拡大または縮小することにより前記第2の領域を得る、
請求項13に記載の情報処理装置。
【請求項15】
入力データに含まれる第1の学習用データに基づいて、前記第1の学習用データにおいて検出対象が存在する第1の領域を推定することと、
前記第1の学習用データにおける前記第1の領域、または、前記第1の学習用データから変換される特徴テンソルのうちの前記第1の領域に対応する特徴量に対して重み付けして重み付け後のデータを生成することと、
第1のニューラルネットワークに基づいて、前記重み付け後のデータから第1の特徴量を抽出することと、
前記入力データに含まれる第2の学習用データに基づいて、第2の特徴量を抽出することと、
前記第1の特徴量および前記第2の特徴量の類似度に基づいて、前記第1のニューラルネットワークの重みパラメータを更新することと、
を含む、コンピュータにより実行される情報処理方法。
【請求項16】
コンピュータを、
入力データに含まれる第1の学習用データに基づいて、前記第1の学習用データにおいて検出対象が存在する第1の領域を推定する領域推定部と、
前記第1の学習用データにおける前記第1の領域、または、前記第1の学習用データから変換される特徴テンソルのうちの前記第1の領域に対応する特徴量に対して重み付けして重み付け後のデータを生成する重み付け処理部と、
第1のニューラルネットワークに基づいて、前記重み付け後のデータから第1の特徴量を抽出する第1の特徴抽出部と、
前記入力データに含まれる第2の学習用データに基づいて、第2の特徴量を抽出する第2の特徴抽出部と、
前記第1の特徴量および前記第2の特徴量の類似度に基づいて、前記第1のニューラルネットワークの重みパラメータを更新する更新部と、
を備える情報処理装置として機能させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法およびプログラムに関する。
【背景技術】
【0002】
ニューラルネットワーク(以下、「NN」とも言う。)は、画像認識などの問題において高い性能を有する。近年では、このNNを活用した深層学習の分野において、特に自己教師有り学習が注目されている。自己教師有り学習は、学習用データとして正解データを必要としない教師無し学習の一種である。また、自己教師有り学習の一つとして対照学習も知られている。対照学習によれば、似たデータの特徴量同士は近くなるように、かつ、似ていないデータの特徴量同士は遠くなるように学習が行われる。
【0003】
このような対照学習は、画像処理分野および自然言語処理分野などにおいて特に注目されている。例えば、対照学習は、主に特徴抽出器を作るために用いられ、対照学習によりあるドメインにおいて生成された特徴抽出器は、他のドメインに転移され、転移先のドメインにおける再学習に用いられる。再学習によって生成されたモデルは、他のタスク(以下、「下流タスク」とも言う。)を解くために用いられる。
【0004】
また、異なるモーダルの学習用データを用いてNNの学習を行うことについても注目されている。例えば、特許文献1には、多様なモーダルの学習用データによってNNの学習を行う技術が開示されている。
【0005】
さらに、上記で説明した対照学習について、異なるモーダルに属する学習用データが用いられる場合もある。例えば、非特許文献1には、web上の画像データとキャプションが示すテキストデータを学習用データとして、画像データとテキストデータの類似度を算出するモデルであるCLIP(Contrastive Language-Image Pre-training)が開示されている。CLIPは、学習用データにないデータを予測する、zero-shot性能の高いモデルとして注目されており、画像認識をはじめとする多くの下流タスクに適用される。
【0006】
また、上記のCLIPを物体検出に適用することも行われている。例えば、非特許文献2には、CLIPモデルを2ステージの物体検出モデルに適用させたモデルであるViLDが開示されている。また、非特許文献3には、Prompt learningの手法であるCoOp(非特許文献4に記載)をViLDに適用させた、DetProが開示されている。
【0007】
2ステージの物体検出モデルでは、1ステージ目で物体が写っている領域が推定される。そして、2ステージ目で、物体が写っていると推定されたすべての領域に対してクラス分類が行われる。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】特開2022-141587号公報
【非特許文献】
【0009】
【非特許文献1】Alec Radford、他11名、"Learning Transferable Visual Models From Natural Language Supervision"、[online]、[令和5年4月28日検索]、インターネット<https://arxiv.org/pdf/2103.00020.pdf>
【非特許文献2】Xiuye Gu、他3名、"Open-vocabulary Object Detection via Vision and Language Knowledge Distillation"、[online]、[令和5年4月28日検索]、インターネット<https://arxiv.org/pdf/2104.13921.pdf>
【非特許文献3】Yu Du、他5名、"Learning to Prompt for Open-Vocabulary Object Detection with Vision-Language Model"、[online]、[令和5年4月28日検索]、インターネット<https://arxiv.org/pdf/2203.14940.pdf>
【非特許文献4】Kaiyang Zhou、他3名、"Learning to Prompt for Vision-Language Models"、[online]、[令和5年4月28日検索]、インターネット<https://arxiv.org/pdf/2109.01134.pdf>
【発明の概要】
【発明が解決しようとする課題】
【0010】
しかし、ViLDおよびDetProでは、1ステージ目で推定された領域のみを参照して2ステージ目のクラス分類を行わなければならないという問題点があった。すなわち、1ステージ目で推定された領域外に含まれる情報を2ステージ目で用いることができないため、推定された領域の情報と推定された領域外の情報との関係性を考慮したクラス分類ができなかった。さらに、このようなクラス分類に適用可能な学習済みモデルの生成も困難であった。
【0011】
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、クラス分類の精度の向上に寄与する学習済みモデルを生成することが可能な、新規かつ改良された技術を提供することにある。
【課題を解決するための手段】
【0012】
上記課題を解決するために、本発明のある観点によれば、入力データに含まれる第1の学習用データに基づいて、前記第1の学習用データにおいて検出対象が存在する第1の領域を推定する領域推定部と、前記第1の学習用データにおける前記第1の領域、または、前記第1の学習用データから変換される特徴テンソルのうちの前記第1の領域に対応する特徴量に対して重み付けして重み付け後のデータを生成する重み付け処理部と、第1のニューラルネットワークに基づいて、前記重み付け後のデータから第1の特徴量を抽出する第1の特徴抽出部と、前記入力データに含まれる第2の学習用データに基づいて、第2の特徴量を抽出する第2の特徴抽出部と、前記第1の特徴量および前記第2の特徴量の類似度に基づいて、前記第1のニューラルネットワークの重みパラメータを更新する更新部と、を備える情報処理装置が提供される。例えば、前記第1のニューラルネットワークの重みパラメータの更新は、深層学習により実現され得る。
【0013】
前記第1の学習用データは、画像データであり、前記検出対象は、前記画像データに写っている物体であってもよい。
【0014】
前記第2の学習用データは、テキストデータであってもよい。
【0015】
前記重み付け処理部は、前記第1の学習用データにおける前記第1の領域に対して重み付けして、前記重み付け後のデータを生成してもよい。
【0016】
前記重み付け処理部は、前記特徴テンソルのうちの前記第1の領域に対応する特徴量に対して重み付けして重み付け後のデータを生成してもよい。
【0017】
前記重み付け処理部は、前記第1の学習用データにおける前記第1の領域または前記特徴テンソルのうちの前記第1の領域に対応する前記特徴量に対して値を乗算することにより、前記重み付け後のデータを生成してもよい。
【0018】
前記重み付け処理部は、前記第1の学習用データにおける前記第1の領域以外の領域または前記特徴テンソルのうちの前記第1の領域以外の領域に対応する特徴量に対して値を乗算することにより、前記重み付け後のデータを生成してもよい。
【0019】
前記更新部は、前記類似度に基づいて、前記第1のニューラルネットワークの重みパラメータおよび前記値を更新してもよい。
【0020】
前記第1の学習用データは、複数の部分データを含み、前記重み付け処理部は、前記複数の部分データの各々について、部分データに対する、当該部分データのうち前記第1の領域と重なる領域の比率を算出し、当該比率に応じた前記値を、当該部分データまたは当該部分データから変換された特徴量に対して乗算することにより、前記重み付け後のデータを生成してもよい。
【0021】
前記第2の特徴抽出部は、前記第2の学習用データと第2のニューラルネットワークとに基づいて、前記第2の特徴量を抽出し、前記更新部は、前記類似度に基づいて、前記第1のニューラルネットワークの重みパラメータと前記第2のニューラルネットワークの重みパラメータとを更新してもよい。
【0022】
前記第1の学習用データは、複数の部分データを含み、前記重み付け処理部は、前記複数の部分データの各々が、前記第1の領域に属するか否かを示すデータを、前記第1の学習用データまたは前記特徴テンソルに付与することにより、前記重み付け後のデータを生成してもよい。
【0023】
前記領域推定部は、前記第1の学習用データと、第3のニューラルネットワークとに基づき、前記第1の領域を推定し、前記更新部は、前記類似度に基づいて、前記第1のニューラルネットワークの重みパラメータと前記第3のニューラルネットワークの重みパラメータとを更新してもよい。
【0024】
前記重み付け処理部は、前記第1の領域を拡大または縮小して得られる第2の領域、または、前記特徴テンソルのうちの前記第2の領域に対応する特徴量に対して重み付けして前記重み付け後のデータを生成してもよい。
【0025】
前記第1の学習用データは、各々が同じサイズを有し、重み付けの単位に該当する、複数の部分データを含み、前記重み付け処理部は、前記サイズに応じて前記第1の領域を拡大または縮小することにより前記第2の領域を得てもよい。
【0026】
また、上記課題を解決するために本発明の別の観点によれば、入力データに含まれる第1の学習用データに基づいて、前記第1の学習用データにおいて検出対象が存在する第1の領域を推定することと、前記第1の学習用データにおける前記第1の領域、または、前記第1の学習用データから変換される特徴テンソルのうちの前記第1の領域に対応する特徴量に対して重み付けして重み付け後のデータを生成することと、第1のニューラルネットワークに基づいて、前記重み付け後のデータから第1の特徴量を抽出することと、前記入力データに含まれる第2の学習用データに基づいて、第2の特徴量を抽出することと、前記第1の特徴量および前記第2の特徴量の類似度に基づいて、前記第1のニューラルネットワークの重みパラメータを更新することと、を含む、コンピュータにより実行される情報処理方法が提供される。
【0027】
また、上記課題を解決するために本発明の別の観点によれば、コンピュータを、入力データに含まれる第1の学習用データに基づいて、前記第1の学習用データにおいて検出対象が存在する第1の領域を推定する領域推定部と、前記第1の学習用データにおける前記第1の領域、または、前記第1の学習用データから変換される特徴テンソルのうちの前記第1の領域に対応する特徴量に対して重み付けして重み付け後のデータを生成する重み付け処理部と、第1のニューラルネットワークに基づいて、前記重み付け後のデータから第1の特徴量を抽出する第1の特徴抽出部と、前記入力データに含まれる第2の学習用データに基づいて、第2の特徴量を抽出する第2の特徴抽出部と、前記第1の特徴量および前記第2の特徴量の類似度に基づいて、前記第1のニューラルネットワークの重みパラメータを更新する更新部と、を備える情報処理装置として機能させるプログラムが提供される。
【発明の効果】
【0028】
以上説明したように本発明によれば、クラス分類の精度の向上に寄与する学習済みモデルを生成することが可能である。
【図面の簡単な説明】
【0029】
図1】本発明の実施形態に係る学習装置10の機能構成例を示す図である。
図2】本発明の実施形態に係る学習装置10によって実行される学習段階の動作例を示すフローチャートである。
図3】本発明の実施形態に係る学習装置10の例としての情報処理装置900のハードウェア構成を示す図である。
【発明を実施するための形態】
【0030】
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
【0031】
(0.実施形態の概要)
まず、本発明の一実施形態の概要について説明する。本実施形態では、NNの学習を行う情報処理装置(以下、「学習装置」とも言う。)について説明する。学習装置においては、学習用データに基づいてNNの学習が行われる(学習段階)。その後、識別装置において、学習済みのNNとテストデータとに基づいてテスト結果が出力される(テスト段階)。
【0032】
本実施形態では、学習装置によって行われる学習段階について主に説明する。なお、学習装置と識別装置とは同一のコンピュータによって実現されてもよいし、別のコンピュータによって実現されてもよい。学習装置と識別装置とが別のコンピュータによって実現される場合には、学習装置によって生成された学習済みのNNが識別装置に提供される。例えば、学習済みのNNは、学習装置から識別装置に、記録媒体を介して提供されてもよいし、通信を介して提供されてもよい。
【0033】
また、本実施形態の学習段階では、異なるモーダルの学習用データである第1の学習用データおよび第2の学習用データのセットが属するデータセットを用いて、2ステージでの学習が行われる。第1の学習用データおよび第2の学習用データのセットは、学習装置に入力される入力データの一例である。
【0034】
第1の学習用データは、画像データであってもよい。画像データは、例えば、静止画像データであってもよいし、複数のフレームを含んだ動画像データであってもよい。あるいは、後にも説明するように、第1の学習用データは、画像データ以外のデータであってもよい。
【0035】
第2の学習用データは、テキストデータであってもよい。また、第2の学習用データは、音声データであってもよい。
【0036】
より具体的には、第1の学習用データおよび第2の学習用データのセットは画像データおよび当該画像データに対応付けられたテキストデータのセットであってもよい。本実施形態では、第1の学習用データおよび第2の学習用データのセットが画像データおよびテキストデータのセットである場合を主に説明する。
【0037】
ただし、第1の学習用データおよび第2の学習用データのセットは上記の例に限定されず、例えば、第1の学習用データが動画像データである場合には、第2の学習用データは、当該動画像データに対応する音声データであってもよい。
【0038】
ここで、2ステージ物体検出モデルにおいては、2ステージのうちの1ステージ目では、画像データにおいて、検出対象である物体が写っている領域を推定する処理が実施される。以下、画像データにおいて物体が写っている領域を、「物体領域」とも言う。
【0039】
2ステージ目では、画像データおよびテキストデータの各々の特徴量が算出され、特徴量同士の類似度に基づき、クラス分類が行われる。ここで、画像データの特徴量は、1ステージ目で推定された物体領域に基づき算出される。上記でも説明したように、ViLDおよびDetProでは、画像データの特徴量が物体領域内の情報のみによって抽出される。
【0040】
しかし、画像データにおける、物体領域以外の領域(以下、「非物体領域」とも言う。)は、物体領域に写る物体のクラス分類に利用できる情報を含む可能性がある。例えば、物体領域に写る物体が動物であり、かつ非物体領域から屋外であるか屋内であるかが識別可能な場合には、非物体領域の情報がクラス分類の学習に影響を与える可能性がある。そのため、このような一般的な2ステージ物体検出モデルでは、クラス分類の精度が向上し得ない。学習段階においても、画像データにおける物体領域のみが学習モデルの生成に用いられるのが一般的であり、クラス分類の精度の向上に寄与する学習済みモデルの生成も困難であった。
【0041】
そのため、本実施形態では、物体領域と非物体領域の両方に基づき、画像データの特徴量を抽出し、物体領域と非物体領域の両方から抽出された特徴量をモデルの学習に利用する。ただし、物体領域と非物体領域とに対応する重みを異ならせることにより、特徴量に基づいて生成されるモデルの精度を向上させることを考える。例えば、本実施形態では、画像データにおける物体領域に関する重み付けを行い、重み付け後のデータに基づき画像データの特徴量を抽出する。
【0042】
(1.学習装置の構成)
続いて、図1を参照しながら、本発明の実施形態に係る学習装置の構成例について説明する。図1は、本発明の実施形態に係る学習装置10の機能構成例を示す図である。図1に示されるように、本発明の実施形態に係る学習装置10は、データセット100と、入力部101と、NN11と、類似度評価部121と、更新部122とを備える。
【0043】
NN11は、重みパラメータ110と、領域推定部111と、画像特徴抽出部112と、テキスト特徴抽出部115と、を有する。なお、NN11の主な構成は、CLIPに準じて構成されてもよい。
【0044】
NN11は、画像特徴抽出部112に含まれる第1のNN(以下、「画像特徴抽出NN」とも言う。)と、テキスト特徴抽出部115に含まれる第2のNN(以下、「テキスト特徴抽出NN」とも言う。)と、領域推定部111に含まれる第3のNN(以下、「領域推定NN」とも言う。)と、を有する。画像特徴抽出NNには、ニューロンが含まれており、更新対象となる重みパラメータが画像特徴抽出NNに対応付けられている。
【0045】
なお、本実施形態においては、テキスト特徴抽出NNおよび領域推定NNにも、それぞれニューロンが含まれており、更新対象となる重みパラメータがテキスト特徴抽出NNおよび領域推定NNのそれぞれに対応付けられている場合を主に想定する。しかし、テキスト特徴抽出NNおよび領域推定NNのそれぞれには、ニューロンが含まれていなくてもよい。すなわち、テキスト特徴抽出NNおよび領域推定NNのそれぞれには、更新対象となる重みパラメータが対応付けられていなくてもよい。
【0046】
領域推定部111、画像特徴抽出部112、およびテキスト特徴抽出部115は、入力部101に接続されている。より詳細に、領域推定部111、画像特徴抽出部112、およびテキスト特徴抽出部115は、入力部101の後段に接続されている。
【0047】
また、画像特徴抽出部112は、領域推定部111の後段に接続されている。なお、領域推定部111の後段は、領域推定部111を基準として、NN11の順方向における前方を意味し得る。ここでは、画像特徴抽出部112が領域推定部111と直接的に接続されている場合を主に想定する。しかし、画像特徴抽出部112は、領域推定部111と間接的に接続されていてもよい。
【0048】
類似度評価部121は、画像特徴抽出部112およびテキスト特徴抽出部115の後段に接続されている。なお、画像特徴抽出部112およびテキスト特徴抽出部115の後段は、画像特徴抽出部112およびテキスト特徴抽出部115を基準として、NN11の順方向における前方を意味し得る。ここでは、類似度評価部121が画像特徴抽出部112およびテキスト特徴抽出部115のそれぞれと直接的に接続されている場合を主に想定する。しかし、類似度評価部121は、画像特徴抽出部112および/またはテキスト特徴抽出部115と間接的に接続されていてもよい。
【0049】
以下の説明においては、NN11においてNN11の順方向にデータを伝播させることを、単に「順伝播」とも言う。一方、NN11においてNN11の順方向とは逆方向(以下、単に「逆方向」とも言う。)にデータを伝播させることを、単に「逆伝播」とも言う。
【0050】
入力部101、領域推定部111、画像特徴抽出部112、テキスト特徴抽出部115、類似度評価部121、更新部122などは、CPU(Central Processing Unit)またはGPU(Graphics Processing Unit)などの演算装置を含み、ROM(Read Only Memory)により記憶されているプログラムが演算装置によりRAM(Random Access Memory)に展開されて実行されることにより、その機能が実現され得る。
【0051】
このとき、当該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。あるいは、これらのブロックは、専用のハードウェアにより構成されていてもよいし、複数のハードウェアの組み合わせにより構成されてもよい。演算装置による演算に必要なデータは、図示しない記憶部によって適宜記憶される。
【0052】
データセット100および重みパラメータ110は、図示しない記憶部によって記憶される。かかる記憶部は、RAM、ハードディスクドライブまたはフラッシュメモリなどのメモリによって構成されてよい。
【0053】
(重みパラメータ110)
重みパラメータ110は、画像特徴抽出NN、テキスト特徴抽出NNおよび領域推定NNのそれぞれに対応する重みパラメータを含む。なお、上記したように、テキスト特徴抽出NNまたは領域推定NNがニューロンを含まない場合などには、重みパラメータ110は、当該NNに対応する重みパラメータを含まなくてもよい。初期状態において、重みパラメータ110には、初期値が設定されている。重みパラメータ110に設定される初期値は、どのような値であってもよく、例えば、ランダムな値であってもよい。また、重みパラメータ110に設定される初期値は、あらかじめ学習によって得られた学習済みの値であってもよい。
【0054】
(データセット100)
データセット100は、複数の、第1の学習用データおよび第2の学習用データのセットを含んで構成される。本実施形態では、第1の学習用データが画像データで、第2の学習用データがテキストデータである場合の例について主に説明するが、第1の学習用データおよび第2の学習用データがかかる例に限定されないのは上述した通りである。
【0055】
(入力部101)
入力部101は、データセット100から、入力データとして、画像データとテキストデータのセットを取得する。ここで、入力部101は、データセット100に格納される、あらかじめ互いに対応付けられた画像データとテキストデータとを正例のセットとして取得する。また、入力部101は、データセット100に格納される、画像データと、当該画像データとあらかじめ対応付けられたテキストデータ以外のテキストデータとを負例のセットとして取得する。
【0056】
なお、画像データとテキストデータとの対応付けの手法は限定されない。一例として、ファイル名が付された画像ファイルがデータセット100に格納されている場合には、画像ファイルが画像データに該当し、その画像ファイルに付されたファイル名がその画像データに対応付けられたテキストデータに該当する。ただし、正例のセットと負例のセットの取得方法は上述した例に限定されない。
【0057】
入力部101は、正例のセットおよび負例のセットに含まれる画像データを、領域推定部111および画像特徴抽出部112に出力する。また、入力部101は、正例のセットおよび負例セットに含まれるテキストデータを、テキスト特徴抽出部115に出力する。
【0058】
なお、学習装置10によってミニバッチ学習が行われる場合には、入力部101は、正例のセットおよび負例のセットとの所定サイズ分の組み合わせをミニバッチとして作成する。そして、入力部101は、作成したミニバッチに含まれる、画像データを領域推定部111および画像特徴抽出部112に、テキストデータをテキスト特徴抽出部115に出力する。このとき、ミニバッチのサイズは特に限定されない。学習装置10によってオンライン学習が行われる場合などには、ミニバッチは作成されなくてよい。
【0059】
(領域推定部111)
領域推定部111は、入力部101から出力された画像データと、領域推定NNとに基づいて、画像データにおいて物体が写っている第1の領域を、物体領域として推定する。物体領域の推定は、直接的には画像データから変換された画像特徴テンソルから物体領域が推定されることによっても実現され得る。なお、領域推定部111では物体のクラス識別まではしなくてよい。
【0060】
領域推定NNは、畳み込み層、プーリング層および活性化関数を含んで構成され得る。
【0061】
より詳細に、領域推定部111は、重みパラメータ110から領域推定NNに対応する重みパラメータを取得する。そして、領域推定部111は、取得した重みパラメータが設定された領域推定NNに、画像データを入力させて順伝播を行うことに基づいて、当該画像データにおける物体領域を推定する。
【0062】
すなわち、領域推定部111は、入力部101から出力された正例のセットに含まれる画像データと、領域推定NNとに基づいて、正例のセットに含まれる画像データにおける物体領域を推定する。さらに、領域推定部111は、入力部101から出力された負例のセットに含まれる画像データと、領域推定NNとに基づいて、負例のセットに含まれる画像データにおける物体領域を推定する。
【0063】
領域推定部111には、例えば、Faster R-CNN(Towards Real-Time Object Detection with Region Proposal Networks)の領域提案ネットワーク(RPN:Region Proposal Network)等が用いられてもよい。あるいは、領域推定部111は、物体領域の推定のために領域推定NNを用いなくてもよい。例えば、領域推定部111は、背景差分技術またはテンプレートマッチング技術などを用いて、物体領域を推定してもよい。
【0064】
なお、領域推定部111は、同一の画像データについて、複数の、物体が写っている領域を推定してもよい。
【0065】
領域推定部111は、推定した物体領域についての情報を画像特徴抽出部112に出力する。物体領域についての情報は、例えば、物体領域を特定するための座標情報等であってもよい。
【0066】
(画像特徴抽出部112)
画像特徴抽出部112は、重み付け処理部113と、抽出処理部114とを有する、第1の特徴抽出部の一例である。重み付け処理部113は、入力部101から出力された画像データについて、領域推定部111から出力された物体領域に関する重み付けを行い、重み付け後のデータを生成する。このとき、非物体領域は、画像データから除外されずに画像データに残されるため、重み付け後のデータには、物体領域だけではなく非物体領域も含まれる。抽出処理部114は、画像特徴抽出NNに基づいて、重み付け後のデータから第1の特徴量(以下、「画像特徴量」とも言う。)を抽出する。
【0067】
なお、領域推定部111から同一の画像データについて複数の物体領域が出力された場合には、画像特徴抽出部112は、複数の物体領域の各々について重み付けを行ってもよい。
【0068】
抽出処理部114は、重みパラメータ110から画像特徴抽出NNに対応する重みパラメータを取得する。そして、抽出処理部114は、取得した重みパラメータが設定された画像特徴抽出NNに、画像データを入力させて順伝播を行うことに基づいて、画像特徴抽出NNから出力されるデータを画像特徴量として得る。
【0069】
すなわち、抽出処理部114は、入力部101から出力された正例のセットに含まれる画像データと、画像特徴抽出NNとに基づいて、画像特徴量を抽出する。さらに、抽出処理部114は、入力部101から出力された負例のセットに含まれる画像データと、画像特徴抽出NNとに基づいて、画像特徴量を抽出する。抽出処理部114は、正例および負例のセットのそれぞれに含まれる画像データのそれぞれの特徴量を、類似度評価部121に出力する。
【0070】
ここで、画像特徴抽出NNは、複数の層を含んで構成され得る。例えば、画像特徴抽出NNとしては、ResNet(Residual Network)またはViT(Vision Transformer)等の複数の層を含む画像特徴抽出モデルが用いられてもよい。
【0071】
画像特徴抽出NNが複数の層を含む場合、重み付け処理部113は、重み付け処理を、当該複数の層の各々に入力される各データのうち少なくともいずれかのデータに対して行えばよい。
【0072】
例えば、重み付け処理部113が、画像特徴抽出NNの先頭に設けられる場合などには、重み付け処理部113には、画像データそのものが入力される。そこで、重み付け処理部113は、入力部101から出力された画像データにおける物体領域に対して重み付けして、重み付け後のデータを生成してもよい。
【0073】
また、重み付け処理部113が、画像特徴抽出NNの先頭以外の場所に設けられる場合などには、重み付け処理部113は、重み付け処理部113が設けられた場所の直前までの層において画像データから変換された後の特徴テンソルが入力される。そこで、重み付け処理部113は、画像データから変換された後の特徴テンソルのうちの、物体領域に対応する特徴量に対して重み付けして、重み付け後のデータを生成してもよい。
【0074】
重み付け処理部113は、複数の層の各々に入力されるデータ(画像データまたは特徴テンソル)のうちの、いずれのデータに対して重み付けを行ってもよい。例えば、重み付け処理部113は、複数の層のうち所定の少なくとも一つの層に入力されるデータに対して重み付けを行ってもよいし、ランダムに決定される少なくとも一つの層に入力されるデータに対して重み付けを行ってもよい。
【0075】
続いて、重み付け処理の具体的な処理内容について説明する。なお、以下では、特徴量に対して乗算される値を「重み係数」とも言う。一例として、重み付け処理部113は、画像データにおける物体領域または上記の特徴テンソルのうちの物体領域に対応する特徴量に対して重み係数を乗算することにより、重み付け後のデータを生成してもよい。この場合、乗算する重み係数は、例えば、1より大きい定数であってもよいし、後述の更新部122によって更新されるパラメータであってもよい。例えば、重み付け処理部113は、物体領域に対して重み係数を乗算する場合、物体領域に含まれる各画素値に対して重み係数を乗算してもよい。
【0076】
他の一例として、重み付け処理部113は、入力部101から出力された画像データにおける非物体領域または上記の特徴テンソルのうちの非物体領域に対応する特徴量に対して重み係数を乗算することにより、重み付け後のデータを生成してもよい。この場合、乗算する重み係数は、例えば、1より小さい定数であってもよいし、後述の更新部122によって更新されるパラメータであってもよい。
【0077】
なお、物体領域、非物体領域、または特徴テンソルのうちの物体領域または非物体領域に対応する特徴量に対して乗算する重み係数は、物体領域または非物体領域内の領域または特徴量毎に異なる値であってもよい。
【0078】
例えば、画像特徴抽出NNにViTが用いられる場合には、抽出処理部114は、画像データを複数のパッチ(部分データの一例)に分割するので、物体領域と非物体領域の両方を含むパッチが発生する可能性がある。そのため、重み付け処理部113は、パッチに対する、当該パッチのうち物体領域と重なる領域の比率を算出し、当該比率に応じた重み係数を、当該パッチまたは当該パッチから変換された特徴量に対して乗算することにより、重み付け後のデータを生成してもよい。
【0079】
同様に、重み付け処理部113は、パッチに対する、当該パッチのうち非物体領域と重なる領域の比率を算出することに基づき重み付け後のデータを生成してもよい。
【0080】
さらに、他の一例として、重み付け処理部113は、物体領域と非物体領域を区別するためのデータを用いることにより重み付け処理を行ってもよい。
【0081】
例えば、画像特徴抽出NNにViTが用いられる場合には、抽出処理部114は、画像データを複数のパッチに分割する。この場合、重み付け処理部113は、複数のパッチの各々が、物体領域に属するか否かを示すデータを、重み付け処理部113に入力されるデータに付与することにより、重み付け後のデータを生成してもよい。複数のパッチの各々が物体領域に属するか否かを示すデータの付与は、BERT(Bidirectional Encoder Representations from Transformers)においてパッチに付与されるセグメントエンベディングに当該データが設定されることによって実現されてもよい。
【0082】
以上、重み付け処理の具体的な処理内容の例について説明した。ここまで、物体領域または非物体領域、または物体領域または非物体領域に対応する特徴量に対して処理を行うことにより、物体領域の重み付けを行う例について説明した。しかし、重み付け処理部113は、物体領域を拡大または縮小して得られる第2の領域に対して重み付けすることにより重み付け後のデータを生成してもよい。物体領域を拡大または縮小して得られる、物体領域についての重み付け処理に用いられる第2の領域を、「処理対象領域」とも称する。
【0083】
重み付け処理部113は、画像データから変換される特徴テンソルのうちの、処理対象領域に対応する特徴量に対して重み付けすることにより、重み付け後のデータを生成してもよい。
【0084】
より具体的に、重み付け処理部113は、処理対象領域を、物体領域を所定の比率で拡大または縮小することにより取得してもよい。
【0085】
物体領域を拡大した処理対象領域に対して重み付け処理が行われることにより、物体領域から物体が見切れる可能性を考慮しながら学習が行われるよう、物体領域に関する重み付けを行うことが可能である。
【0086】
また、物体領域を縮小した処理対象領域に対して重み付け処理が行われることにより、物体領域のうちより物体が存在する可能性が高い領域の情報に特に重きをおいて学習が行われるよう、物体領域に関する重み付けを行うことが可能である。
【0087】
また、重み付け処理部113は、重み付けの単位のサイズに応じて処理対象領域を取得してもよい。例えば、画像特徴抽出NNにViTが用いられる場合には、抽出処理部114は、画像データを複数の、同じサイズを有するパッチに分割する。ここで、重み付け処理部113は、パッチが重み付けの単位に該当する場合、パッチのサイズに応じて物体領域を拡大または縮小してもよい。
【0088】
例えば、重み付け処理部113は、選択するパッチの数が最も少なくなるように、物体領域を包含する1または複数のパッチを選択し、当該1または複数のパッチの領域を処理対象領域としてもよい。また、重み付け処理部113は、物体領域のみが含まれる1または複数のパッチを選択し、当該1または複数のパッチの領域を処理対象領域としてもよい。
【0089】
(テキスト特徴抽出部115)
テキスト特徴抽出部115、入力部101から出力されたテキストデータと、テキスト特徴抽出NNとに基づいて、テキストデータから第2の特徴量(以下、「テキスト特徴量」とも言う。)を抽出する、第2の特徴抽出部の一例である。テキスト特徴抽出NNとしては、Transformer等の複数の層を含むモデルが用いられてもよい。
【0090】
テキスト特徴抽出部115は、重みパラメータ110からテキスト特徴抽出NNに対応する重みパラメータを取得する。そして、テキスト特徴抽出部115は、取得した重みパラメータが設定されたテキスト特徴抽出NNに、テキストデータを入力させて順伝播を行うことに基づいて、テキスト特徴抽出NNから出力されるデータをテキスト特徴量として得る。
【0091】
すなわち、テキスト特徴抽出部115は、入力部101から出力された正例のセットに含まれるテキストデータと、テキスト特徴抽出NNとに基づいて、正例のセットに含まれるテキストデータのテキスト特徴量を抽出する。また、テキスト特徴抽出部115は、入力部101から出力された負例のセットに含まれるテキストデータと、テキスト特徴抽出NNとに基づいて、負例のセットに含まれるテキストデータのテキスト特徴量を抽出する。テキスト特徴抽出部115は、正例のセットおよび負例のセットのそれぞれに含まれるテキスト特徴量を、類似度評価部121に出力する。
【0092】
(類似度評価部121)
類似度評価部121は、画像特徴抽出部112から出力される画像特徴量と、テキスト特徴抽出部115から出力されるテキスト特徴量の類似度を算出する。ここで、類似度は、特徴量同士がどの程度似ているかを示す指標であってよい。例えば、類似度は、コサイン類似度であってもよい。より詳細に、類似度評価部121は、正例のセットに含まれる画像データおよびテキストデータから抽出された画像特徴量およびテキスト特徴量の類似度と、負例のセットに含まれる画像データおよびテキストデータから抽出された画像特徴量およびテキスト特徴量の類似度を算出する。
【0093】
類似度評価部121は、算出した類似度に基づいて類似度の評価をさらに行う。例えば、類似度評価部121は、損失を算出することにより類似度を評価してもよい。
【0094】
例えば、類似度評価部121は、正例のセットに含まれる画像データおよびテキストデータのそれぞれの特徴量同士の類似度が高いほど、損失が小さくなるように、損失を算出してもよい。これによって、画像データおよびテキストデータの関連性が高いほど、画像データおよびテキストデータの特徴量同士の類似度が高くなるように、画像特徴抽出NN、テキスト特徴抽出NN、および領域推定NNに対応する重みパラメータが更新されることが期待される。
【0095】
さらに、類似度評価部121は、負例のセットに含まれる画像データおよびテキストデータのそれぞれの特徴量同士の類似度が低いほど、損失が小さくなるように、損失を算出してもよい。これによって、画像データおよびテキストデータの関連性が低いほど、画像データおよびテキストデータの特徴量同士の類似度が低くなるように、画像特徴抽出NN、テキスト特徴抽出NN、および領域推定NNに対応する重みパラメータが更新されることが期待される。
【0096】
一例として、損失は、正例のセットに含まれる画像データおよびテキストデータのそれぞれの特徴量同士の類似度、および、負例のセットに含まれる画像データおよびテキストデータのそれぞれの特徴量同士の類似度に基づくNCE(Noise Contrastive Estimation)によって算出されてもよい。
【0097】
他の一例として、損失は、NCEの代わりに、正例のセットに含まれる画像データおよびテキストデータのそれぞれの特徴量同士の類似度よりも、負例のセットに含まれる画像データおよびテキストデータのそれぞれの特徴量同士の類似度を多く用いるinfo NCEによって算出されてもよい。なお、学習装置10によってミニバッチ学習が行われる場合には、類似度評価部121は、ミニバッチ単位に、損失を算出する。類似度評価部121は、算出した損失を更新部122に出力する。
【0098】
(更新部122)
更新部122は、類似度評価部121によって得られた損失に基づいて、画像特徴抽出NN、テキスト特徴抽出NN、および領域推定NNのそれぞれに対応する重みパラメータ110を更新する。例えば、重みパラメータ110の更新は、誤差逆伝播法(バックプロパゲーション)を用いて行われる。
【0099】
また、更新部122は、類似度評価部121によって得られた損失に基づいて、重み付け処理部113による重み付け処理の際に用いられるパラメータをさらに更新してもよい。より具体的に、重み付け処理の際に用いられるパラメータには、特徴量に対して乗算される重み係数と、物体領域に対する拡大率または縮小率とのうち、一方が含まれてもよいし、双方が含まれてもよい。
【0100】
なお、上記したように、テキスト特徴抽出NNまたは領域推定NNにニューロンが含まれておらず、テキスト特徴抽出NNまたは領域推定NNに更新対象となる重みパラメータが対応付けられていない場合も想定される。かかる場合には、更新部122は、テキスト特徴抽出NNまたは領域推定NNの重みパラメータを更新せずに、画像特徴抽出NNに対応する重みパラメータ110を更新すればよい。
【0101】
なお、更新部122は、重みパラメータの更新が終わるたびに、学習終了条件が満たされたか否かを判断する。学習終了条件が満たされていないと判断された場合には、入力部101によって次の入力データが取得され、領域推定部111、画像特徴抽出部112、テキスト特徴抽出部115、類似度評価部121、および更新部122によって、当該次の入力データに基づく処理が再度実行される。一方、学習終了条件が満たされたと判断された場合には、学習が終了される。
【0102】
なお、学習終了条件は特に限定されず、学習がある程度行われたことを示す条件であればよい。具体的に、学習終了条件は、損失が閾値よりも小さいという条件を含んでもよい。あるいは、学習終了条件は、損失の変化が閾値よりも小さいという条件(損失が収束状態になったという条件)を含んでもよい。
【0103】
あるいは、学習終了条件は、重みパラメータの更新が所定の回数行われたという条件を含んでもよい。
【0104】
以上、本発明の実施形態に係る学習装置10の構成例について説明した。
【0105】
なお、学習段階においては、上記のようにして、学習済みの画像特徴抽出部112が得られる。テスト段階においては、入力部101、領域推定部111(領域推定部111も学習を行う場合には、学習済みの領域推定部111)および学習済みの画像特徴抽出部112の後段に、識別器が接続され、識別器は、テスト用の画像データから画像特徴抽出部112によって抽出された画像特徴量に基づいて、クラス分類を行う。
【0106】
(2.動作例)
続いて、図2を参照しながら、本発明の実施形態に係る学習装置10によって実行される学習段階の動作の流れについて説明する。図2は、本発明の実施形態に係る学習装置10によって実行される学習段階の動作例を示すフローチャートである。
【0107】
まず、入力部101は、データセット100から入力データを取得する(S101)。入力データには、画像データとテキストデータのセットが含まれる。入力部101は、画像データとテキストデータのセットとして、正例のセットと負例のセットとを取得する。例えば、入力部101は、あらかじめ互いに対応付けられた画像データとテキストデータとを正例のセットとして取得してもよい。さらに、入力部101は、互いに対応付けられていない画像データとテキストデータとを負例のセットとして取得する。
【0108】
入力部101は、正例のセットおよび負例のセットに含まれる画像データを領域推定部111および画像特徴抽出部112の各々に出力する。また、入力部101は、正例のセットおよび負例のセットに含まれるテキストデータをテキスト特徴抽出部115に出力する。
【0109】
テキスト特徴抽出部115は、入力部101から出力されたテキストデータから、テキスト特徴量を抽出する(S102)。
【0110】
一方、領域推定部111は、入力部101が出力した画像データから、物体領域を推定する(S103)。領域推定部111は、推定した物体領域についての情報を、画像特徴抽出部112に出力する。
【0111】
画像特徴抽出部112の重み付け処理部113は、画像データにおける物体領域についての重み付け処理を行うことにより、重み付け後のデータを生成する(S104)。このとき、非物体領域は、画像データから除外されずに画像データに残されるため、重み付け後のデータには、物体領域だけではなく非物体領域も含まれる。そして、画像特徴抽出部112の抽出処理部114は、重み付け後のデータから画像特徴量を抽出する(S105)。
【0112】
なお、重み付け処理部113による重み付け処理は、抽出処理部114による画像特徴量の抽出の過程で行われてもよい。例えば、重み付け処理部113による重み付け処理は、画像特徴抽出NNに含まれる複数の層の少なくともいずれかの層に入力されるデータに対して行われてもよい。
【0113】
また、重み付け処理部113は、画像データから変換される特徴テンソルのうちの、物体領域に対応する特徴量に対して重み付けして重み付け後のデータを生成してもよい。このとき、非物体領域に対応する特徴量は、特徴テンソルから除外されずに特徴テンソルに残されるため、重み付け後のデータには、物体領域に対応する特徴量だけではなく非物体領域に対応する特徴量も含まれる。
【0114】
類似度評価部121は、画像特徴抽出部112から出力された画像特徴量と、テキスト特徴抽出部115から抽出されたテキスト特徴量の類似度を算出する(S106)。そして、類似度評価部121は、算出した類似度から損失を得ることにより、類似度を評価する(S107)。
【0115】
更新部122は、類似度評価部121によって得られた損失に基づいて、画像特徴抽出NN、テキスト特徴抽出NN、および領域推定NNのそれぞれに対応する重みパラメータ110を更新する(S108)。
【0116】
そして、学習終了条件が満たされない場合(S109/NO)、動作はS101に戻る。一方、学習終了条件が満たされた場合(S109/YES)、NN11による学習が終了される。
【0117】
以上、本発明の実施形態に係る学習装置10によって実行される動作の流れについて説明した。
【0118】
以上に説明したように、本発明の実施形態によれば、物体領域の推定結果を考慮しながら、物体領域と非物体領域の両方に基づき画像特徴量を抽出し、当該画像特徴量に基づき、各NNの学習を進めることが可能である。これによって、特徴抽出器の精度が向上する。
【0119】
(3.ハードウェア構成例)
続いて、本発明の実施形態に係る学習装置10のハードウェア構成例について説明する。
【0120】
以下では、本発明の実施形態に係る学習装置10のハードウェア構成例として、情報処理装置900のハードウェア構成例について説明する。なお、以下に説明する情報処理装置900のハードウェア構成例は、学習装置10のハードウェア構成の一例に過ぎない。したがって、学習装置10のハードウェア構成は、以下に説明する情報処理装置900のハードウェア構成から不要な構成が削除されてもよいし、新たな構成が追加されてもよい。
【0121】
図3は、本発明の実施形態に係る学習装置10の例としての情報処理装置900のハードウェア構成を示す図である。情報処理装置900は、CPU(Central Processing Unit)901と、ROM(Read Only Memory)902と、RAM(Random Access Memory)903と、ホストバス904と、ブリッジ905と、外部バス906と、インタフェース907と、入力装置908と、出力装置909と、ストレージ装置910と、通信装置911と、を備える。
【0122】
CPU901は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置900内の動作全般を制御する。また、CPU901は、マイクロプロセッサであってもよい。ROM902は、CPU901が使用するプログラムや演算パラメータ等を記憶する。RAM903は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはCPUバス等から構成されるホストバス904により相互に接続されている。
【0123】
ホストバス904は、ブリッジ905を介して、PCI(Peripheral Component Interconnect/Interface)バス等の外部バス906に接続されている。なお、必ずしもホストバス904、ブリッジ905および外部バス906を分離構成する必要はなく、1つのバスにこれらの機能を実装してもよい。
【0124】
入力装置908は、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチおよびレバー等ユーザが情報を入力するための入力手段と、ユーザによる入力に基づいて入力信号を生成し、CPU901に出力する入力制御回路等から構成されている。情報処理装置900を操作するユーザは、この入力装置908を操作することにより、情報処理装置900に対して各種のデータを入力したり処理動作を指示したりすることができる。
【0125】
出力装置909は、例えば、CRT(Cathode Ray Tube)ディスプレイ装置、液晶ディスプレイ(LCD)装置、OLED(Organic Light Emitting Diode)装置、ランプ等の表示装置およびスピーカ等の音声出力装置を含む。
【0126】
ストレージ装置910は、データ格納用の装置である。ストレージ装置910は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置等を含んでもよい。ストレージ装置910は、例えば、HDD(Hard Disk Drive)で構成される。このストレージ装置910は、ハードディスクを駆動し、CPU901が実行するプログラムや各種データを格納する。
【0127】
通信装置911は、例えば、ネットワークに接続するための通信デバイス等で構成された通信インタフェースである。また、通信装置911は、無線通信または有線通信のどちらに対応してもよい。
【0128】
以上、本発明の実施形態に係る学習装置10のハードウェア構成例について説明した。
【0129】
(4.まとめ)
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
【0130】
例えば、上記実施形態では、学習段階においてPrompt Learningが適用されてもよい。学習段階においてPrompt Learningが適用される場合、入力部101は、画像データまたはテキストデータの少なくとも一方に学習可能パラメータ(プロンプト)を付与してもよい。または、入力部101は入力データの一部をプロンプトに置き換えてもよい。
【0131】
または、画像特徴抽出部112またはテキスト特徴抽出部115は、画像特徴抽出NNまたはテキスト特徴抽出NNを構成する層へ入力されるデータ(例えば、transformer層に入力されるデータ)に学習可能パラメータ(プロンプトあるいはメモリートークン)を付与しても良い。これにより、CLIPの事前学習に用いられるデータと、本実施形態における物体検出モデルの学習に用いる入力データとのドメインの違いに対応することが可能である。
【0132】
また、上記実施形態では、重み付けがされる第1の学習用データが画像データである例を説明した。しかし、第1の学習用データとして、画像データの代わりに他の学習用データが用いられてもよい。また、上記実施形態では、検出対象が物体である例を説明したが、検出対象は第1の学習用データの種類に応じて適宜に変更されてよい。例えば、第1の学習用データとして音声データが用いられる場合には、検出対象として物体の代わりに特定の音が存在する領域が領域推定部111によって推定されてもよい。第1の学習用データとして音声データが用いられる場合には、第2の学習用データは、テキストデータなどであってもよい。
【符号の説明】
【0133】
10 学習装置
11 ニューラルネットワーク
100 データセット
101 入力部
110 重みパラメータ
111 領域推定部
112 画像特徴抽出部
113 重み付け処理部
114 抽出処理部
115 テキスト特徴抽出部
121 類似度評価部
122 更新部
図1
図2
図3