IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2024-50467情報処理装置、情報処理方法及びコンピュータ読み取り可能な記憶媒体
<>
  • 特開-情報処理装置、情報処理方法及びコンピュータ読み取り可能な記憶媒体 図1
  • 特開-情報処理装置、情報処理方法及びコンピュータ読み取り可能な記憶媒体 図2A
  • 特開-情報処理装置、情報処理方法及びコンピュータ読み取り可能な記憶媒体 図2B
  • 特開-情報処理装置、情報処理方法及びコンピュータ読み取り可能な記憶媒体 図3A
  • 特開-情報処理装置、情報処理方法及びコンピュータ読み取り可能な記憶媒体 図3B
  • 特開-情報処理装置、情報処理方法及びコンピュータ読み取り可能な記憶媒体 図4
  • 特開-情報処理装置、情報処理方法及びコンピュータ読み取り可能な記憶媒体 図5A
  • 特開-情報処理装置、情報処理方法及びコンピュータ読み取り可能な記憶媒体 図5B
  • 特開-情報処理装置、情報処理方法及びコンピュータ読み取り可能な記憶媒体 図6
  • 特開-情報処理装置、情報処理方法及びコンピュータ読み取り可能な記憶媒体 図7
  • 特開-情報処理装置、情報処理方法及びコンピュータ読み取り可能な記憶媒体 図8
  • 特開-情報処理装置、情報処理方法及びコンピュータ読み取り可能な記憶媒体 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024050467
(43)【公開日】2024-04-10
(54)【発明の名称】情報処理装置、情報処理方法及びコンピュータ読み取り可能な記憶媒体
(51)【国際特許分類】
   G06T 7/00 20170101AFI20240403BHJP
【FI】
G06T7/00 350C
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2023152928
(22)【出願日】2023-09-20
(31)【優先権主張番号】202211200230.3
(32)【優先日】2022-09-29
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】ワン・ジンイ
(72)【発明者】
【氏名】李 斐
(72)【発明者】
【氏名】リィウ・ルゥジエ
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096EA39
5L096FA09
5L096FA16
5L096HA11
5L096KA04
(57)【要約】
【課題】情報処理装置、情報処理方法及びコンピュータ読み取り可能な記憶媒体を提供する。
【解決手段】該情報処理装置は、予め訓練されたカスケード分離ネットワークモデルにキーポイントモジュールを追加して、キーポイントモジュールが追加された予め訓練されたカスケード分離ネットワークモデルを第2のモデルとして取得するモデル調整部であって、キーポイントモジュールは、第2のモデルの入力画像における所定のオブジェクトのキーポイント特徴に基づいて第2のモデルにおけるインタラクションデコーダの入力を調整する、モデル調整部と、第2のモデルのパラメータのうちのインタラクションデコーダ、キーポイントモジュール及びインタラクション分類層のパラメータ以外のパラメータを固定した状態で、第1の訓練画像セットを用いて第2のモデルを訓練して、予測すべき画像を予測するための訓練済みの第2のモデルを取得する第2のモデル訓練部と、を含む。
【選択図】図1
【特許請求の範囲】
【請求項1】
予め訓練されたカスケード分離ネットワークモデルにキーポイントモジュールを追加して、前記キーポイントモジュールが追加された予め訓練されたカスケード分離ネットワークモデルを第2のモデルとして取得するモデル調整部であって、前記キーポイントモジュールは、前記第2のモデルの入力画像における所定のオブジェクトのキーポイント特徴に基づいて前記第2のモデルにおけるインタラクションデコーダの入力を調整する、モデル調整部と、
前記第2のモデルのパラメータのうちの前記インタラクションデコーダ、前記キーポイントモジュール及びインタラクション分類層のパラメータ以外のパラメータを固定した状態で、第1の訓練画像セットを用いて前記第2のモデルを訓練して、予測すべき画像を予測するための訓練済みの第2のモデルを取得する第2のモデル訓練部と、を含む、情報処理装置。
【請求項2】
前記インタラクションデコーダの入力は、視覚的特徴及びインタラクション照会相関値を含み、
前記インタラクション照会相関値は、前記インタラクションデコーダのインタラクション照会を初期化するために用いられ、
前記キーポイントモジュールは、前記インタラクション照会相関値のみを調整する、請求項1に記載の情報処理装置。
【請求項3】
前記キーポイントモジュールは、前記インタラクション照会相関値を調整する際に、
射影行列を用いて前記インタラクション照会相関値に対応する入力画像における所定のオブジェクトのキーポイント特徴を前記インタラクション照会相関値の次元と同一の次元に変換して、変換済みのキーポイント特徴を取得し、前記変換済みのキーポイント特徴と前記インタラクション照会相関値とを融合する、請求項2に記載の情報処理装置。
【請求項4】
前記キーポイントモジュールは、前記変換済みのキーポイント特徴と前記インタラクション照会相関値とを融合する際に、
前記変換済みのキーポイント特徴と前記インタラクション照会相関値とを加算し、或いは、
前記変換済みのキーポイント特徴に重みを設定し、重みが設定された前記変換済みのキーポイント特徴と前記インタラクション照会相関値とを加算する、請求項3に記載の情報処理装置。
【請求項5】
前記キーポイントモジュールは、前記所定のオブジェクトのキーポイント特徴を取得する際に、
前記第2のモデルにおけるオブジェクトペアデコーダを用いて前記入力画像の視覚的特徴に基づいて前記所定のオブジェクトの境界枠を取得し、前記境界枠に基づいて前記所定のオブジェクトのキーポイント特徴を取得する、請求項3又は4に記載の情報処理装置。
【請求項6】
第2の訓練画像セットを用いて初期カスケード分離ネットワークモデルを訓練して、前記予め訓練されたカスケード分離ネットワークモデルを取得する第1のモデル訓練部、をさらに含み、
前記第2の訓練画像セットと前記第1の訓練画像セットとは、少なくとも部分的に重複する、請求項1乃至4の何れかに記載の情報処理装置。
【請求項7】
予め訓練されたカスケード分離ネットワークモデルにキーポイントモジュールを追加して、前記キーポイントモジュールが追加された予め訓練されたカスケード分離ネットワークモデルを第2のモデルとして取得するステップであって、前記キーポイントモジュールは、前記第2のモデルの入力画像における所定のオブジェクトのキーポイント特徴に基づいて前記第2のモデルにおけるインタラクションデコーダの入力を調整する、ステップと、
前記第2のモデルのパラメータのうちの前記インタラクションデコーダ、前記キーポイントモジュール及びインタラクション分類層のパラメータ以外のパラメータを固定した状態で、第1の訓練画像セットを用いて前記第2のモデルを訓練して、予測すべき画像を予測するための訓練済みの第2のモデルを取得するステップと、を含む、情報処理方法。
【請求項8】
前記インタラクションデコーダの入力は、視覚的特徴及びインタラクション照会相関値を含み、
前記インタラクション照会相関値は、前記インタラクションデコーダのインタラクション照会を初期化するために用いられ、
前記キーポイントモジュールは、前記インタラクション照会相関値のみを調整する、請求項7に記載の情報処理方法。
【請求項9】
前記キーポイントモジュールは、前記インタラクション照会相関値を調整する際に、
射影行列を用いて前記インタラクション照会相関値に対応する入力画像における所定のオブジェクトのキーポイント特徴を前記インタラクション照会相関値の次元と同一の次元に変換して、変換済みのキーポイント特徴を取得し、前記変換済みのキーポイント特徴と前記インタラクション照会相関値とを融合する、請求項8に記載の情報処理方法。
【請求項10】
命令が記憶されているコンピュータ読み取り可能な記憶媒体であって、前記命令がコンピュータにより実行される際に、前記コンピュータに請求項7乃至9の何れかに記載の情報処理方法を実行させる、記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理の分野に関し、具体的には、情報処理装置、情報処理方法及びコンピュータ読み取り可能な記憶媒体に関する。
【背景技術】
【0002】
近年、機械学習は、様々な分野で広く応用されている。例えば、機械学習を用いて、画像、音声などの予測(認識、分類などを含む)等を行うことができる。
【発明の概要】
【発明が解決しようとする課題】
【0003】
以下は、本開示の態様を基本的に理解させるために、本開示の簡単な概要を説明する。なお、この簡単な概要は、本開示を網羅的な概要ではなく、本開示のポイント又は重要な部分を意図的に特定するものではなく、本開示の範囲を意図的に限定するものではなく、後述するより詳細的な説明の前文として、単なる概念を簡単な形で説明することを目的とする。
【0004】
本開示は、上記の問題を鑑み、情報処理装置、情報処理方法及びコンピュータ読み取り可能な記憶媒体を提供することを目的とする。
【課題を解決するための手段】
【0005】
本開示の1つの態様では、予め訓練されたカスケード分離ネットワークモデルにキーポイントモジュールを追加して、前記キーポイントモジュールが追加された予め訓練されたカスケード分離ネットワークモデルを第2のモデルとして取得するモデル調整部であって、前記キーポイントモジュールは、前記第2のモデルの入力画像における所定のオブジェクトのキーポイント特徴に基づいて前記第2のモデルにおけるインタラクションデコーダの入力を調整する、モデル調整部と、前記第2のモデルのパラメータのうちの前記インタラクションデコーダ、前記キーポイントモジュール及びインタラクション分類層のパラメータ以外のパラメータを固定した状態で、第1の訓練画像セットを用いて前記第2のモデルを訓練して、予測すべき画像を予測するための訓練済みの第2のモデルを取得する第2のモデル訓練部と、を含む、情報処理装置を提供する。
【0006】
本開示のもう1つの態様では、予め訓練されたカスケード分離ネットワークモデルにキーポイントモジュールを追加して、前記キーポイントモジュールが追加された予め訓練されたカスケード分離ネットワークモデルを第2のモデルとして取得するステップであって、前記キーポイントモジュールは、前記第2のモデルの入力画像における所定のオブジェクトのキーポイント特徴に基づいて前記第2のモデルにおけるインタラクションデコーダの入力を調整する、ステップと、前記第2のモデルのパラメータのうちの前記インタラクションデコーダ、前記キーポイントモジュール及びインタラクション分類層のパラメータ以外のパラメータを固定した状態で、第1の訓練画像セットを用いて前記第2のモデルを訓練して、予測すべき画像を予測するための訓練済みの第2のモデルを取得するステップと、を含む、情報処理方法を提供する。
【0007】
本開示の他の態様では、上記の本開示の方法を実現するためのコンピュータプログラムコード及びコンピュータプログラム製品、並びに上記の本開示の方法を実現するためのコンピュータプログラムコードが記録されているコンピュータ読み取り可能な記憶媒体をさらに提供する。
【0008】
以下は、本開示の実施例の他の態様を説明し、特に本開示の好ましい実施例を詳細に説明するが、本開示はこれらの実施例に限定されない。
【図面の簡単な説明】
【0009】
本開示の原理及び利点を理解させるために、図面を参照しながら本開示の各実施例を説明する。全ての図面において、同一又は類似の符号で同一又は類似の構成部を示している。ここで説明される図面は、好ましい実施例を例示するためのものであり、全ての可能な実施例ではなく、本開示の範囲を限定するものではない。
図1】本開示の実施例に係る情報処理装置の機能的構成の一例を示すブロック図である。
図2A】予測すべき画像の一例を示す図である。
図2B】予測すべき画像の一例を示す図である。
図3A】カスケード分離ネットワークモデルのアーキテクチャの一例を示す図である。
図3B】本発明の実施例に係る情報処理装置により取得された第2のモデルのアーキテクチャの一例を示す図である。
図4】人物ペアのインタラクション予測の一例を示す図である。
図5A図5A及び図5Bはそれぞれ図2A及び図2Bから検出された人体のキーポイントの一例を示す図である。
図5B図5A及び図5Bはそれぞれ図2A及び図2Bから検出された人体のキーポイントの一例を示す図である。
図6】本発明の実施例に係る情報処理装置の他の機能の構成例を示すブロック図である。
図7】本発明の実施例に係る情報処理装置により取得された訓練済みの第2のモデルと予め訓練されたカスケード分離ネットワークモデルとの比較を示す図である。
図8】本発明の実施例に係る情報処理方法の流れの一例を示すフローチャートである。
図9】本発明の実施例に適用可能なパーソナルコンピュータの例示的な構成を示すブロック図である。
【発明を実施するための形態】
【0010】
以下、図面を参照しながら本開示の例示的な実施例を詳細に説明する。説明の便宜上、明細書には実際の実施形態の全ての特徴が示されていない。なお、実際に実施する際に、開発者の具体的な目標を実現するために、特定の実施形態を変更してもよい、例えばシステム及び業務に関する制限条件に応じて実施形態を変更してもよい。また、開発作業が非常に複雑であり、且つ時間がかかるが、本公開の当業者にとって、この開発作業は単なる例の作業である。
【0011】
なお、本開示を明確にするために、図面には本開示に密に関連する装置の構成要件又は処理のステップのみが示され、本開示と関係のない細部が省略されている。
【0012】
以下は、図面を参照しながら、本開示の実施例を詳細に説明する。
【0013】
まず、図1乃至図5を参照しながら本開示の実施例に係る情報処理装置100の実現の態様を説明する。
【0014】
図1は、本開示の実施例に係る情報処理装置100の機能的構成の一例を示すブロック図である。図1に示すように、本発明の実施例に係る情報処理装置100は、モデル調整部102及び第2のモデル訓練部104を含んでもよい。
【0015】
モデル調整部102は、予め訓練されたカスケード分離ネットワークモデル(Cascade Disentangling Network Model。Mining the Benefits of Two-stage and One-stage HOI Detection. NeurIPS 2021.参照)にキーポイントモジュールを追加して、キーポイントモジュールが追加された予め訓練されたカスケード分離ネットワークモデルを第2のモデルとして取得してもよい。キーポイントモジュールは、第2のモデルの入力画像における所定のオブジェクトのキーポイント特徴に基づいて第2のモデルにおけるインタラクションデコーダの入力を調整してもよい。
【0016】
例えば、入力画像は、少なくとも、互いにインタラクション(相互作用)のある2つのオブジェクトを含んでもよく、以下はそれぞれ第1のオブジェクト及び第2のオブジェクトと称されてもよい。例えば、第1の対象は人であってもよく、第2の対象は動物又は物体であってもよい。この場合、所定のオブジェクトは人であってもよい。また、例えば、第1のオブジェクトは動物であってもよく、第2のオブジェクトは物体であってもよい。この場合、所定のオブジェクトは動物であってもよい。さらに、例えば、入力画像は、互いにインタラクションのある3つ以上のオブジェクトを含んでもよい。
【0017】
第2のモデル訓練部104は、第2のモデルのパラメータのうちのインタラクションデコーダ、キーポイントモジュール及びインタラクション分類層のパラメータ以外のパラメータを固定した状態で、第1の訓練画像セットを用いて第2のモデルを訓練して、予測すべき画像を予測するための訓練済みの第2のモデルを取得してもよい。
【0018】
例えば、第1の訓練画像セットの各訓練画像は、少なくとも、互いにインタラクションのある2つのオブジェクトを含んでもよい。
【0019】
オブジェクトのインタラクション予測(例えば、人と動物とのインタラクション予測、人と物体とのインタラクション予測、動物と物体とのインタラクション予測など)は、コンピュータビジョンの1つの重要な応用であり、画像におけるオブジェクトのインタラクションを理解することを目標とする。オブジェクトのインタラクション予測の予測結果は、<第1のオブジェクト、第2のオブジェクト、インタラクション>という三つ組のセットに纏められる。従って、オブジェクトのインタラクション予測は、第1のオブジェクトの位置、インタラクションのタイプ、及び第2のオブジェクトの位置及びカテゴリを予測する必要がある。例えば、図2A及び図2Bに示す予測すべき画像の例では、第1のオブジェクトは人であってもよく、予測結果は、人の位置、インタラクションのタイプ(図2Aでは「乗る」であり、図2Bでは「引く」である)、第2のオブジェクトの位置及びカテゴリ(即ち、馬)であってもよい。
【0020】
カスケード分離ネットワークモデルは、二段階法を用いてオブジェクトのインタラクション予測を行う。具体的には、図3Aに示すように、まず、オブジェクトペアデコーダ(例えば、人物ペアデコーダ)を用いて、畳み込み層(例えば、畳み込みニューラルネットワーク(CNN))及びエンコーダにより取得された視覚的特徴に基づいて、第1のオブジェクトの位置(例えば、第1のオブジェクトの境界枠(バウンディングボックス))、第2のオブジェクトの位置(例えば、第2のオブジェクトの境界枠)及び第2のオブジェクトのカテゴリを予測する。そして、インタラクションデコーダ及びインタラクション分類層を用いて、視覚的特徴及びオブジェクトペアデコーダにより出力されたインタラクション照会相関値Q out(予測した第1のオブジェクト及び第2のオブジェクトの境界枠内の特徴に対応する)に基づいて、インタラクションのカテゴリを予測する。カスケード分離ネットワークモデルでは、インタラクション照会相関値は、インタラクションデコーダのインタラクション照会を初期化するために用いられてもよく、例えば、インタラクション照会相関値をインタラクションデコーダのインタラクション照会の初期値に設定してもよい。インタラクション照会相関値の次元は、インタラクション照会の次元と同一であってもよい。
【0021】
図3Bに示すように、本発明の実施例に係る情報処理装置100は、入力画像における所定のオブジェクトのキーポイント特徴に基づいてインタラクションデコーダの入力を調整することによって、インタラクション分類のための補助情報(例えば、所定のオブジェクトと画像における他のオブジェクトとの空間的関係に関する事前情報など)を提供してもよい。これによって、取得された訓練済みの第2のモデルによるインタラクション(例えば、インタラクション動作)の分類の精度を向上させることができる。
【0022】
一例として、キーポイントモジュールは、インタラクションデコーダの入力としての視覚的特徴及びインタラクション照会相関値の両方を調整してもよい。
【0023】
別の例として、キーポイントモジュールは、インタラクション照会相関値のみを調整してもよい。これによって、取得された訓練済みの第2のモデルによるインタラクション分類の精度をさらに向上させることができる。
【0024】
例えば、キーポイントモジュールは、インタラクション照会相関値を調整する際に、射影行列を用いてインタラクション照会相関値に対応する入力画像における所定のオブジェクトのキーポイント特徴をインタラクション照会相関値の次元と同一の次元に変換して、変換済みのキーポイント特徴を取得し、変換済みのキーポイント特徴とインタラクション照会相関値とを融合し、例えば、変換済みのキーポイント特徴とインタラクション照会相関値とを加算してもよい。
【0025】
例えば、キーポイントモジュールは、変換済みのキーポイント特徴に重みを設定し、重みが設定された変換済みのキーポイント特徴とインタラクション照会相関値とを加算してもよい。これによって、得られた訓練済みの第2のモデルによるインタラクション分類の精度をさらに向上させることができる。重みは、実際の必要に応じて設定されてもよく、且つ/或いは、第2のモデルの訓練プロセスにおいて調整されてもよい。
【0026】
以下は、図4に示す人物ペアのインタラクション予測の一例を参照しながら、キーポイントモジュール40をさらに説明する。図4に示すように、キーポイントモジュール40は、キーポイント検出サブモジュール42、キーポイント特徴構築サブモジュール44、及びキーポイント特徴射影融合サブモジュール46を含んでもよい。
【0027】
図4に示すように、キーポイント検出サブモジュール42は、第2のモデルにおける人物ペアデコーダ(オブジェクトペアデコーダの一例)により入力画像の視覚的特徴Xに基づいて取得された人(所定のオブジェクトの一例)の境界枠を用いて、人のキーポイント(以下は、「人体のキーポイント」とも称される)を検出してもよい。例えば、図5A及び図5Bは、それぞれ図2A及び図2Bから検出された人体のキーポイントの一例を示す。図5A及び5Bでは、黒点は、人体のキーポイントを示す。人体のキーポイントを連結すると、骨格情報が得られる。
【0028】
キーポイント特徴構築サブモジュール44は、キーポイント検出サブモジュール42により検出された人体のキーポイントに基づいて、人体のキーポイント特徴を構築してもよい。例えば、人体のキーポイント特徴は、2種類の人体のキーポイントに基づく特徴を含んでもよい。1つは、人の境界枠の中心の座標に対する各キーポイントの座標の比率である。もう1つは、物(第2のオブジェクトの一例)の境界枠の中心の座標に対する各キーポイントの座標の比率である。キーポイント特徴構築サブモジュール44は、これら2種類の特徴を連結して、1つの人体のキーポイント特徴
(外1)
を合成してもよく、Dは、特徴fの次元を表す。例えば、特徴fは、下記の式(1)で表される。
【0029】
【数1】
上記の式(1)において、x及びyは、それぞれ人体のキーポイントのx座標及びy座標を表し、xhc及びyhcは、それぞれ人の境界枠の中心のx座標及びy座標を表し、xoc及びyocは、それぞれ物の境界枠の中心のx座標及びy座標を表す。
【0030】
キーポイント特徴射影融合サブモジュール46は、1つの射影行列(例えば、パラメータ学習可能な線形射影行列
(外2)
)を用いて、特徴fをインタラクション照会相関値と同一の次元にマッピングしてもよい。Dは、インタラクション照会相関値の次元数を表す。次元がマッピングにより統合された後、キーポイント特徴射影融合サブモジュール46は、マッピングされた特徴f’と人物ペアデコーダにより出力された相関値Q outとを加算し、加算結果を用いてインタラクションデコーダのインタラクション照会Qを初期化してもよい。
【0031】
例えば、モデル調整部102により予め訓練されたカスケード分離ネットワークモデルに最初に追加されたキーポイントモジュールの射影行列は、ランダムに初期化されてもよく、第2のモデルの訓練プロセスにおいて変更されてもよい。
【0032】
以上は、本発明の実施例に係る情報処理装置600を説明したが、以下は、図6を参照しながら、本発明の他の実施例に係る情報処理装置600を説明する。
【0033】
図6に示すように、本発明の他の実施例に係る情報処理装置600は、モデル調整部602、第2のモデル訓練部604及び第1のモデル訓練部606を含んでもよい。モデル調整部602及び第2のモデル訓練部604の機能構成は、上述したモデル調整部102及び第2のモデル訓練部104の機能構成と同様であるため、ここでその詳細な説明を省略する。
【0034】
第1のモデル訓練部606は、第2の訓練画像セットを用いて初期カスケード分離ネットワークモデルを訓練して、予め訓練されたカスケード分離ネットワークモデルを取得してもよい。
【0035】
例えば、第2の訓練画像セットと第1の訓練画像セットとは、少なくとも部分的に重複してもよい。例えば、第2の訓練画像セットと第1の訓練画像セットとは、同一であってもよい。これによって、取得された訓練済みの第2のモデルによるインタラクション分類の精度をさらに向上させることができる。
【0036】
図7は、本発明の実施例に係る情報処理装置600により取得された訓練済みの第2のモデルと予め訓練されたカスケード分離ネットワークモデルとの比較を示す図である。図7に示す例では、情報処理装置600のキーポイントモジュールは、HRNet(例えば、Sun K, Xiao B, Liu D, et al. Deep high-resolution representation learning for human pose estimation[C]. Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019:5693-5703参照)を用いて、人の境界枠から人体のキーポイント特徴を取得する。図7から分かるように、使用されたサンプルデータセットについて、訓練済みの第2のモデルの平均精度(mean average precision:mAP)は0.14%向上した。
【0037】
以上は本開示の実施例に係る情報処理装置を説明しているが、本開示は、上記の情報処理装置の実施例に対応する情報処理方法の実施例をさらに提供する。
【0038】
図8は、本発明の実施例に係る情報処理方法800の流れの一例を示すフローチャートである。図8に示すように、本開示の実施例に係る情報処理方法800は、開始ステップS802から開始し、終了ステップS812に終了してもよい。情報処理方法800は、モデル調整ステップS804及び第2のモデル訓練ステップS806を含んでもよい。
【0039】
モデル調整ステップS804において、予め訓練されたカスケード分離ネットワークモデルにキーポイントモジュールを追加して、キーポイントモジュールが追加された予め訓練されたカスケード分離ネットワークモデルを第2のモデルとして取得してもよい。キーポイントモジュールは、第2のモデルの入力画像における所定のオブジェクトのキーポイント特徴に基づいて第2のモデルにおけるインタラクションデコーダの入力を調整してもよい。例えば、モデル調整ステップS804は、上述したモデル調整部102及び602により実施されてもよく、その詳細は上記のモデル調整部102及び602の説明を参照してもよく、ここでその説明を省略する。
【0040】
第2のモデル訓練ステップS806において、第2のモデルのパラメータのうちのインタラクションデコーダ、キーポイントモジュール及びインタラクション分類層のパラメータ以外のパラメータを固定した状態で、第1の訓練画像セットを用いて第2のモデルを訓練して、予測すべき画像を予測するための訓練済みの第2のモデルを取得してもよい。例えば、第2のモデル訓練ステップS806は、上述した第2のモデル訓練部104及び604により実施されてもよく、その詳細は上記の第2のモデル訓練部104及び604の説明を参照してもよく、ここでその説明を省略する。
【0041】
キーポイントモジュールを導入することによって、本開示の実施例に係る情報処理方法800は、取得された訓練済みの第2のモデルによるインタラクション分類の精度を向上させることができる。
【0042】
一例として、キーポイントモジュールは、インタラクションデコーダの入力としての視覚的特徴及びインタラクション照会相関値の両方を調整してもよい。
【0043】
別の例として、キーポイントモジュールは、インタラクション照会相関値のみを調整してもよい。これによって、取得された訓練済みの第2のモデルによるインタラクション分類の精度をさらに向上させることができる。
【0044】
例えば、キーポイントモジュールは、インタラクション照会相関値を調整する際に、射影行列を用いてインタラクション照会相関値に対応する入力画像における所定のオブジェクトのキーポイント特徴をインタラクション照会相関値の次元と同一の次元に変換して、変換済みのキーポイント特徴を取得し、変換済みのキーポイント特徴とインタラクション照会相関値とを融合してもよい。例えば、キーポイントモジュールは、変換済みのキーポイント特徴とインタラクション照会相関値とを加算してもよい。
【0045】
例えば、キーポイントモジュールは、変換済みのキーポイント特徴に重みを設定し、重みが設定された変換済みのキーポイント特徴とインタラクション照会相関値とを加算してもよい。これによって、得られた訓練済みの第2のモデルによるインタラクション分類の精度をさらに向上させることができる。
【0046】
例えば、情報処理方法800は、第1のモデル訓練ステップ(図示せず)をさらに含んでもよい。第1のモデル訓練ステップにおいて、第2の訓練画像セットを用いて初期カスケード分離ネットワークモデルを訓練して、予め訓練されたカスケード分離ネットワークモデルを取得してもよい。例えば、第1のモデル訓練ステップは、上述した第1のモデル訓練部606により実施されてもよく、その詳細は上記の第1のモデル訓練部606の説明を参照してもよく、ここでその説明を省略する。
【0047】
本発明の実施例に係る情報処理装置及び情報処理方法は、監視分野に適用されてもよく、例えば、店舗において顧客の通常の行為と盗難の行為とを区別するために使用されてもよいし、競技場において選手の反則があるか否かなどを決定するために使用されてもよい。なお、本発明の実施例に係る情報処理装置及び情報処理方法は、必要に応じて他の分野にも適用されてもよい。
【0048】
なお、以上は本開示の実施例に係る情報処理装置及び情報処理方法の機能的構成及び動作を説明しているが、該機能的構成及び動作は単なる例示的なものであり、本開示を限定するものではない。当業者は、本開示の原理に従って上記実施例を修正してもよく、例えば各実施例における機能的モジュールを追加、削除又は組み合わせてもよく、これらの修正は本開示の範囲に含まれるものである。
【0049】
また、ここの装置の実施例は上記方法の実施例に対応するため、装置の実施例に詳細に説明されていない内容は、上記方法実施例の対応説明を参照してもよく、ここでその説明を省略する。
【0050】
また、本開示は記憶媒体及びプログラム製品をさらに提供する。本開示の実施例に係る記憶媒体及びプログラム製品における機器が実行可能な命令は上記方法を実行してもよく、ここで詳細に説明されていない内容は、上記方法の実施例の対応説明を参照してもよく、ここでその説明を省略する。
【0051】
それに応じて、本開示は、機器が実行可能な命令を含むプログラム製品が記録されている記憶媒体をさらに含む。該記憶媒体は、フロッピーディスク、光ディスク、光磁気ディスク、メモリカード、メモリスティック等を含むが、これらに限定されない。
【0052】
なお、上記処理及び装置はソフトウェア及び/又はファームウェアにより実現されてもよい。ソフトウェア及び/又はファームウェアにより実施されている場合、記憶媒体又はネットワークから専用のハードウェア構成を有するコンピュータ、例えば図9示されている汎用パーソナルコンピュータ1000に上記方法を実施するためのソフトウェアを構成するプログラムをインストールしてもよく、該コンピュータは各種のプログラムがインストールされている場合は各種の機能などを実行できる。
【0053】
図9において、中央処理部(CPU)1001は、読み出し専用メモリ(ROM)1002に記憶されているプログラム、又は記憶部1008からランダムアクセスメモリ(RAM)1003にロードされたプログラムにより各種の処理を実行する。RAM1003には、必要に応じて、CPU1001が各種の処理を実行するに必要なデータが記憶されている。
【0054】
CPU1001、ROM1002、及びRAM1003は、バス1004を介して互いに接続されている。入力/出力インターフェース1005もバス1004に接続されている。
【0055】
入力部1006(キーボード、マウスなどを含む)、出力部1007(ディスプレイ、例えばブラウン管(CRT)、液晶ディスプレイ(LCD)など、及びスピーカなどを含む)、記憶部1008(例えばハードディスクなどを含む)、通信部1009(例えばネットワークのインターフェースカード、例えばLANカード、モデムなどを含む)は、入力/出力インターフェース1005に接続されている。通信部1009は、ネットワーク、例えばインターネットを介して通信処理を実行する。
【0056】
必要に応じて、ドライバ1010は、入力/出力インターフェース1005に接続されてもよい。取り外し可能な媒体1011は、例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどであり、必要に応じてドライバ1010にセットアップされて、その中から読みだされたコンピュータプログラムは必要に応じて記憶部1008にインストールされている。
【0057】
ソフトウェアにより上記処理を実施する場合、ネットワーク、例えばインターネット、又は記憶媒体、例えば取り外し可能な媒体1011を介してソフトウェアを構成するプログラムをインストールする。
【0058】
なお、これらの記憶媒体は、図9に示されている、プログラムを記憶し、機器と分離してユーザへプログラムを提供する取り外し可能な媒体1011に限定されない。取り外し可能な媒体1011は、例えば磁気ディスク(フロッピーディスク(登録商標)を含む)、光ディスク(光ディスク-読み出し専用メモリ(CD-ROM)、及びデジタル多目的ディスク(DVD)を含む)、光磁気ディスク(ミニディスク(MD)(登録商標))及び半導体メモリを含む。或いは、記憶媒体は、ROM1002、記憶部1008に含まれるハードディスクなどであってもよく、プログラムを記憶し、それらを含む機器と共にユーザへ提供される。
【0059】
以上は図面を参照しながら本開示の好ましい実施例を説明しているが、上記実施例及び例は例示的なものであり、制限的なものではない。当業者は、特許請求の範囲の主旨及び範囲内で本開示に対して各種の修正、改良、均等的なものに変更してもよい。これらの修正、改良又は均等的なものに変更することは本開示の保護範囲に含まれるものである。
【0060】
例えば、上記実施例の1つのユニットに含まれる機能は別々の装置により実現されてもよい。また、上記実施例の複数のユニットにより実現される複数の機能は別々の装置によりそれぞれ実現されてもよい。さらに、以上の機能の1つは複数のユニットにより実現されてもよい。なお、これらの構成は本開示の範囲内のものである。
【0061】
また、本開示の方法は、明細書に説明された時間的順序で実行するものに限定されず、他の時間的順序で順次、並行、又は独立して実行されてもよい。このため、本明細書に説明された方法の実行順序は、本開示の技術的な範囲を限定するものではない。
【0062】
また、上述の各実施例を含む実施形態に関し、更に以下の付記を開示するが、これらの付記に限定されない。
(付記1)
予め訓練されたカスケード分離ネットワークモデルにキーポイントモジュールを追加して、前記キーポイントモジュールが追加された予め訓練されたカスケード分離ネットワークモデルを第2のモデルとして取得するモデル調整部であって、前記キーポイントモジュールは、前記第2のモデルの入力画像における所定のオブジェクトのキーポイント特徴に基づいて前記第2のモデルにおけるインタラクションデコーダの入力を調整する、モデル調整部と、
前記第2のモデルのパラメータのうちの前記インタラクションデコーダ、前記キーポイントモジュール及びインタラクション分類層のパラメータ以外のパラメータを固定した状態で、第1の訓練画像セットを用いて前記第2のモデルを訓練して、予測すべき画像を予測するための訓練済みの第2のモデルを取得する第2のモデル訓練部と、を含む、情報処理装置。
(付記2)
前記インタラクションデコーダの入力は、視覚的特徴及びインタラクション照会相関値を含み、
前記インタラクション照会相関値は、前記インタラクションデコーダのインタラクション照会を初期化するために用いられ、
前記キーポイントモジュールは、前記インタラクション照会相関値のみを調整する、付記1に記載の情報処理装置。
(付記3)
前記キーポイントモジュールは、前記インタラクション照会相関値を調整する際に、
射影行列を用いて前記インタラクション照会相関値に対応する入力画像における所定のオブジェクトのキーポイント特徴を前記インタラクション照会相関値の次元と同一の次元に変換して、変換済みのキーポイント特徴を取得し、前記変換済みのキーポイント特徴と前記インタラクション照会相関値とを融合する、付記2に記載の情報処理装置。
(付記4)
前記キーポイントモジュールは、前記変換済みのキーポイント特徴と前記インタラクション照会相関値とを融合する際に、
前記変換済みのキーポイント特徴と前記インタラクション照会相関値とを加算し、或いは、
前記変換済みのキーポイント特徴に重みを設定し、重みが設定された前記変換済みのキーポイント特徴と前記インタラクション照会相関値とを加算する、付記3に記載の情報処理装置。
(付記5)
前記キーポイントモジュールは、前記所定のオブジェクトのキーポイント特徴を取得する際に、
前記第2のモデルにおけるオブジェクトペアデコーダを用いて前記入力画像の視覚的特徴に基づいて前記所定のオブジェクトの境界枠を取得し、前記境界枠に基づいて前記所定のオブジェクトのキーポイント特徴を取得する、付記3又は4に記載の情報処理装置。
(付記6)
第2の訓練画像セットを用いて初期カスケード分離ネットワークモデルを訓練して、前記予め訓練されたカスケード分離ネットワークモデルを取得する第1のモデル訓練部、をさらに含み、
前記第2の訓練画像セットと前記第1の訓練画像セットとは、少なくとも部分的に重複する、付記1乃至4の何れかに記載の情報処理装置。
(付記7)
予め訓練されたカスケード分離ネットワークモデルにキーポイントモジュールを追加して、前記キーポイントモジュールが追加された予め訓練されたカスケード分離ネットワークモデルを第2のモデルとして取得するステップであって、前記キーポイントモジュールは、前記第2のモデルの入力画像における所定のオブジェクトのキーポイント特徴に基づいて前記第2のモデルにおけるインタラクションデコーダの入力を調整する、ステップと、
前記第2のモデルのパラメータのうちの前記インタラクションデコーダ、前記キーポイントモジュール及びインタラクション分類層のパラメータ以外のパラメータを固定した状態で、第1の訓練画像セットを用いて前記第2のモデルを訓練して、予測すべき画像を予測するための訓練済みの第2のモデルを取得するステップと、を含む、情報処理方法。
(付記8)
前記インタラクションデコーダの入力は、視覚的特徴及びインタラクション照会相関値を含み、
前記インタラクション照会相関値は、前記インタラクションデコーダのインタラクション照会を初期化するために用いられ、
前記キーポイントモジュールは、前記インタラクション照会相関値のみを調整する、付記7に記載の情報処理方法。
(付記9)
前記キーポイントモジュールは、前記インタラクション照会相関値を調整する際に、
射影行列を用いて前記インタラクション照会相関値に対応する入力画像における所定のオブジェクトのキーポイント特徴を前記インタラクション照会相関値の次元と同一の次元に変換して、変換済みのキーポイント特徴を取得し、前記変換済みのキーポイント特徴と前記インタラクション照会相関値とを融合する、付記8に記載の情報処理方法。
(付記10)
前記キーポイントモジュールは、前記変換済みのキーポイント特徴と前記インタラクション照会相関値とを融合する際に、
前記変換済みのキーポイント特徴と前記インタラクション照会相関値とを加算し、或いは、
前記変換済みのキーポイント特徴に重みを設定し、重みが設定された前記変換済みのキーポイント特徴と前記インタラクション照会相関値とを加算する、付記9に記載の情報処理方法。
(付記11)
前記キーポイントモジュールは、前記所定のオブジェクトのキーポイント特徴を取得する際に、
前記第2のモデルにおけるオブジェクトペアデコーダを用いて前記入力画像の視覚的特徴に基づいて前記所定のオブジェクトの境界枠を取得し、前記境界枠に基づいて前記所定のオブジェクトのキーポイント特徴を取得する、付記8又は9に記載の情報処理方法。
(付記12)
第2の訓練画像セットを用いて初期カスケード分離ネットワークモデルを訓練して、前記予め訓練されたカスケード分離ネットワークモデルを取得するステップ、をさらに含み、
前記第2の訓練画像セットと前記第1の訓練画像セットとは、少なくとも部分的に重複する、付記7乃至10の何れかに記載の情報処理方法。
(付記13)
命令が記憶されているコンピュータ読み取り可能な記憶媒体であって、前記命令がコンピュータにより実行される際に、前記コンピュータに付記7乃至12の何れかに記載の情報処理方法を実行させる、記憶媒体。
図1
図2A
図2B
図3A
図3B
図4
図5A
図5B
図6
図7
図8
図9