IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2024-73387情報処理装置、情報処理方法及びコンピュータ読み取り可能な記憶媒体
<>
  • 特開-情報処理装置、情報処理方法及びコンピュータ読み取り可能な記憶媒体 図1
  • 特開-情報処理装置、情報処理方法及びコンピュータ読み取り可能な記憶媒体 図2A
  • 特開-情報処理装置、情報処理方法及びコンピュータ読み取り可能な記憶媒体 図2B
  • 特開-情報処理装置、情報処理方法及びコンピュータ読み取り可能な記憶媒体 図3A
  • 特開-情報処理装置、情報処理方法及びコンピュータ読み取り可能な記憶媒体 図3B
  • 特開-情報処理装置、情報処理方法及びコンピュータ読み取り可能な記憶媒体 図4
  • 特開-情報処理装置、情報処理方法及びコンピュータ読み取り可能な記憶媒体 図5
  • 特開-情報処理装置、情報処理方法及びコンピュータ読み取り可能な記憶媒体 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024073387
(43)【公開日】2024-05-29
(54)【発明の名称】情報処理装置、情報処理方法及びコンピュータ読み取り可能な記憶媒体
(51)【国際特許分類】
   G06T 7/00 20170101AFI20240522BHJP
   G06T 7/70 20170101ALI20240522BHJP
   G06N 3/045 20230101ALI20240522BHJP
【FI】
G06T7/00 350C
G06T7/70 A
G06T7/00 660Z
G06N3/045
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2023193885
(22)【出願日】2023-11-14
(31)【優先権主張番号】202211460259.5
(32)【優先日】2022-11-17
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】李 斐
(72)【発明者】
【氏名】郭 子豪
(72)【発明者】
【氏名】リィウ・ルゥジエ
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096BA18
5L096CA02
5L096DA01
5L096EA39
5L096FA16
5L096FA69
5L096HA11
5L096KA04
(57)【要約】
【課題】情報処理装置、情報処理方法及びコンピュータ読み取り可能な記憶媒体を提供する。
【解決手段】該情報処理装置は、カスケード紐解きネットワークに基づく第1のモデルにオブジェクト部分デコーダを追加して、オブジェクト部分デコーダを含む第1のモデルを第2のモデルとして構築するモデル構築部と、損失関数に基づいて訓練画像セットを使用して前記第2のモデルを訓練し、予測すべき画像を予測するための訓練済みの第2のモデルを取得するモデル訓練部と、を含み、オブジェクト部分デコーダは、所定のオブジェクトの所定の部分の位置を予測するために使用され、損失関数は、所定のオブジェクトの所定の部分の位置についての第1の損失関数を含み、第2のモデルにおけるインタラクションデコーダの入力照会ベクトルは、第2のモデルにおけるオブジェクトペアデコーダの出力ベクトル及びオブジェクト部分デコーダの出力ベクトルの両方に基づくものである。
【選択図】図1
【特許請求の範囲】
【請求項1】
カスケード紐解きネットワークに基づく第1のモデルにオブジェクト部分デコーダを追加して、前記オブジェクト部分デコーダを含む第1のモデルを第2のモデルとして構築するモデル構築部と、
損失関数に基づいて訓練画像セットを使用して前記第2のモデルを訓練し、予測すべき画像を予測するための訓練済みの第2のモデルを取得するモデル訓練部と、を含み、
前記オブジェクト部分デコーダは、所定のオブジェクトの所定の部分の位置を予測するために使用され、
前記損失関数は、前記所定のオブジェクトの所定の部分の位置についての第1の損失関数を含み、
前記第2のモデルにおけるインタラクションデコーダの入力照会ベクトルは、前記第2のモデルにおけるオブジェクトペアデコーダの出力ベクトル及び前記オブジェクト部分デコーダの出力ベクトルの両方に基づくものである、情報処理装置。
【請求項2】
前記オブジェクトペアデコーダの出力ベクトルは、前記オブジェクト部分デコーダの入力照会ベクトルとして使用される、請求項1に記載の情報処理装置。
【請求項3】
前記オブジェクト部分デコーダの出力ベクトルは、前記オブジェクトペアデコーダの入力照会ベクトルとして使用される、請求項1に記載の情報処理装置。
【請求項4】
前記訓練画像セットにおける各訓練画像について、該訓練画像における所定の部分が隠されている場合、前記第1の損失関数は、前記オブジェクト部分デコーダにより出力された前記所定の部分の境界枠のサイズに基づくものである、請求項1乃至3の何れかに記載の情報処理装置。
【請求項5】
前記第2のモデルの訓練プロセスにおいて、前記オブジェクト部分デコーダにより予測された前記所定の部分の位置を考慮して、前記第2のモデルによる前記訓練画像セットにおける各訓練画像の予測結果と該訓練画像についての真理値との対応関係を決定する、請求項1乃至3の何れかに記載の情報処理装置。
【請求項6】
前記オブジェクトペアデコーダの出力ベクトルと前記オブジェクト部分デコーダの出力ベクトルとの重み付け和は、前記インタラクションデコーダの入力照会ベクトルとして使用される、請求項1乃至3の何れかに記載の情報処理装置。
【請求項7】
前記第2のモデルは、視覚的特徴抽出器をさらに含み、
前記オブジェクト部分デコーダは、前記視覚的特徴抽出器により抽出された視覚的特徴及び前記入力照会ベクトルに基づいて、前記所定の部分の位置を予測する、請求項2に記載の情報処理装置。
【請求項8】
前記所定のオブジェクトは人であり、前記所定の部分は手である、請求項1乃至3の何れかに記載の情報処理装置。
【請求項9】
カスケード紐解きネットワークに基づく第1のモデルにオブジェクト部分デコーダを追加して、前記オブジェクト部分デコーダを含む第1のモデルを第2のモデルとして構築するステップと、
損失関数に基づいて訓練画像セットを使用して前記第2のモデルを訓練し、予測すべき画像を予測するための訓練済みの第2のモデルを取得するステップと、を含み、
前記オブジェクト部分デコーダは、所定のオブジェクトの所定の部分の位置を予測するために使用され、
前記損失関数は、前記所定のオブジェクトの所定の部分の位置についての第1の損失関数を含み、
前記第2のモデルにおけるインタラクションデコーダの入力照会ベクトルは、前記第2のモデルにおけるオブジェクトペアデコーダの出力ベクトル及び前記オブジェクト部分デコーダの出力ベクトルの両方に基づくものである、情報処理方法。
【請求項10】
命令が記憶されているコンピュータ読み取り可能な記憶媒体であって、前記命令がコンピュータにより実行される際に、前記コンピュータに請求項9に記載の情報処理方法を実行させる、記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理の分野に関し、具体的には、情報処理装置、情報処理方法及びコンピュータ読み取り可能な記憶媒体に関する。
【背景技術】
【0002】
近年、機械学習は、様々な分野で広く応用されている。例えば、機械学習を用いて、画像、音声などの予測(認識、分類などを含む)等を行うことができる。
【発明の概要】
【発明が解決しようとする課題】
【0003】
以下は、本開示の態様を基本的に理解させるために、本開示の簡単な概要を説明する。なお、この簡単な概要は、本開示を網羅的な概要ではなく、本開示のポイント又は重要な部分を意図的に特定するものではなく、本開示の範囲を意図的に限定するものではなく、後述するより詳細的な説明の前文として、単なる概念を簡単な形で説明することを目的とする。
【0004】
本開示は、上記の問題を鑑み、例えば予測精度を向上させることができる、情報処理装置、情報処理方法及びコンピュータ読み取り可能な記憶媒体を提供することを目的とする。
【課題を解決するための手段】
【0005】
本開示の1つの態様では、カスケード紐解きネットワークに基づく第1のモデルにオブジェクト部分デコーダを追加して、前記オブジェクト部分デコーダを含む第1のモデルを第2のモデルとして構築するモデル構築部と、損失関数に基づいて訓練画像セットを使用して前記第2のモデルを訓練し、予測すべき画像を予測するための訓練済みの第2のモデルを取得するモデル訓練部と、を含み、前記オブジェクト部分デコーダは、所定のオブジェクトの所定の部分の位置を予測するために使用され、前記損失関数は、前記所定のオブジェクトの所定の部分の位置についての第1の損失関数を含み、前記第2のモデルにおけるインタラクションデコーダの入力照会ベクトルは、前記第2のモデルにおけるオブジェクトペアデコーダの出力ベクトル及び前記オブジェクト部分デコーダの出力ベクトルの両方に基づくものである、情報処理装置を提供する。
【0006】
本開示のもう1つの態様では、カスケード紐解きネットワークに基づく第1のモデルにオブジェクト部分デコーダを追加して、前記オブジェクト部分デコーダを含む第1のモデルを第2のモデルとして構築するステップと、損失関数に基づいて訓練画像セットを使用して前記第2のモデルを訓練し、予測すべき画像を予測するための訓練済みの第2のモデルを取得するステップと、を含み、前記オブジェクト部分デコーダは、所定のオブジェクトの所定の部分の位置を予測するために使用され、前記損失関数は、前記所定のオブジェクトの所定の部分の位置についての第1の損失関数を含み、前記第2のモデルにおけるインタラクションデコーダの入力照会ベクトルは、前記第2のモデルにおけるオブジェクトペアデコーダの出力ベクトル及び前記オブジェクト部分デコーダの出力ベクトルの両方に基づくものである、情報処理方法を提供する。
【0007】
本開示の他の態様では、上記の本開示の方法を実現するためのコンピュータプログラムコード及びコンピュータプログラム製品、並びに上記の本開示の方法を実現するためのコンピュータプログラムコードが記録されているコンピュータ読み取り可能な記憶媒体をさらに提供する。
【0008】
以下は、本開示の実施例の他の態様を説明し、特に本開示の好ましい実施例を詳細に説明するが、本開示はこれらの実施例に限定されない。
【図面の簡単な説明】
【0009】
本開示の原理及び利点を理解させるために、図面を参照しながら本開示の各実施例を説明する。全ての図面において、同一又は類似の符号で同一又は類似の構成部を示している。ここで説明される図面は、好ましい実施例を例示するためのものであり、全ての可能な実施例ではなく、本開示の範囲を限定するものではない。
図1】本開示の実施例に係る情報処理装置の機能的構成の一例を示すブロック図である。
図2A】第1のモデルのアーキテクチャの一例を示す図である。
図2B】本開示の実施例に係る情報処理装置により取得された第2のモデルのアーキテクチャの一例を示す図である。
図3A】本開示の実施例に係る情報処理装置により取得された第2のモデルのアーキテクチャの他の例を示す図である。
図3B】本開示の実施例に係る情報処理装置により取得された第2のモデルのアーキテクチャの更なる他の例を示す図である。
図4】本開示の実施例に係る情報処理装置により取得された訓練済みの第2のモデルと訓練済みのカスケード紐解きネットワークモデルとの比較を示す図である。
図5】本開示の実施例に係る情報処理方法の流れの一例を示すフローチャートである。
図6】本開示の実施例に適用可能なパーソナルコンピュータの例示的な構成を示すブロック図である。
【発明を実施するための形態】
【0010】
以下、図面を参照しながら本開示の例示的な実施例を詳細に説明する。説明の便宜上、明細書には実際の実施形態の全ての特徴が示されていない。なお、実際に実施する際に、開発者の具体的な目標を実現するために、特定の実施形態を変更してもよい、例えばシステム及び業務に関する制限条件に応じて実施形態を変更してもよい。また、開発作業が非常に複雑であり、且つ時間がかかるが、本公開の当業者にとって、この開発作業は単なる例の作業である。
【0011】
なお、本開示を明確にするために、図面には本開示に密に関連する装置の構成要件又は処理のステップのみが示され、本開示と関係のない細部が省略されている。
【0012】
以下は、図面を参照しながら、本開示の実施例を詳細に説明する。
【0013】
まず、図1乃至図4を参照しながら、本開示の実施例に係る情報処理装置100の実現の例を説明する。図1は、本開示の実施例に係る情報処理装置100の機能的構成の一例を示すブロック図である。図2Aは、第1のモデルのアーキテクチャの一例を示す図である。図2B図3A及び図3Bは、本開示の実施例に係る情報処理装置により取得された第2のモデルのアーキテクチャの例を示す図である。図4は、訓練済みの第2のモデルと訓練済みのカスケード紐解きネットワークモデルとの比較を示す図である。
【0014】
図1に示すように、本開示の実施例に係る情報処理装置100は、モデル構築部102及びモデル訓練部104を含んでもよい。
【0015】
モデル構築部102は、カスケード紐解きネットワーク(Cascade Disentangling Network(CDN)。例えば、非特許文献1であるMining the Benefits of Two-stage and One-stage HOI Detection. NeurIPS 2021を参照する)に基づく第1のモデル(例えば図2Aに示す)にオブジェクト部分デコーダを追加して、オブジェクト部分デコーダを含む第1のモデルを第2のモデル(例えば図2Bに示す)として構築してもよい。オブジェクト部分デコーダは、所定のオブジェクトの所定の部分の位置を予測するために使用されてもよい。第2のモデルにおいて、インタラクションデコーダの入力照会ベクトル(query vector)は、オブジェクトペアデコーダの出力ベクトル及びオブジェクト部分デコーダの出力ベクトルの両方に基づくものであってもよい。例えば、図2Bに示すように、オブジェクトペアデコーダの出力ベクトルとオブジェクト部分デコーダの出力ベクトルの両方を融合し、融合結果をインタラクションデコーダの入力照会ベクトルとして使用してもよい。
【0016】
例えば、オブジェクトペアデコーダの出力ベクトルは、オブジェクトペアデコーダの最終層の出力であってもよいが、これに限定されない。同様に、オブジェクト部分デコーダの出力ベクトルは、オブジェクト部分デコーダの最終層の出力であってもよいが、これに限定されない。
【0017】
CDNに基づくモデル(例えば、第1のモデルと第2のモデル)では、照会ベクトルは、例えばオブジェクトペアデコーダなどのデコーダへの入力の1つであり、検出すべきオブジェクトに関連するコンテキストの情報を含む。照会ベクトルは、独立した変数であってもよく、その値は大量の訓練サンプルに基づいて学習により得られてもよいし、適切な変数に関連付けてもよい。図2Bでは、オブジェクトペアデコーダの入力照会ベクトルとオブジェクト部分デコーダの入力照会ベクトルとは、同一であってもよいし、異なってもよい。
【0018】
モデル訓練部104は、損失関数に基づいて訓練画像セットを使用して第2のモデルを訓練し、予測すべき画像を予測するための訓練済みの第2のモデルを取得してもよい。損失関数は、所定のオブジェクトの所定の部分の位置についての第1の損失関数を含んでもよい。
【0019】
例えば、訓練画像セットにおける所定の部分に対して真理値を手動でラベル付けしてもよい。また、自動的に検出された所定のオブジェクトのキーポイント位置に基づいて所定の部分の真理値を推定してもよい。これによって、ラベル付けのコストを低減させることができる。例えば、所定の部分が手である場合、手首のキーポイントの位置に基づいて、手の領域を大まかに決定してもよい。
【0020】
例えば、訓練画像は、少なくとも、互いにインタラクション(相互作用)のある2つのオブジェクトを含んでもよく、以下は、それぞれ第1のオブジェクト及び第2のオブジェクトと称されてもよい。例えば、第1のオブジェクトは人であってもよく、第2のオブジェクトは動物又は物体であってもよい。この場合、所定のオブジェクトは人であってもよく、所定のオブジェクトの所定の部分は、例えば手、足などの人の身体部位であってもよい。また、例えば、第1のオブジェクトは動物であってもよく、第2のオブジェクトは物体であってもよい。この場合、所定のオブジェクトは動物であってもよく、所定のオブジェクトの所定の部分は、例えば頭、足などの該動物の身体部位であってもよい。また、例えば、訓練画像は、互いにインタラクションのある3つ以上のオブジェクトを含んでもよい。
【0021】
例えば、特定のタスクについて、所定のオブジェクトのカテゴリ及び所定のオブジェクトの所定の部分のカテゴリは、既知であってもよい。例えば、訓練済みの第2のモデルを使用して盗難行為の有無を検出する場合、所定のオブジェクトは人であってもよく、所定のオブジェクトの所定の部分は人の手であってもよい。なお、所定のオブジェクトのカテゴリ及び所定のオブジェクトの所定の部分のカテゴリは、訓練済みの第2のモデルの使用シナリオに応じて変化してもよい。
【0022】
また、例えば、特定のタスクについて、所定のオブジェクトのカテゴリが決定されている場合、所定の部分は、1つのカテゴリのみに関するものであってもよい。例えば、所定のオブジェクトが人である場合、所定の部分は、人の身体部位のうちの1つ、例えば、手、足などのみに関するものであってもよい。例えば、訓練済みの第2のモデルを使用して、医師の手術操作が規範的であるか、且つ/或いは熟練しているかを検出する場合、所定の部分は、手のみであってもよい。
【0023】
オブジェクトのインタラクション予測(例えば、人と動物のインタラクション予測、人と物体のインタラクション予測、動物と物体のインタラクション予測など)は、コンピュータビジョンの分野で注目されている研究課題の1つであり、広く応用されている。オブジェクトのインタラクション予測の目標は、画像における<第1のオブジェクト、動作、第2のオブジェクト>というインタラクションのトリプレット(triplet)を自動的に予測して、画像における第1のオブジェクトの挙動を正確に理解することである。例えば、特定の画像について、オブジェクトのインタラクション検出のタスクは、画像における第1のオブジェクト及び第2のオブジェクトの位置を特定する(即ち、第1のオブジェクト及び第2のオブジェクトの位置を決定する)ことと、第2のオブジェクトが属するカテゴリを判断することと、第1のオブジェクトと第2のオブジェクトとのインタラクション動作の関係を決定することとを含む。
【0024】
ディープラーニング技術の発展に伴い、トリプレットの学習に基づくオブジェクトのインタラクション検出は大きな進歩を遂げた。しかし、本願の発明者が検討したところ、トリプレット学習では、学習プロセスにおいて第1のオブジェクト(例えば、人体)全体の情報を考慮するため、インタラクションのあるオブジェクトペア(例えば、人物のペア)を正確に判断することが困難である場合があるという問題点があった。例えば、支払いなどの実際の応用シナリオでは、人体の近くに複数の物体がある場合、トリプレット学習に基づくオブジェクトのインタラクション検出では、正確なインタラクションを持つ人物ペアを取得することは困難である。
【0025】
上述したように、本開示の実施例に係る情報処理装置100は、カスケード紐解きネットワークに基づく第1のモデルに、所定のオブジェクトの所定の部分の位置を予測するためのオブジェクト部分デコーダを追加して訓練してもよい。これによって、得られた訓練済みの第2のモデルが予測すべき画像を予測する際に、所定のオブジェクトの所定の部分の情報を考慮し、即ち、<第1のオブジェクト、所定の部分、動作、第2のオブジェクト>というクワドラプレット(quadruplet)における全ての要素の一致関係を考慮することができるため、より正確なインタラクション関係のあるオブジェクトペア(例えば、人物ペア)を取得することができ、オブジェクトペア間の動作関係をより正確に判断することができる。
【0026】
また、本開示の実施例に係る情報処理装置100により構築された第2のモデルは、エンドツーエンドのモデルであるため、エンドツーエンドの学習を実現することができ、訓練プロセスは比較的に簡単である。
【0027】
以下は、訓練画像に互いにインタラクションのある第1のオブジェクトと第2のオブジェクトとが含まれ、且つ第1のオブジェクトが所定のオブジェクトであることを一例として、訓練プロセスをさらに説明する。なお、実際の応用では、訓練画像は、訓練済みの第2のモデルの適用シナリオに応じて変化してもよい。
【0028】
訓練プロセスでは、各訓練画像についてN個(Nは0以外の自然数)の予測結果
(外1)
を取得してもよい。二部グラフのマッチング(bipartite matching)を使用して、N個の真のラベル
(外2)
とN個の検出結果
(外3)
との対応関係を取得してもよい。二部グラフのマッチングの目的は、次の式(1)を満たすN個の要素の全順列
(外4)
を求めることである。
【0029】
【数1】
式(1)において、Cはマッチングコスト関数である。
【0030】
一例として、オブジェクト部分デコーダにより予測された所定の部分の位置を考慮して、第2のモデルによる各訓練画像の予測結果と該訓練画像についての真理値との対応関係を決定してもよい。これによって、得られた訓練済みの第2のモデルの予測性能をさらに向上させることができる。この場合、マッチングコスト関数Cは、次の式(2)で表されてもよい。
【0031】
【数2】
式(2)において、C とCGIoU は、それぞれ第1のオブジェクトに対応する境界枠マッチングコストとGIoU(Generalized intersection over union)マッチングコストを表し、C とCGIoU は、それぞれ第2のオブジェクトに対応する境界枠マッチングコストとGIoUマッチングコストを表し、C とCGIoU は、それぞれ所定の部分に対応する境界枠マッチングコストとGIoUマッチングコストを表し、Cは、インタラクションスコア値マッチングコストを表し、C は、第2のオブジェクトのカテゴリマッチングコストを表し、C は、インタラクションカテゴリマッチングコストを表す。また、ω、ωGIoU、ω、ω及びωは、対応する重みを表し、有限回の実験により決定され、或いは経験に基づいて決定されてもよい。
【0032】
以上のように、所定の部分の位置を考慮して予測結果と真理値との対応関係を決定することによって、得られた訓練済みの第2のモデルの予測性能をさらに向上させることができる。
【0033】
予測結果と真理値との対応関係を決定した後、該対応関係に基づいて、損失関数を用いて最適化損失を計算してもよい。
【0034】
例えば、損失関数は、次の式(3)で表されてもよい。
【0035】
【数3】
式(3)において、Lは、第1の損失関数を表す。式(3)における他の項は、上記の非特許文献1の定義と同様な定義を有するため、ここでその詳細な説明を省略する。
【0036】
例えば、第1の損失関数Lは、次の式(4)で表されてもよい。
【0037】
【数4】
式(4)において、L とLGIoU は、それぞれ所定の部分の境界枠回帰損失とGIoU損失を表す。また、λとλGIoUは、対応する重みを表し、有限回の実験により決定され、或いは経験に基づいて決定されてもよい。
【0038】
なお、遮蔽などにより、動作に関連する所定の部分は、一部の訓練画像において見えない場合がある。言い換えれば、幾つかの訓練画像では、所定の部分の真のラベルの値は空である場合がある。一方、訓練プロセスにおいて、第2のモデルによる訓練画像に対する予測結果は、必ず所定の部分の情報を含む。この場合にも、式(4)で表される第1の損失関数を計算できないため、訓練を行うことができなくなる。この問題を解決するために、本願の発明者は、予測結果における所定の部分の境界枠(バウンディングボックス)のサイズに基づく第1の損失関数を提案する。例えば、所定の部分が遮蔽された訓練画像について、オブジェクト部分デコーダにより出力された所定の部分の境界枠のサイズ(例えば、面積)に基づいて、第1の損失関数を計算してもよい。例えば、第1の損失関数L’は、次の式(5)で表されてもよい。
【0039】
【数5】
式(5)において、LAreaは、境界枠面積損失を表す。また、λAreaは重みを表し、有限回の実験により決定され、或いは経験に基づいて決定されてもよい。
【0040】
それに応じて、損失関数は、次の式(6)で表されてもよい。
【0041】
【数6】
式(6)において、I[box(p)≠φ]及びI[box(p)=φ]は特性関数である。box(p)!=φ、即ち、所定の部分の真理値が空ではない場合、I[box(p)≠φ]及びI[box(p)=φ]はそれぞれ1及び0である。一方、box(p)=φ、即ち、所定の部分の真理値が空である場合、I[box(p)≠φ]及びI[box(p)=φ]はそれぞれ0及び1である。
【0042】
同様に、人体部分の真のラベルの値が空である場合、検出された所定の部分の境界枠の面積をマッチングコストとして導入してもよく、マッチングコスト関数は、次の式(7)で表されてもよい。
【0043】
【数7】
Areaは、所定の部分の境界枠の面積に対応するマッチングコストを表す。ωAreaは、重みを表し、有限回の実験により決定され、或いは経験に基づいて決定されてもよい。
【0044】
以上のように、訓練画像に所定の部分が含まれるか否かに応じて異なる第1の損失関数を設定することによって、所定の部分を有する訓練画像のみを含むように訓練画像セットをスクリーニングする必要がなくなるため、訓練画像セットの収集プロセスを簡略化することができる。
【0045】
一例として、図3Aに示すように、オブジェクト部分デコーダ(例えば、人体部位デコーダ)の出力ベクトルは、オブジェクトペアデコーダ(例えば、人物ペアデコーダ)の入力照会ベクトルとして使用されてもよい。オブジェクト部分デコーダの出力ベクトルは、オブジェクトペアデコーダのために補助情報を提供することができるため、オブジェクトペアデコーダの性能をさらに向上させることができる。また、オブジェクトペアデコーダ及びオブジェクト部分デコーダの出力を統合的に利用するインタラクションデコーダの性能をさらに向上させ、より正確な動作分類性能を得ることができる。
【0046】
別の例として、図3Bに示すように、オブジェクトペアデコーダ(例えば、人物ペアデコーダ)の出力ベクトルは、オブジェクト部分デコーダ(例えば、人体部位デコーダ)の入力照会ベクトルとして使用されてもよい。オブジェクトペアデコーダの出力ベクトルは、オブジェクト部分デコーダのために補助情報を提供することができるため、オブジェクト部分デコーダの性能をさらに向上させることができ、得られた訓練済みの第2のモデルの予測性能をさらに向上させることができる。
【0047】
図2B図3A及び図3Bにおいて、記号「
(外5)
【0048】
」は、オブジェクトペアデコーダの出力ベクトルとオブジェクト部分デコーダの出力ベクトルとの融合操作を表す。例えば、融合操作は、オブジェクトペアデコーダの出力ベクトルとオブジェクト部分デコーダの出力ベクトルとを加算することを含んでもよい。また、例えば、融合操作は、オブジェクトペアデコーダの出力ベクトルとオブジェクト部分デコーダの出力ベクトルに対して重みを設定するステップと、重みが設定されたオブジェクトペアデコーダの出力ベクトルとオブジェクト部分デコーダの出力ベクトルとを加算して、それらの重み付け和を取得することとを含んでもよい。オブジェクトペアデコーダの出力ベクトルとオブジェクト部分デコーダの出力ベクトルとの重み付け和をインタラクションデコーダの入力照会ベクトルとして使用することによって、得られた訓練済みの第2のモデルの予測性能をさらに向上させることができる。上記の重みは、実際の必要に応じて予め設定されてもよいし、適応学習により取得されてもよい。
【0049】
また、当業者は、実際の必要に応じて他の方法を採用して、オブジェクトペアデコーダの出力ベクトルとオブジェクト部分デコーダの出力ベクトルとを融合してもよく、例えば、予め設計されたネットワークにより両者を融合してもよい。
【0050】
例えば、図3A及び図3Bに示すように、第2のモデルは、視覚的特徴抽出器をさらに含んでもよい。オブジェクト部分デコーダは、視覚的特徴抽出器により抽出された視覚的特徴及び入力照会ベクトルに基づいて、所定の部分の位置を予測してもよい。
【0051】
図4は、本開示の実施例に係る情報処理装置100により取得された訓練済みの第2のモデルと訓練済みのCDNモデルとの比較を示す図である。図4に示すテスト結果は、所定のオブジェクトが人であり、且つ所定の部分が手である場合に得られるものであり、ここで、手領域の真理値は、手首のキーポイントの位置に基づいて概ね決定される。図4から分かるように、採用された一例であるデータセットについて、訓練済みの第2のモデルの平均精度(mean average precision:mAP)は、訓練済みCDNと比べて約0.74%向上した。
【0052】
以上は本開示の実施例に係る情報処理装置を説明しているが、本開示は、上記の情報処理装置の実施例に対応する情報処理方法の実施例をさらに提供する。
【0053】
図5は、本開示の実施例に係る情報処理方法500の流れの一例を示すフローチャートである。図5に示すように、本開示の実施例に係る情報処理方法500は、開始ステップS502から開始し、終了ステップS510に終了してもよい。情報処理方法500は、モデル構築ステップS504及びモデル訓練ステップS506を含んでもよい。
【0054】
モデル構築ステップS504において、カスケード紐解きネットワーク(CDN)に基づく第1のモデル(例えば図2Aに示す)にオブジェクト部分デコーダを追加して、オブジェクト部分デコーダを含む第1のモデルを第2のモデル(例えば図2Bに示す)として構築してもよい。オブジェクト部分デコーダは、所定のオブジェクトの所定の部分の位置を予測するために使用されてもよい。例えば、モデル構築ステップS504は、上述したモデル構築部102により実施されてもよく、その詳細は上記のモデル構築部102の説明を参照してもよく、ここでその説明を省略又は簡略化する。
【0055】
モデル訓練ステップS506において、損失関数に基づいて訓練画像セットを使用して第2のモデルを訓練し、予測すべき画像を予測するための訓練済みの第2のモデルを取得してもよい。損失関数は、所定のオブジェクトの所定の部分の位置についての第1の損失関数を含んでもよい。例えば、モデル訓練ステップS506は、上述したモデル訓練部104により実施されてもよく、その詳細は上記のモデル訓練部104の説明を参照してもよく、ここでその説明を省略又は簡略化する。
【0056】
本開示の実施例に係る情報処理装置100と同様に、情報処理方法500は、カスケード紐解きネットワークに基づく第1のモデルに、所定のオブジェクトの所定の部分の位置を予測するためのオブジェクト部分デコーダを追加して訓練してもよい。これによって、得られた訓練済みの第2のモデルが予測すべき画像を予測する際に、所定のオブジェクトの所定の部分の情報を考慮することができるため、より正確なインタラクション関係のあるオブジェクトペア(例えば、人物ペア)を取得することができ、オブジェクトペア間の動作関係をより正確に判断することができる。
【0057】
また、本開示の実施例に係る情報処理方法500は、エンドツーエンドの学習を実現することができ、訓練プロセスは比較的に簡単である。
【0058】
例えば、遮蔽などにより、動作に関連する所定の部分が一部の訓練画像において見えない場合には、オブジェクト部分デコーダにより出力された所定の部分の境界枠のサイズ(例えば、面積)に基づいて、第1の損失関数を計算してもよい。
【0059】
一例として、第2のモデルでは、オブジェクト部分デコーダ(例えば、人体部位デコーダ)の出力ベクトルは、オブジェクトペアデコーダ(例えば、人物ペアデコーダ)の入力照会ベクトルとして使用されてもよい。オブジェクト部分デコーダの出力ベクトルは、オブジェクトペアデコーダのために補助情報を提供することができるため、オブジェクトペアデコーダの性能をさらに向上させることができる。また、オブジェクトペアデコーダ及びオブジェクト部分デコーダの出力を統合的に利用するインタラクションデコーダの性能をさらに向上させ、より正確な動作分類性能を得ることができる。
【0060】
別の例として、第2のモデルでは、オブジェクトペアデコーダ(例えば、人物ペアデコーダ)の出力ベクトルは、オブジェクト部分デコーダ(例えば、人体部位デコーダ)の入力照会ベクトルとして使用されてもよい。オブジェクトペアデコーダの出力ベクトルは、オブジェクト部分デコーダのために補助情報を提供することができるため、オブジェクト部分デコーダの性能をさらに向上させることができ、得られた訓練済みの第2のモデルの予測性能をさらに向上させることができる。
【0061】
第2のモデルでは、インタラクションデコーダの入力照会ベクトルは、オブジェクトペアデコーダの出力ベクトル及びオブジェクト部分デコーダの出力ベクトルの両方に基づくものであってもよい。例えば、オブジェクトペアデコーダの出力ベクトルとオブジェクト部分デコーダの出力ベクトルとの和を、インタラクションデコーダの入力照会ベクトルとして使用してもよい。また、例えば、オブジェクトペアデコーダの出力ベクトルとオブジェクト部分デコーダの出力ベクトルとの重み付け和を、インタラクションデコーダの入力照会ベクトルとして使用してもよい。
【0062】
例えば、本開示の実施例に係る情報処理装置及び情報処理方法は、セルフレジで支払う際に、顧客がバーコードのスキャンを意図的に行わないことなどの万引き行為を監視するために、スーパーマーケット、店舗などに適用されてもよい。また、選手にファウルなどがあるか否かを決定するために、競技場に適用されてもよい。また、作業者による組み立てのビデオを分析して標準的な作業手順に従って作業を完了したか否かを判断し、或いは病院の医師による手術のビデオを分析して操作が規範的であるか、及び熟練度などを判断するために使用されてもよい。なお、当業者は、必要に応じて、本開示の実施例に係る情報処理装置及び情報処理方法を他の分野に適用してもよい。
【0063】
なお、以上は本開示の実施例に係る情報処理装置及び情報処理方法の機能的構成及び動作を説明しているが、該機能的構成及び動作は単なる例示的なものであり、本開示を限定するものではない。当業者は、本開示の原理に従って上記実施例を修正してもよく、例えば各実施例における機能的モジュールを追加、削除又は組み合わせてもよく、これらの修正は本開示の範囲に含まれるものである。
【0064】
また、ここの装置の実施例は上記方法の実施例に対応するため、装置の実施例に詳細に説明されていない内容は、上記方法実施例の対応説明を参照してもよく、ここでその説明を省略する。
【0065】
また、本開示は記憶媒体及びプログラム製品をさらに提供する。本開示の実施例に係る記憶媒体及びプログラム製品における機器が実行可能な命令は上記方法を実行してもよく、ここで詳細に説明されていない内容は、上記方法の実施例の対応説明を参照してもよく、ここでその説明を省略する。
【0066】
それに応じて、本開示は、機器が実行可能な命令を含むプログラム製品が記録されている記憶媒体をさらに含む。該記憶媒体は、フロッピーディスク、光ディスク、光磁気ディスク、メモリカード、メモリスティック等を含むが、これらに限定されない。
【0067】
なお、上記処理及び装置はソフトウェア及び/又はファームウェアにより実現されてもよい。ソフトウェア及び/又はファームウェアにより実施されている場合、記憶媒体又はネットワークから専用のハードウェア構成を有するコンピュータ、例えば図6示されている汎用パーソナルコンピュータ1000に上記方法を実施するためのソフトウェアを構成するプログラムをインストールしてもよく、該コンピュータは各種のプログラムがインストールされている場合は各種の機能などを実行できる。
【0068】
図6において、中央処理部(CPU)1001は、読み出し専用メモリ(ROM)1002に記憶されているプログラム、又は記憶部1008からランダムアクセスメモリ(RAM)1003にロードされたプログラムにより各種の処理を実行する。RAM1003には、必要に応じて、CPU1001が各種の処理を実行するに必要なデータが記憶されている。
【0069】
CPU1001、ROM1002、及びRAM1003は、バス1004を介して互いに接続されている。入力/出力インターフェース1005もバス1004に接続されている。
【0070】
入力部1006(キーボード、マウスなどを含む)、出力部1007(ディスプレイ、例えばブラウン管(CRT)、液晶ディスプレイ(LCD)など、及びスピーカなどを含む)、記憶部1008(例えばハードディスクなどを含む)、通信部1009(例えばネットワークのインターフェースカード、例えばLANカード、モデムなどを含む)は、入力/出力インターフェース1005に接続されている。通信部1009は、ネットワーク、例えばインターネットを介して通信処理を実行する。
【0071】
必要に応じて、ドライバ1010は、入力/出力インターフェース1005に接続されてもよい。取り外し可能な媒体1011は、例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどであり、必要に応じてドライバ1010にセットアップされて、その中から読み出されたコンピュータプログラムは必要に応じて記憶部1008にインストールされている。
【0072】
ソフトウェアにより上記処理を実施する場合、ネットワーク、例えばインターネット、又は記憶媒体、例えば取り外し可能な媒体1011を介してソフトウェアを構成するプログラムをインストールする。
【0073】
なお、これらの記憶媒体は、図6に示されている、プログラムを記憶し、機器と分離してユーザへプログラムを提供する取り外し可能な媒体1011に限定されない。取り外し可能な媒体1011は、例えば磁気ディスク(フロッピーディスク(登録商標)を含む)、光ディスク(光ディスク-読み出し専用メモリ(CD-ROM)、及びデジタル多目的ディスク(DVD)を含む)、光磁気ディスク(ミニディスク(MD)(登録商標))及び半導体メモリを含む。或いは、記憶媒体は、ROM1002、記憶部1008に含まれるハードディスクなどであってもよく、プログラムを記憶し、それらを含む機器と共にユーザへ提供される。
【0074】
以上は図面を参照しながら本開示の好ましい実施例を説明しているが、上記実施例及び例は例示的なものであり、制限的なものではない。当業者は、特許請求の範囲の主旨及び範囲内で本開示に対して各種の修正、改良、均等的なものに変更してもよい。これらの修正、改良又は均等的なものに変更することは本開示の保護範囲に含まれるものである。
【0075】
例えば、上記実施例の1つのユニットに含まれる機能は別々の装置により実現されてもよい。また、上記実施例の複数のユニットにより実現される複数の機能は別々の装置によりそれぞれ実現されてもよい。さらに、以上の機能の1つは複数のユニットにより実現されてもよい。なお、これらの構成は本開示の範囲内のものである。
【0076】
また、本開示の方法は、明細書に説明された時間的順序で実行するものに限定されず、他の時間的順序で順次、並行、又は独立して実行されてもよい。このため、本明細書に説明された方法の実行順序は、本開示の技術的な範囲を限定するものではない。
【0077】
また、上述の各実施例を含む実施形態に関し、更に以下の付記を開示するが、これらの付記に限定されない。
(付記1)
カスケード紐解きネットワークに基づく第1のモデルにオブジェクト部分デコーダを追加して、前記オブジェクト部分デコーダを含む第1のモデルを第2のモデルとして構築するモデル構築部と、
損失関数に基づいて訓練画像セットを使用して前記第2のモデルを訓練し、予測すべき画像を予測するための訓練済みの第2のモデルを取得するモデル訓練部と、を含み、
前記オブジェクト部分デコーダは、所定のオブジェクトの所定の部分の位置を予測するために使用され、
前記損失関数は、前記所定のオブジェクトの所定の部分の位置についての第1の損失関数を含み、
前記第2のモデルにおけるインタラクションデコーダの入力照会ベクトルは、前記第2のモデルにおけるオブジェクトペアデコーダの出力ベクトル及び前記オブジェクト部分デコーダの出力ベクトルの両方に基づくものである、情報処理装置。
(付記2)
前記オブジェクトペアデコーダの出力ベクトルは、前記オブジェクト部分デコーダの入力照会ベクトルとして使用される、付記1に記載の情報処理装置。
(付記3)
前記オブジェクト部分デコーダの出力ベクトルは、前記オブジェクトペアデコーダの入力照会ベクトルとして使用される、付記1に記載の情報処理装置。
(付記4)
前記訓練画像セットにおける各訓練画像について、該訓練画像における所定の部分が隠されている場合、前記第1の損失関数は、前記オブジェクト部分デコーダにより出力された前記所定の部分の境界枠のサイズに基づくものである、付記1乃至3の何れかに記載の情報処理装置。
(付記5)
前記第2のモデルの訓練プロセスにおいて、前記オブジェクト部分デコーダにより予測された前記所定の部分の位置を考慮して、前記第2のモデルによる前記訓練画像セットにおける各訓練画像の予測結果と該訓練画像についての真理値との対応関係を決定する、付記1乃至3の何れかに記載の情報処理装置。
(付記6)
前記オブジェクトペアデコーダの出力ベクトルと前記オブジェクト部分デコーダの出力ベクトルとの重み付け和は、前記インタラクションデコーダの入力照会ベクトルとして使用される、付記1乃至3の何れかに記載の情報処理装置。
(付記7)
前記第2のモデルは、視覚的特徴抽出器をさらに含み、
前記オブジェクト部分デコーダは、前記視覚的特徴抽出器により抽出された視覚的特徴及び前記入力照会ベクトルに基づいて、前記所定の部分の位置を予測する、付記2に記載の情報処理装置。
(付記8)
前記所定のオブジェクトは人であり、前記所定の部分は手である、付記1乃至3の何れかに記載の情報処理装置。
(付記9)
カスケード紐解きネットワークに基づく第1のモデルにオブジェクト部分デコーダを追加して、前記オブジェクト部分デコーダを含む第1のモデルを第2のモデルとして構築するステップと、
損失関数に基づいて訓練画像セットを使用して前記第2のモデルを訓練し、予測すべき画像を予測するための訓練済みの第2のモデルを取得するステップと、を含み、
前記オブジェクト部分デコーダは、所定のオブジェクトの所定の部分の位置を予測するために使用され、
前記損失関数は、前記所定のオブジェクトの所定の部分の位置についての第1の損失関数を含み、
前記第2のモデルにおけるインタラクションデコーダの入力照会ベクトルは、前記第2のモデルにおけるオブジェクトペアデコーダの出力ベクトル及び前記オブジェクト部分デコーダの出力ベクトルの両方に基づくものである、情報処理方法。
(付記10)
前記オブジェクトペアデコーダの出力ベクトルは、前記オブジェクト部分デコーダの入力照会ベクトルとして使用される、付記9に記載の情報処理方法。
(付記11)
前記オブジェクト部分デコーダの出力ベクトルは、前記オブジェクトペアデコーダの入力照会ベクトルとして使用される、付記9に記載の情報処理方法。
(付記12)
前記訓練画像セットにおける各訓練画像について、該訓練画像における所定の部分が隠されている場合、前記第1の損失関数は、前記オブジェクト部分デコーダにより出力された前記所定の部分の境界枠のサイズに基づくものである、付記9乃至11の何れかに記載の情報処理方法。
(付記13)
前記第2のモデルの訓練プロセスにおいて、前記オブジェクト部分デコーダにより予測された前記所定の部分の位置を考慮して、前記第2のモデルによる前記訓練画像セットにおける各訓練画像の予測結果と該訓練画像についての真理値との対応関係を決定する、付記9乃至11の何れかに記載の情報処理方法。
(付記14)
前記オブジェクトペアデコーダの出力ベクトルと前記オブジェクト部分デコーダの出力ベクトルとの重み付け和は、前記インタラクションデコーダの入力照会ベクトルとして使用される、付記9乃至11の何れかに記載の情報処理方法。
(付記15)
前記第2のモデルは、視覚的特徴抽出器をさらに含み、
前記オブジェクト部分デコーダは、前記視覚的特徴抽出器により抽出された視覚的特徴及び前記入力照会ベクトルに基づいて、前記所定の部分の位置を予測する、付記10に記載の情報処理方法。
(付記16)
前記所定のオブジェクトは人であり、前記所定の部分は手である、付記9乃至11の何れかに記載の情報処理方法。
(付記17)
命令が記憶されているコンピュータ読み取り可能な記憶媒体であって、前記命令がコンピュータにより実行される際に、前記コンピュータに付記9乃至16の何れかに記載の情報処理方法を実行させる、記憶媒体。
図1
図2A
図2B
図3A
図3B
図4
図5
図6