IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 北京沃▲東▼天▲駿▼信息技▲術▼有限公司の特許一覧

特表2024-510985オブジェクトアフォーダンスの検出方法及び装置
<>
  • 特表-オブジェクトアフォーダンスの検出方法及び装置 図1
  • 特表-オブジェクトアフォーダンスの検出方法及び装置 図2
  • 特表-オブジェクトアフォーダンスの検出方法及び装置 図3
  • 特表-オブジェクトアフォーダンスの検出方法及び装置 図4
  • 特表-オブジェクトアフォーダンスの検出方法及び装置 図5
  • 特表-オブジェクトアフォーダンスの検出方法及び装置 図6
  • 特表-オブジェクトアフォーダンスの検出方法及び装置 図7
  • 特表-オブジェクトアフォーダンスの検出方法及び装置 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-03-12
(54)【発明の名称】オブジェクトアフォーダンスの検出方法及び装置
(51)【国際特許分類】
   G06T 7/00 20170101AFI20240305BHJP
【FI】
G06T7/00 350B
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023555623
(86)(22)【出願日】2021-12-14
(85)【翻訳文提出日】2023-11-07
(86)【国際出願番号】 CN2021137832
(87)【国際公開番号】W WO2022188493
(87)【国際公開日】2022-09-15
(31)【優先権主張番号】202110269399.3
(32)【優先日】2021-03-12
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】522380893
【氏名又は名称】北京沃▲東▼天▲駿▼信息技▲術▼有限公司
【氏名又は名称原語表記】Beijing Wodong Tianjun Information Technology Co.,Ltd.
【住所又は居所原語表記】Room A402,4/f,No.2 Building,No.18 Kechuang 11th Street,Economic and Technological Development Zone,Beijing 100176,China
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】陶 大程
(72)【発明者】
【氏名】▲ザイ▼ ▲偉▼
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096CA04
5L096EA11
5L096EA39
5L096FA16
5L096FA34
5L096FA69
5L096HA11
5L096JA11
5L096KA04
(57)【要約】
本開示は、コンピュータの分野に関するものであり、オブジェクトアフォーダンスの検出方法及び装置を提供する。その方法は、参照画像及び検出されるべき画像を取得するステップであって、参照画像が、人物と、人物が動作を行う第1オブジェクトと、を備えるステップと、参照画像の特徴量及び検出されるべき画像の特徴量を抽出するステップと、参照画像の特徴量に従って、参照画像中の第1オブジェクトに対する人物の動作意図情報を抽出するステップと、参照画像中の第1オブジェクトに対する人物の動作意図情報及び検出されるべき画像の特徴量に従って、検出されるべき画像へ動作意図情報を移行し、検出されるべき画像から動作意図情報を補完することが可能な第2オブジェクトをセグメント化するステップと、を備える。初見のオブジェクトのアフォーダンスを検出することの能力が向上されている。
【特許請求の範囲】
【請求項1】
オブジェクトアフォーダンスの検出方法であって、
参照画像及び検出されるべき画像を取得するステップであって、前記参照画像が、人物と、前記人物が動作を行う第1オブジェクトと、を備えるステップと、
前記参照画像の特徴量及び前記検出されるべき画像の特徴量を抽出するステップと、
前記参照画像の前記特徴量に従って、前記参照画像中の前記第1オブジェクトに対する前記人物の動作意図情報を抽出するステップと、
前記参照画像中の前記第1オブジェクトに対する前記人物の前記動作意図情報及び前記検出されるべき画像の前記特徴量に従って、前記検出されるべき画像へ前記動作意図情報を移行し、前記検出されるべき画像から前記動作意図情報を補完することが可能な第2オブジェクトをセグメント化するステップと、を備える方法。
【請求項2】
前記参照画像中の前記第1オブジェクトに対する前記人物の動作意図情報を抽出する前記ステップが、
第1出力を得るために、前記参照画像中の前記人物の特徴表現に従って、前記参照画像の前記特徴量に対して重み付け演算を行うステップと、
第2出力を得るために、前記参照画像中の前記第1オブジェクトの特徴表現に従って、前記参照画像の前記特徴量に対して重み付け演算を行うステップと、
前記人物の前記特徴表現及び前記参照画像中の前記第1オブジェクトの前記特徴表現に従って、前記第1オブジェクトに対する前記人物の前記動作の関連している位置を記述する第3出力を得るステップと、
前記第1出力、前記第2出力、及び前記第3出力に従って、前記参照画像中の前記第1オブジェクトに対する前記人物の動作意図コードを決定するステップと、を備える、請求項1に記載の方法。
【請求項3】
第1出力を得るために、前記参照画像中の前記人物の特徴表現に従って、前記参照画像の前記特徴量に対して重み付け演算を行う前記ステップが、
前記参照画像中の前記人物のプールされた特徴表現及び前記参照画像の前記特徴量の各位置に対して相関演算を行うステップと、各位置の重みを得るために、前記相関演算の結果を正規化するステップと、前記第1出力を得るために、前記各位置の重み及び前記参照画像の前記特徴量に対して乗算を行うステップと、を備える、請求項2に記載の方法。
【請求項4】
第2出力を得るために、前記参照画像中の前記第1オブジェクトの特徴表現に従って、前記参照画像の前記特徴量に対して重み付け演算を行う前記ステップが、
前記参照画像中の前記第1オブジェクトのプールされた特徴表現及び前記参照画像の前記特徴量の各位置に対して相関演算を行うステップと、各位置の重みを得るために、前記相関演算の結果を正規化するステップと、前記第2出力を得るために、前記各位置の重み及び前記参照画像の前記特徴量に対して乗算を行うステップと、を備える、請求項2に記載の方法。
【請求項5】
前記人物の前記特徴表現及び前記参照画像中の前記第1オブジェクトの前記特徴表現に従って、前記第1オブジェクトに対する前記人物の前記動作の関連している位置を記述する第3出力を得る前記ステップが、
前記第1オブジェクトの前記プールされた特徴表現及び前記人物の前記特徴表現に対して相関演算を行うステップと、前記第1オブジェクトに対する前記人物の前記動作の前記関連している位置を記述する前記第3出力を得るために、前記相関演算の結果の畳み込み処理を行うステップと、を備える、請求項2に記載の方法。
【請求項6】
前記第1出力、前記第2出力、及び前記第3出力に従って、前記参照画像中の前記第1オブジェクトに対する前記人物の動作意図コードを決定する前記ステップが、
第1動作意図サブ情報を得るために、前記第3出力及び前記第1出力に対して乗算及びプーリングを行うステップと、
第2動作意図サブ情報を得るために、前記第3出力及び前記第2出力に対して乗算及びプーリングを行うステップと、
前記参照画像中の前記第1オブジェクトに対する前記人物の前記動作意図コードを得るために、前記第1動作意図サブ情報及び前記第2動作意図サブ情報を加算するステップと、を備える、請求項2に記載の方法。
【請求項7】
前記参照画像中の前記人物の前記特徴表現が、前記参照画像中の前記人物のバウンディングボックス及び前記参照画像の前記特徴量に対して乗算を行うことによって得られ、
前記参照画像中の前記第1オブジェクトの前記特徴表現が、前記参照画像中の前記第1オブジェクトのバウンディングボックス及び前記参照画像の前記特徴量に対して乗算を行うことによって得られる、請求項2に記載の方法。
【請求項8】
前記参照画像中の前記第1オブジェクトに対する前記人物の前記動作意図情報及び前記検出されるべき画像の前記特徴量に従って、前記検出されるべき画像へ前記動作意図情報を移行し、前記検出されるべき画像から前記動作意図情報を補完することが可能な第2オブジェクトをセグメント化する前記ステップが、
前記参照画像中の前記第1オブジェクト及び前記検出されるべき画像の前記特徴量の各位置に対する前記人物の前記動作意図情報に対して相関演算を行い、各位置の重みを得るために、正規化を行うステップと、
前記検出されるべき画像からセグメント化され、前記動作意図情報を補完することが可能な前記第2オブジェクトを得るために、前記各位置の重み及び前記検出されるべき画像の前記特徴量に対して乗算を行い、前記乗算の結果及び前記検出されるべき画像の前記特徴量を加算するステップと、を備える、請求項1に記載の方法。
【請求項9】
1組の基底を用いることによって前記第2オブジェクトの第1特徴量に対して再構成を行うステップであって、前記基底の組が1つの同じアフォーダンスを有する異なるオブジェクト間の共通の特徴量を取り込むことが可能であるステップと、
前記第2オブジェクトの前記第1特徴量及び前記第2オブジェクトの前記再構成された第1特徴量に従って、前記第2オブジェクトの第2特徴量を決定するステップと、
前記第2オブジェクトの前記第2特徴量に従って、前記第2オブジェクトの画像を出力するステップと、をさらに備える、請求項1に記載の方法。
【請求項10】
前記基底の組の取得方法が、
予め設定された最適化アルゴリズムを用いることによって、1組の基底をランダムに初期化するステップと、訓練画像及び前記基底の組を用いた相関演算後の訓練画像の間の異なる情報を減らすことによって、前記基底の組を繰り返し更新するステップと、前記更新された基底の組を、学習され、1つの同じアフォーダンスを有する異なるオブジェクト間の前記共通の特徴量を取り込むことが可能な1組の基底とみなすステップと、を備え、
前記最適化アルゴリズムが、期待値最大アルゴリズム又は勾配降下アルゴリズムを備える、請求項9に記載の方法。
【請求項11】
オブジェクトアフォーダンスの検出装置であって、
メモリと、
前記メモリに結合されたプロセッサと、を備え、
前記プロセッサが、前記メモリに格納された命令に基づいて、請求項1から10のいずれか一項に記載の前記オブジェクトアフォーダンスの検出方法を行うように構成されている装置。
【請求項12】
オブジェクトアフォーダンスの検出装置であって、
特徴量抽出モジュールであって、
参照画像及び検出されるべき画像を取得することであって、前記参照画像が、人物と、前記人物が動作を行う第1オブジェクトと、を備える、ことと、
前記参照画像の特徴量及び前記検出されるべき画像の特徴量を抽出することと、
を行うように構成された、特徴量抽出モジュールと、
前記参照画像の前記特徴量に従って、前記参照画像中の前記第1オブジェクトに対する前記人物の動作意図情報を抽出するように構成された意図学習モジュールと、
前記参照画像中の前記第1オブジェクトに対する前記人物の前記動作意図情報及び前記検出されるべき画像の前記特徴量に従って、前記検出されるべき画像へ前記動作意図情報を移行し、前記検出されるべき画像から前記動作意図情報を補完することが可能な第2オブジェクトをセグメント化するように構成された意図移行モジュールと、を備える装置。
【請求項13】
相乗的強化モジュールであって、
1組の基底を用いることによって前記第2オブジェクトの第1特徴量に対して再構成することと、
前記基底の組が、1つの同じアフォーダンスを有する異なるオブジェクト間の共通の特徴量を取り込むことが可能であり、前記第2オブジェクトの前記第1特徴量及び前記第2オブジェクトの前記再構成された第1特徴量に従って、前記第2オブジェクトの第2特徴量を決定することと、
を行うように構成された、相乗的強化モジュールと、
前記第2オブジェクトの前記第2特徴量に従って、前記第2オブジェクトの画像を出力するように構成された復号モジュールと、をさらに備える、請求項12に記載の装置。
【請求項14】
プロセッサによって実行されるときに、請求項1から10のいずれか一項に記載の前記オブジェクトアフォーダンスの検出方法の前記ステップを実装するコンピュータプログラムを格納した、非一時的なコンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本出願は、2021年3月12日に出願された中国特許出願第202110269399.3号に基づき、かつその優先権を主張するものであり、これによって、その開示は本出願にその全体が組み込まれている。
【0002】
本開示は、コンピュータの分野に関連するものであり、特に、オブジェクトアフォーダンス(affordance)の検出方法及び装置に関連している。
【背景技術】
【0003】
アフォーダンスは1966年に、心理学者のギブソンによって提唱された。それは環境中の物体の本質的な価値や意味を直接知覚する方法を説明し、この情報が環境によって提供される生物の行動可能性とどのように相関するかを説明する。
【0004】
実用的には、未知の環境中の各オブジェクトのアフォーダンスを知覚することはとても重要であり、シーン理解、動作認識、及びヒューマンコンピュータインタラクションなどの面で重要な応用価値がある。
【発明の概要】
【課題を解決するための手段】
【0005】
本開示のいくつかの実施形態は、オブジェクトアフォーダンスの検出方法であって、参照画像及び検出されるべき画像を取得するステップであって、前記参照画像が、人物と、前記人物が動作を行う第1オブジェクトと、を備えるステップと、前記参照画像の特徴量及び前記検出されるべき画像の特徴量を抽出するステップと、前記参照画像の前記特徴量に従って、前記参照画像中の前記第1オブジェクトに対する前記人物の動作意図情報を抽出するステップと、前記参照画像中の前記第1オブジェクトに対する前記人物の前記動作意図情報及び前記検出されるべき画像の前記特徴量に従って、前記検出されるべき画像へ前記動作意図情報を移行し、前記検出されるべき画像から前記動作意図情報を補完することが可能な第2オブジェクトをセグメント化するステップと、を備える方法を提供する。
【0006】
いくつかの実施形態では、前記参照画像中の前記第1オブジェクトに対する前記人物の動作意図情報を抽出する前記ステップが、第1出力を得るために、前記参照画像中の前記人物の特徴表現に従って、前記参照画像の前記特徴量に対して重み付け演算を行うステップと、第2出力を得るために、前記参照画像中の前記第1オブジェクトの特徴表現に従って、前記参照画像の前記特徴量に対して重み付け演算を行うステップと、前記人物の前記特徴表現及び前記参照画像中の前記第1オブジェクトの前記特徴表現に従って、前記第1オブジェクトに対する前記人物の前記動作の関連している位置を記述する第3出力を得るステップと、前記第1出力、前記第2出力、及び前記第3出力に従って、前記参照画像中の前記第1オブジェクトに対する前記人物の動作意図コードを決定するステップと、を備える。
【0007】
いくつかの実施形態では、第1出力を得るために、前記参照画像中の前記人物の特徴表現に従って、前記参照画像の前記特徴量に対して重み付け演算を行う前記ステップが、前記参照画像中の前記人物のプールされた特徴表現及び前記参照画像の前記特徴量の各位置に対して相関演算を行うステップと、各位置の重みを得るために、前記相関演算の結果を正規化するステップと、前記第1出力を得るために、前記各位置の重み及び前記参照画像の前記特徴量に対して乗算を行うステップと、を備える。
【0008】
いくつかの実施形態では、第2出力を得るために、前記参照画像中の前記第1オブジェクトの特徴表現に従って、前記参照画像の前記特徴量に対して重み付け演算を行う前記ステップが、前記参照画像中の前記第1オブジェクトのプールされた特徴表現及び前記参照画像の前記特徴量の各位置に対して相関演算を行うステップと、各位置の重みを得るために、前記相関演算の結果を正規化するステップと、前記第2出力を得るために、前記各位置の重み及び前記参照画像の前記特徴量に対して乗算を行うステップと、を備える。
【0009】
いくつかの実施形態では、前記人物の前記特徴表現及び前記参照画像中の前記第1オブジェクトの前記特徴表現に従って、前記第1オブジェクトに対する前記人物の前記動作の関連している位置を記述する第3出力を得る前記ステップが、前記第1オブジェクトの前記プールされた特徴表現及び前記人物の前記特徴表現に対して相関演算を行うステップと、前記第1オブジェクトに対する前記人物の前記動作の前記関連している位置を記述する前記第3出力を得るために、前記相関演算の結果の畳み込み処理を行うステップと、を備える。
【0010】
いくつかの実施形態では、前記第1出力、前記第2出力、及び前記第3出力に従って、前記参照画像中の前記第1オブジェクトに対する前記人物の動作意図コードを決定する前記ステップが、第1動作意図サブ情報を得るために、前記第3出力及び前記第1出力に対して乗算及びプーリングを行うステップと、第2動作意図サブ情報を得るために、前記第3出力及び前記第2出力に対して乗算及びプーリングを行うステップと、前記参照画像中の前記第1オブジェクトに対する前記人物の前記動作意図コードを得るために、前記第1動作意図サブ情報及び前記第2動作意図サブ情報を加算するステップと、を備える。
【0011】
いくつかの実施形態では、前記参照画像中の前記人物の前記特徴表現が、前記参照画像中の前記人物のバウンディングボックス及び前記参照画像の前記特徴量に対して乗算を行うことによって得られ、前記参照画像中の前記第1オブジェクトの前記特徴表現が、前記参照画像中の前記第1オブジェクトのバウンディングボックス及び前記参照画像の前記特徴量に対して乗算を行うことによって得られる。
【0012】
いくつかの実施形態では、前記参照画像中の前記第1オブジェクトに対する前記人物の前記動作意図情報及び前記検出されるべき画像の前記特徴量に従って、前記検出されるべき画像へ前記動作意図情報を移行し、前記検出されるべき画像から前記動作意図情報を補完することが可能な第2オブジェクトをセグメント化する前記ステップが、前記参照画像中の前記第1オブジェクト及び前記検出されるべき画像の前記特徴量の各位置に対する前記人物の前記動作意図情報に対して相関演算を行い、各位置の重みを得るために、正規化を行うステップと、前記検出されるべき画像からセグメント化され、前記動作意図情報を補完することが可能な前記第2オブジェクトを得るために、前記各位置の重み及び前記検出されるべき画像の前記特徴量に対して乗算を行い、前記乗算の結果及び前記検出されるべき画像の前記特徴量を加算するステップと、を備える。
【0013】
いくつかの実施形態では、前記方法が、1組の基底を用いることによって前記第2オブジェクトの第1特徴量に対して再構成を行うステップであって、前記基底の組が1つの同じアフォーダンスを有する異なるオブジェクト間の共通の特徴量を取り込むことが可能であるステップと、前記第2オブジェクトの前記第1特徴量及び前記第2オブジェクトの前記再構成された第1特徴量に従って、前記第2オブジェクトの第2特徴量を決定するステップと、前記第2オブジェクトの前記第2特徴量に従って、前記第2オブジェクトの画像を出力するステップと、をさらに備える。
【0014】
いくつかの実施形態では、前記基底の組の取得方法が、予め設定された最適化アルゴリズムを用いることによって、1組の基底をランダムに初期化するステップと、訓練画像及び前記基底の組を用いた相関演算後の訓練画像の間の異なる情報を減らすことによって、前記基底の組を繰り返し更新するステップと、前記更新された基底の組を、学習され、1つの同じアフォーダンスを有する異なるオブジェクト間の前記共通の特徴量を取り込むことが可能な1組の基底とみなすステップと、を備え、前記最適化アルゴリズムが、期待値最大アルゴリズム又は勾配降下アルゴリズムを備える。
【0015】
本開示のいくつかの実施形態は、オブジェクトアフォーダンスの検出装置であって、メモリと、前記メモリに結合されたプロセッサと、を備え、前記プロセッサが、前記メモリに格納された命令に基づいて、前記オブジェクトアフォーダンスの検出方法を行うように構成されていることを特徴とする、装置を提供する。
【0016】
本開示のいくつかの実施形態は、オブジェクトアフォーダンスの検出装置であって、特徴量抽出モジュールであって、参照画像及び検出されるべき画像を取得することであって、前記参照画像が、人物と、前記人物が動作を行う第1オブジェクトと、を備える、ことと、前記参照画像の特徴量及び前記検出されるべき画像の特徴量を抽出することと、を行うように構成された、特徴量抽出モジュールと、前記参照画像の前記特徴量に従って、前記参照画像中の前記第1オブジェクトに対する前記人物の動作意図情報を抽出するように構成された意図学習モジュールと、前記参照画像中の前記第1オブジェクトに対する前記人物の前記動作意図情報及び前記検出されるべき画像の前記特徴量に従って、前記検出されるべき画像へ前記動作意図情報を移行し、前記検出されるべき画像から前記動作意図情報を補完することが可能な第2オブジェクトをセグメント化するように構成された意図移行モジュールと、を備えることを特徴とする、装置を提供する。
【0017】
いくつかの実施形態では、前記装置が、相乗的強化モジュールであって、1組の基底を用いることによって前記第2オブジェクトの第1特徴量に対して再構成することと、前記基底の組が、1つの同じアフォーダンスを有する異なるオブジェクト間の共通の特徴量を取り込むことが可能であり、前記第2オブジェクトの前記第1特徴量及び前記第2オブジェクトの前記再構成された第1特徴量に従って、前記第2オブジェクトの第2特徴量を決定することと、を行うように構成された、相乗的強化モジュールと、前記第2オブジェクトの前記第2特徴量に従って、前記第2オブジェクトの画像を出力するように構成された復号モジュールと、をさらに備える。
【0018】
本開示のいくつかの実施形態は、プロセッサによって実行されるときに、前記オブジェクトアフォーダンスの検出方法の前記ステップを実装するコンピュータプログラムを格納した、非一時的なコンピュータ可読記憶媒体を提供する。
【0019】
以下、実施形態又は関連技術の説明において使用されることが必要な図面が簡単に説明される。本開示は、添付の図面を参照して進める下記の詳細な説明に従ってより明確に理解されることができる。
【0020】
下記の説明において、図面は本開示のいくつかの実施形態にすぎず、当業者にとって、その他の図面が創造的な努力を払うことなく得られることができることは明らかである。
【図面の簡単な説明】
【0021】
図1】本開示のいくつかの実施形態に記載のオブジェクトアフォーダンスの検出方法の概略フロー図を示す。
図2】本開示のいくつかの実施形態に記載の参照画像中の第1オブジェクトに対する人物の動作意図情報を抽出するステップの概略図を示す。
図3】本開示のいくつかの実施形態に記載の要素ごとの乗算処理の概略図を示す。
図4】本開示のいくつかの実施形態に記載の位置ごとのドット積処理の概略図を示す。
図5】本開示のいくつかの実施形態に記載の検出されるべき画像へ動作意図情報を移行し、検出されるべき画像から動作意図情報を補完することが可能な第2オブジェクトをセグメント化するステップの概略図を示す。
図6】本開示のいくつかの実施形態に記載の相乗的強化ステップの概略図を示す。
図7】本開示のいくつかの実施形態に記載のオブジェクトアフォーダンスの検出装置の概略図を示す。
図8】本開示のその他の実施形態に記載のオブジェクトアフォーダンスの検出装置の概略図を示す。
【0022】
(詳細な説明)
以下、本開示の実施形態における技術的解決策は、本開示の実施形態における図面を参照して明確かつ完全に説明される。
【0023】
特に明記しない限り、本開示における「第1」、「第2」などの表現は、大きさ又は時間順序などの意味を示しているのではなく、異なるオブジェクトを区別することのために用いられている。
【0024】
本開示の実施形態によれば、オブジェクトに対する人物の動作意図は、人物とオブジェクトとを備えている参照画像に基づいて取り込まれ、動作意図は全ての検出されるべき画像へ移行され、その中から動作意図を補完することが可能な全てのオブジェクトがセグメント化されるので、「未見(unseen)」のオブジェクトのアフォーダンスを検出することの能力が向上される。さらに、同じアフォーダンスを有する異なるオブジェクト間の共通の特徴量(すなわち、本質的な関係)は、相乗的方法によって取り込まれ、このアフォーダンスを有する様々なオブジェクトは、共通の特徴量に基づいて検出されるので、オブジェクトアフォーダンスの検出のロバスト性が向上される。
【0025】
「未見(unseen)」のオブジェクトは、オブジェクトアフォーダンスの検出モデルによって「初見」のオブジェクト(objects that have not been “seen”)、すなわちオブジェクトアフォーダンスの検出モデルによって学習されていないオブジェクトのことである。
【0026】
図1は本開示のいくつかの実施形態に記載のオブジェクトアフォーダンスの検出方法の概略フロー図を示す。
【0027】
図1に示されているように、本実施形態のオブジェクトアフォーダンスの検出方法は、ステップ110から160を備えており、その中のステップ150は、必要に応じて選択的に実行されることができる。
【0028】
画像取得ステップである、ステップ110では、参照画像(すなわちサポート画像)及び検出されるべき画像(すなわちクエリ画像)を取得する。
【0029】
参照画像は、人物と、人物が動作を行う第1オブジェクトとを備えており、人物のバウンディングボックス及び第1オブジェクトのバウンディングボックスでマークされることができる。例えば、「人物がボールを蹴る」参照画像は、ボールを蹴っている「人物」と、人物によって蹴られている「ボール」とを備えており、「人物」の長方形のボックス及び「ボール」の長方形のボックスでマークされている。
【0030】
検出されるべき画像は、1つ又は複数であることができ、複数の検出されるべき画像あるのであれば、1つの検出されるべき画像に対して行われるものと同じアフォーダンス検出演算が各検出されるべき画像に対して行われる。
【0031】
特徴量抽出ステップである、ステップ120では、参照画像の特徴量及び検出されるべき画像の特徴量を抽出する。
【0032】
Resnet(Residual Network)及びVGGnetなどの画像特徴量抽出ネットワークを用いることによって、参照画像/検出されるべき画像の特徴量が抽出される。
【0033】
意図学習ステップである、ステップ130では、参照画像の特徴量に従って、参照画像中の第1オブジェクトに対する人物の動作意図情報を抽出する。
【0034】
いくつかの実施形態では、参照画像中の第1オブジェクトに対する人物の動作意図情報を抽出するステップは、図2に示されているように、ステップ130.1から130.4を備える。
【0035】
ステップ130.1では、第1出力を得るために、参照画像中の人物の特徴表現に従って、参照画像の特徴量に対して重み付け演算が行われる。
【0036】
参照画像中の人物の特徴表現を得るために、参照画像中の人物のバウンディングボックス及び参照画像の特徴量に対して乗算が行われる。
【0037】
いくつかの実施形態では、第1出力を得るために、参照画像中の人物の特徴表現に従って、参照画像の特徴量に対して重み付け演算を行うステップが、参照画像中の人物の(Global Average Poolingなどの)プールされた特徴表現及び参照画像の特徴量の各位置に対して、(要素ごとの乗算などの)相関演算が行われるステップと、各位置の重みを得るために、相関演算の結果を(Softmax法などの)正規化するステップと、第1出力を得るために、各位置の重み及び参照画像の特徴量に対して(要素ごとの乗算などの)乗算を行うステップと、を備える。
【0038】
画像の特徴量の各位置は、例えば、画像の各ピクセル位置とされることができ、これに対応して、参照画像の特徴量の各位置は、参照画像の各ピクセル位置とされることができ、検出されるべき画像の特徴量の各位置は検出されるべき画像の各ピクセル位置とされることができる。
【0039】
ステップ130.2では、参照画像の特徴量に対する重み付け演算は、第2出力を得るために、参照画像中の第1オブジェクトの特徴表現に従って行われる。
【0040】
参照画像中の第1オブジェクトの特徴表現を得るために、参照画像中の第1オブジェクトのバウンディングボックス及び参照画像の特徴量に対する乗算が行われる。
【0041】
いくつかの実施形態では、第2出力を得るために、参照画像中の第1オブジェクトの特徴表現に従って、参照画像の特徴量に対して重み付け演算を行うステップが、参照画像中の第1オブジェクトの(Global Average Poolingなどの)プールされた特徴表現及び参照画像の特徴量の各位置に対する(要素ごとの乗算などの)相関演算を行うステップと、各位置の重みを得るために、相関演算の結果を(Softmax法などの)正規化するステップと、第2出力を得るために、各位置の重み及び参照画像の特徴量に対して(要素ごとの乗算などの)乗算を行うステップと、を備える。
【0042】
ステップ130.3では、人物の特徴表現及び参照画像中の第1オブジェクトの特徴表現に従って、第1オブジェクトに対する人物の動作の関連位置を記述する第3出力が得られる。
【0043】
いくつかの実施形態では、人物の特徴表現及び参照画像中の第1オブジェクトの特徴表現に従って、第1オブジェクトに対する人物の動作の関連位置を記述する第3出力を得るステップが、参照画像中の第1オブジェクトに対する人物の動作の関連位置が関心を持って追跡されるように、第1オブジェクトの(Global Average Poolingなどの)プールされた特徴表現及び人物の特徴表現に対する(要素ごとの乗算などの)相関演算を行うステップと、第1オブジェクトに対する人物の動作の関連位置を記述する第3出力を得るために、相関演算の結果の(1×1又は3×3畳み込みなどの)畳み込み(conv)処理を行うステップと、を備える。第3出力は1×H×Wの1つの特徴量マップであり、ここでHは参照画像の特徴量マップの高さであり、Wは参照画像の特徴量マップの幅である。
【0044】
ステップ130.4では、第1出力、第2出力、及び第3出力に従って、参照画像中の第1オブジェクトに対する人物の動作意図コードが決定される。
【0045】
いくつかの実施形態では、第1出力、第2出力、及び第3出力に従って、参照画像中の第1オブジェクトに対する人物の動作意図コードを決定するステップが、第1動作意図サブ情報を得るために、第3出力及び第1出力に対して(位置ごとのドット積などの)乗算及びプーリングを行うステップと、第2動作意図サブ情報を得るために、第3出力及び第2出力に対して(位置ごとのドット積などの)乗算及びプーリングを行うステップと、参照画像中の第1オブジェクトに対する人物の動作意図コードを得るために、第1動作意図サブ情報及び第2動作意図サブ情報に対する加算を行うステップとを備える。
【0046】
図3に示されているように、要素ごとの乗算処理は下記の通りである。2つの行列A([1,1,C])及びB([W,H,C])を入力し、A及びBの第3次元(つまり、チャンネル、C)に対して乗算、つまりA及びBの対応するチャンネルに対して乗算を行うもので、「チャンネル相関演算(channel correlation operation)」とも呼ばれる。
【0047】
図4に示されているように、位置ごとのドット積処理は下記の通りである。2つの行列A([W,H,1])及びB([W,H,C])を入力し、A及びBの最初の2つの次元であって、特徴量マップ行列の高さ(H)及び幅(W)をそれぞれ表している最初の2つの次元に対して乗算、つまりA及びBの対応している位置に対して乗算を行うもので、「位置相関演算(position correlation operation)」とも呼ばれる。
【0048】
意図移行ステップである、ステップ140では、参照画像中の第1オブジェクトに対する人物の動作意図情報及び検出されるべき画像の特徴量に従って、検出されるべき画像へ動作意図情報を移行し、検出されるべき画像から動作意図情報を補完することが可能な第2オブジェクト(第2オブジェクトの第1特徴量)をセグメント化する。
【0049】
いくつかの実施形態では、図5に示されているように、検出されるべき画像へ動作意図情報を移行し、検出されるべき画像から動作意図情報を補完することが可能な第2オブジェクトをセグメント化するステップが、検出されるべき画像からセグメント化されており、動作意図情報を補完することが可能な第2オブジェクト(第2オブジェクトの第1特徴量)を得るために、すなわち、動作意図情報によって活性化されている関連領域の特徴量を得るために、参照画像中の第1オブジェクトに対する人物の動作意図情報(すなわち、動作意図コード)を用いることによって、検出されるべき画像の特徴量の各位置で(要素ごとの乗算などの)相関演算を行うステップ(ステップ140.1)と、各位置の重みを得るために、(Softmax法などの)正規化を行うステップ(ステップ140.2)と、各位置の重み及び検出されるべき画像の特徴量に対して(要素ごとの乗算などの)乗算を行うステップ(ステップ140.3)と、乗算結果及び検出されるべき画像の特徴量に対して加算を行うステップ(ステップ140.4)とを備える。
【0050】
異なるオブジェクトが同じ動作意図を補完できるということは、これらの異なるオブジェクトが、この動作意図に対応する1つの同じアフォーダンスを有するということを意味する。
【0051】
相乗的強化ステップであるステップ150は、1組の基底を用いることによって、第2オブジェクトの第1特徴量に対して再構成を行うことであって、基底の組が1つの同じアフォーダンスを有する異なるオブジェクト間の共通の特徴量を取り込むことが可能なことを行い、第2オブジェクトの第1特徴量及び第2オブジェクトの再構成された第1特徴量に従って、第2オブジェクトの第2特徴量を決定する。
【0052】
いくつかの実施形態では、図6に示されているように、相乗的強化ステップが特に、再構成を行うために、第2オブジェクトの第1特徴量及び基底の組に対して(位置ごとのドット積などの)相関演算を行うステップ(ステップ150.1)と、第2オブジェクトの再構成された第1特徴量が畳み込み(conv)を受けた(ステップ150.2)後、第2オブジェクトの第2特徴量を得るために、第2オブジェクトの第1特徴量との加算を行うステップとを備える。
【0053】
基底の組が1つの同じアフォーダンスを有する異なるオブジェクト間の(共通の特徴量によって具体化される)本質的な関係を取り込むことが可能であり、基底の組に基づいて検出処理における無関係な背景エリアを抑制することが可能であるので、より良い検出効果が得られる。
【0054】
基底の組の取得方法が、予め設定された最適化アルゴリズムを用いることによって、1組の基底をランダムに初期化するステップと、訓練画像及び基底の組を用いる(位置ごとのドット積などの)相関演算後の訓練画像間の異なる情報を連続的に減らすことによって基底の組を繰り返し更新するステップと、更新された基底の組を、学習され、1つの同じアフォーダンスを有する異なるオブジェクト間の共通の特徴量を取り込むことが可能な1組の基底とみなすステップとを備える。最適化アルゴリズムは、期待値最大(EM)アルゴリズム又は勾配降下アルゴリズムを備える。組中のいくつかの基底は、通常、画像の高さ(H)及び幅(W)の積よりはるかに小さい。組中の基底の数は、例えば、数個または十数個である。
【0055】
例えば、1組の基底がランダムに初期化され、各基底が[1,1,C]の形式であり、ここでCはチャンネルを表しており、各基底及び[W,H,C]の次元を有する訓練画像の特徴量に対する(位置ごとのドット積などの)相関演算が行われ、ここでW及びHはそれぞれ訓練画像の特徴量マップの幅及び高さを表しており、基底の組を用いる相関演算後の訓練画像の特徴量を得るために、基底の多数に対応している相関演算結果が結合される。[W,H,C]の次元を有する特徴量に変換するために、相関演算後の訓練画像の特徴量が畳み込みを受け、基底の組が期待値最大最適化法を用いることによって繰り返し更新されるので、訓練画像の特徴量並びに相関演算及び畳み込み後の訓練画像の特徴量間の違いが、予め設定された繰り返しの数が達成される又は違いが予め設定された値より小さくなるまで、連続的に減らされ、繰り返しが停止される。更新された基底の組は、学習され、1つの同じアフォーダンスを有する異なるオブジェクト間の共通の特徴量を取り込むことが可能な1組の基底である。
【0056】
復号出力ステップであるステップ160では、復号することによって、第2オブジェクトの画像を出力する。
【0057】
ステップ140の後であれば、第2オブジェクトの第1特徴量に従って復号されることによって、第2オブジェクトの画像が出力される。ステップ150の後であれば、第2オブジェクトの第2特徴量に従って復号されることによって、第2オブジェクトの画像が出力される。
【0058】
いわゆる復号とは、画像の特徴量が対応する画像に復元されるということである。復号は、例えば、デコンボリューションによって、又は最初にアップサンプリングし、その後の畳み込みによって実装されることができる。
【0059】
上記の実施形態では、オブジェクトに対する人物の動作意図は、人物とオブジェクトを備える参照画像に基づいて取り込まれ、動作意図が全ての検出されるべき画像へ移行され、それから動作意図を補完することが可能な全てのオブジェクトがセグメント化されるので、未見(unseen)のオブジェクトのアフォーダンスを検出することの能力が向上される。さらに、上記の実施形態では、1つの同じアフォーダンスを有する異なるオブジェクト間の共通の特徴量(すなわち、本質的な関係)が、相乗的方法によって取り込まれ、このアフォーダンスを有する様々なオブジェクトが、共通の特徴量に基づいて検出されるので、オブジェクトアフォーダンスの検出のロバスト性が向上される。
【0060】
いくつかの実施例では、例えば、「人物がボールを蹴る」参照画像が与えられ、「人物がボールを蹴る」動作意図が参照画像から取り込まれ、参照画像から取り込まれた「人物がボールを蹴る」動作意図に基づいて、動作意図が全ての検出されるべき画像へ移行され、それから動作意図に合っている全ての球状のオブジェクトがセグメント化されるので、未見(unseen)のオブジェクトのアフォーダンスを検出することの能力が向上される。また、円弧の外観などの、動作意図に合っている異なるオブジェクト間の共通の特徴量が、相乗的方法によって取り込まれることができ、動作意図に合っている様々なオブジェクトが共通の特徴量に基づいて検出されるので、オブジェクトアフォーダンスの検出のロバスト性も向上される。
【0061】
図7は本開示のいくつかの実施形態に記載のオブジェクトアフォーダンスの検出装置の概略図を示している。オブジェクトアフォーダンスの検出装置は、オブジェクトアフォーダンスの検出ネットワークとも呼ばれる。
【0062】
図7に示されているように、本実施形態のオブジェクトアフォーダンスの検出装置700は、モジュール710から750を備えており、モジュール740は選択的に構成又は実行される。
【0063】
特徴量抽出モジュール710は、参照画像及び検出されるべき画像を取得することであって、参照画像が人物と、人物が動作を行う第1オブジェクトとを備えていることと、参照画像の特徴量及び検出されるべき画像の特徴量を抽出することとを行うように構成されている。
【0064】
意図学習モジュール720は、参照画像の特徴量に従って、参照画像中の第1オブジェクトに対する人物の動作意図情報を抽出するように構成されている。
【0065】
意図移行モジュール730は、参照画像中の第1オブジェクトに対する人物の動作意図情報及び検出されるべき画像の特徴量に従って、検出されるべき画像へ動作意図情報を移行し、検出されるべき画像から動作意図情報を補完することが可能な第2オブジェクト(第2オブジェクトの第1特徴量)をセグメント化するように構成されている。
【0066】
復号モジュール750は第2オブジェクトの第1特徴量に従って、第2オブジェクトの画像を出力するように構成されている。
【0067】
いくつかの実施形態では、オブジェクトアフォーダンスの検出装置700は、1組の基底を用いることによって第2オブジェクトの第1特徴量に対する再構成を行うことであって、基底の組が1つの同じアフォーダンスを有する異なるオブジェクト間の共通の特徴量を取り込むことが可能であることと、第2オブジェクトの第1特徴量及び第2オブジェクトの再構成された第1特徴量に従って、第2オブジェクトの第2特徴量を決定することとを行うように構成された相乗的強化モジュール740をさらに備える。現時点では、第2オブジェクトの第2特徴量に従って、復号モジュール750が第2オブジェクトの画像を出力するように構成されている。
【0068】
上記のモジュールによって実行される演算の具体的な処理については、前述の実施形態を参照されることができるが、ここでは繰り返されない。
【0069】
オブジェクトアフォーダンスの検出装置700は使用される前に訓練される必要があるが、オブジェクトアフォーダンスの検出装置700は、予め訓練されて直接使用されることができる。
【0070】
オブジェクトアフォーダンスの検出装置700の訓練処理は、データセットを取得するステップと、データセットを訓練セット及びテストセットに分けるステップであって、訓練セット及びテストセットの両方が参照画像及び検出されるべき画像を備えており、1つの参照画像が1つ又は複数の検出されるべき画像に対応できるステップと、人物のバウンディングボックス及び第1オブジェクトでマークされている訓練セット中の参照画像及び参照画像中の第1オブジェクトに対する人物の動作意図に合うことが可能な第2オブジェクトで予めマークされている訓練セット中の検出されるべき画像と、参照画像及び訓練セット中の検出されるべき画像を、検出のためにオブジェクトアフォーダンスの検出装置700に入力するステップであって、検出されたオブジェクトが第3オブジェクトとして設定されるステップと、検出された第3オブジェクト及び予めマークされた第2オブジェクト間の異なる情報並びに(交差エントロピーなどの)損失関数に従って損失を決定するステップと、(adam及びsgd(Stochastic Gradient Descent)などの)最適化関数を用いることによって、検出装置700中の(モジュール中の畳み込みにおける様々なパラメータなどの)ネットワークパラメータに対する最適化を行うステップとを備えるので、損失がある程度減らされ、訓練が完了される。その後、テストセットを用いることによって、訓練された検出装置700がテストされる。テストセット中の参照画像は人物のバウンディングボックス及び第1オブジェクトでマークされ、テストセット中の検出されるべき画像は、参照画像中の第1オブジェクトに対する人物の動作意図に合うことが可能な第2オブジェクトで予めマークされており、テストセット中の参照画像及び検出されるべき画像が、検出のためにオブジェクトアフォーダンスの検出装置700に入力され、検出されたオブジェクトが第3オブジェクトとしてセットされ、検出の精度は、検出された第3オブジェクトが予めマークされた第2オブジェクトに属しているかどうかに従って決定され、検出の精度が一定よりも高いのであれば、検出装置700はテストに合格し、適格であるとみなされる。検出装置700がテストに合格していないのであれば、検出装置700の訓練は、訓練サンプルを増やすこと又は訓練の繰り返しの回数を増やすことによって、続けられることができる。訓練のときは、例えば、訓練効果を向上するために、アフォーダンスカテゴリーの1/3を含んでいるデータがテストセットとして選ばれ、残りのアフォーダンスカテゴリーのデータが訓練のための訓練セットとしてみなされる。
【0071】
図8は本開示のその他の実施形態に記載のオブジェクトアフォーダンスの検出装置の概略図を示している。
【0072】
図8に示されているように、本実施形態のオブジェクトアフォーダンスの検出装置800は、メモリ810と、メモリ810に結合されたプロセッサ820とを備えており、プロセッサ820がメモリ810に格納された命令に基づいて、前述のいずれかの実施形態におけるオブジェクトアフォーダンスの検出方法を行うように構成されている。
【0073】
メモリ810は、例えば、システムメモリ、固定不揮発性記憶媒体などを備えることができる。システムメモリは、例えば、オペレーティングシステム、アプリケーションプログラム、ブートローダ、その他のプログラムなどをその上で格納している。
【0074】
検出装置800は、入力/出力インターフェース830と、ネットワークインターフェース840と、記憶インターフェース850などをさらに備えることができる。これらのインターフェース830、840、850、及びメモリ810は、例えば、バス860を介してプロセッサ820に接続されることができる。入力/出力インターフェース830は、ディスプレイ、マウス、キーボード、及びタッチスクリーンなどの入力/出力デバイスのための接続インターフェースを提供する。ネットワークインターフェース840は、様々なネットワーキングデバイスのための接続インターフェースを提供する。記憶インターフェース850は、SDカード及びUSBフラッシュディスクなどの外部記憶デバイスのための接続インターフェースを提供する。
【0075】
本開示のいくつかの実施形態は、プロセッサによって実行されるときに、前述のいずれかの実施形態中のオブジェクトアフォーダンスの検出方法のステップを実装するコンピュータプログラムを格納した、非一時的なコンピュータ可読記憶媒体を提供する。
【0076】
本開示の実施形態が方法、システム、又はコンピュータプログラム製品として提供されることができることは、当業者によって理解されるべきである。したがって、本開示は完全なハードウェア実施形態、完全なソフトウェア実施形態、又はソフトウェア及びハードウェアの態様を組み合わせた実施形態の形態をとることができる。さらに、本開示はその中に具体化されたコンピュータプログラムコードを有する(これらに限られないが、ディスクメモリ、CD-ROM、光メモリなどを含む)1つ又は複数の非一時的なコンピュータ可読記憶媒体上で実装されるコンピュータプログラム製品の形態をとることができる。
【0077】
本開示は本開示の実施形態に記載の方法、装置(システム)、及びコンピュータプログラム製品のフロー図及び/又はブロック図を参照して説明される。フロー図及び/又はブロック図の各フロー及び/又はブロック、並びにフロー図及び/又はブロック図中のフロー及び/又はブロックの組み合わせは、コンピュータプログラム命令によって実装されることができるということが理解されるべきである。これらのコンピュータプログラム命令は、コンピュータ又はその他のプログラマブルデータ処理デバイスのプロセッサを介して実行される命令が、フロー図の1つ又は複数のフロー及び/又はブロック図の1つ又は複数のブロック中の指定された機能を実装するための手段を作るような機械を生産するために、汎用コンピュータ、特殊用途コンピュータ、組み込みプロセッサ、又はその他のプログラマブルデータ処理デバイスのプロセッサへ提供されることができる。
【0078】
これらのコンピュータプログラム命令は、コンピュータ可読メモリに格納されている命令が、フロー図の1つ又は複数のフロー及び/又はブロック図の1つ又は複数のブロック中の指定された機能を実装する命令手段を含む製品を生産するような特定の方法で動作するために、コンピュータ又はその他のプログラマブルデータ処理デバイスを導くことができるコンピュータ可読メモリ中に格納されることもできる。
【0079】
これらのコンピュータプログラム命令は、コンピュータ又はその他のプログラマブルデバイス上で実行される命令が、フロー図の1つ又は複数のフロー及び/又はブロック図の1つ又は複数のブロック中の指定された機能を実装するためのステップを提供するようなコンピュータ実装処理を生産するために、コンピュータ又はその他のプログラマブルデバイス上で一連のオペレーショナルステップを行われさせるために、コンピュータ又はその他のプログラマブルデータ処理デバイス上にロードされることもできる。
【0080】
上記の説明は本開示の好ましい実施形態に過ぎず、本開示を限定するために用いられるものではなく、本開示の趣旨及び原理の範囲内で行われる修正、等価置換、改良などは、本開示の保護範囲に含まれるべきである。
【符号の説明】
【0081】
110 ステップ
120 ステップ
130 ステップ
140 ステップ
150 ステップ
160 ステップ
700 検出装置
710 特徴量抽出モジュール
720 意図学習モジュール
730 意図移行モジュール
740 相乗的強化モジュール
750 復号モジュール
800 検出装置
810 メモリ
820 プロセッサ
830 入力/出力インターフェース
840 ネットワークインターフェース
850 記憶インターフェース
850 インターフェース
860 バス
図1
図2
図3
図4
図5
図6
図7
図8
【国際調査報告】