(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-02-03
(54)【発明の名称】シーン情報の検出方法及びその装置、電子機器、媒体並びにプログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20230127BHJP
G06V 10/82 20220101ALI20230127BHJP
G06N 3/084 20230101ALI20230127BHJP
【FI】
G06T7/00 350C
G06V10/82
G06N3/08 140
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022529946
(86)(22)【出願日】2020-10-13
(85)【翻訳文提出日】2022-05-23
(86)【国際出願番号】 IB2020059587
(87)【国際公開番号】W WO2022023806
(87)【国際公開日】2022-02-03
(31)【優先権主張番号】202010739363.2
(32)【優先日】2020-07-28
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】520176212
【氏名又は名称】センスタイム インターナショナル ピーティーイー.リミテッド
【氏名又は名称原語表記】SenseTime International PTE.LTD.
(74)【代理人】
【識別番号】110001427
【氏名又は名称】弁理士法人前田特許事務所
(72)【発明者】
【氏名】ジャン ミンユエン
(72)【発明者】
【氏名】ウー ジンイー
(72)【発明者】
【氏名】ジン ダイション
(72)【発明者】
【氏名】ジャオ ハイユー
(72)【発明者】
【氏名】イー シューアイ
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096EA13
5L096EA39
5L096FA09
5L096FA33
5L096FA64
5L096FA69
5L096GA51
5L096HA11
5L096JA11
5L096JA22
5L096KA04
5L096MA07
(57)【要約】
本願の一実施例は、シーン情報の検出方法及びその装置、電子機器を提供し、当該方法は、シーン異種グラフの目標ノードに接続された各補助ノードのノード特徴に基づいて、特徴次元がCy*1である、伝播されるべき集約特徴を取得することであって、Cyは集約特徴のチャネル次元であり、Cyは目標ノードのノード特徴のチャネル次元と同じであり、シーン異種グラフは、少なくとも2つのタイプの異種ノードを含み、当該少なくとも2つのタイプの異種ノードは、補助ノードと、シーン画像に基づいて取得された目標ノードと、を含む、ことと、集約特徴に基づいて目標ノードのノード特徴を更新することと、更新後の目標ノードのノード特徴に基づいて、シーン画像のシーン情報を取得することと、を含む。
【特許請求の範囲】
【請求項1】
シーン情報の検出方法であって、
シーン異種グラフの目標ノードに接続された各補助ノードのノード特徴に基づいて、伝播されるべき集約特徴を取得することであって、前記集約特徴の特徴次元はC
y*1であり、前記C
yは前記集約特徴のチャネル次元であり、前記C
yは目標ノードのノード特徴のチャネル次元と同じであり、前記シーン異種グラフは、少なくとも2つのタイプの異種ノードを含み、前記少なくとも2つのタイプの異種ノードは、前記補助ノードと、前記シーン画像に基づいて取得された前記目標ノードと、を含む、ことと、
前記集約特徴に基づいて、前記目標ノードのノード特徴を更新することと、
更新後の前記目標ノードのノード特徴に基づいて、前記シーン画像におけるシーン情報を取得することと、を含む、シーン情報の検出方法。
【請求項2】
前記集約特徴に基づいて、前記目標ノードのノード特徴を更新することは、
前記集約特徴の各チャネルのチャネル特徴に基づいて、前記チャネル特徴を使用して、前記目標ノードのノード特徴において前記各チャネルに対応するすべての特徴位置に対して特徴更新処理を実行することを含む、
請求項1に記載のシーン情報の検出方法。
【請求項3】
前記シーン異種グラフの目標ノードに接続された各補助ノードのノード特徴に基づいて、伝播されるべき集約特徴を取得することは、
前記シーン異種グラフの目標ノードに接続された各補助ノードのノード特徴に基づいて、再重み付けベクトルと残差ベクトルのうちの少なくとも1つを前記集約特徴として取得することを含み、
前記集約特徴に基づいて、前記目標ノードのノード特徴を更新することは、前記再重み付けベクトルに基づいて目標ノードのノード特徴の各チャネルに対して乗算処理を実行すること、及び/又は、前記残差ベクトルによって目標ノードのノード特徴の各チャネルに対して加算処理を実行することを含む、
請求項1に記載のシーン情報の検出方法。
【請求項4】
前記再重み付けベクトルと残差ベクトルのうちの少なくとも1つを前記集約特徴として取得することは、
活性化関数と前記目標ノードのノード特徴の標準偏差を使用して、前記残差ベクトルの値を所定の数値区間にマッピングして、集約特徴として使用することを含む、
請求項3に記載のシーン情報の検出方法。
【請求項5】
前記目標ノードは、オブジェクトグループノードを含み、前記オブジェクトグループは、前記シーン画像内の2つのオブジェクトを含み、
前記更新後の前記目標ノードのノード特徴に基づいて、前記シーン画像におけるシーン情報を取得することは、更新後のオブジェクトグループノードのノード特徴に基づいて、前記オブジェクトグループノード内の2つのオブジェクト間の関係の予測結果を取得することを含み、前記シーン情報は前記予測結果を含む、
請求項1ないし4のいずれか一項に記載のシーン情報の検出方法。
【請求項6】
前記シーン異種グラフは、終点として1つのオブジェクトグループノードを持つ情報伝送チェーンを含み、前記情報伝送チェーンは、少なくとも2つの有向辺グループを含み、各有向辺グループは、複数の始点から同一の終点を指向する複数の有向辺を含み、前記情報伝送チェーンの各始点と終点は、少なくとも2つのタイプの前記異種ノードを含み、
前記目標ノードに接続された各補助ノードのノード特徴に基づいて、伝播されるべき集約特徴を取得し、前記集約特徴に基づいて、前記目標ノードのノード特徴を更新することは、
前記少なくとも2つの有向辺グループのうちの第1有向辺グループについて、前記第1有向辺グループが指向する同一の第1終点を前記目標ノードとして、前記第1終点に接続される各始点のノード特徴に従って集約特徴を取得し、前記集約特徴に基づいて前記第1終点のノード特徴を更新することであって、前記第1終点は、同時に、前記少なくとも2つの有向辺グループのうちの第2有向辺グループ内の1つの始点として使用される、ことと、
前記第2有向辺グループについて、前記第2有向辺グループが指向する同一の第2終点を前記目標ノードとして、前記第2終点に接続される各始点のノード特徴に従って集約特徴を取得し、前記集約特徴に基づいて前記第2終点のノード特徴を更新することと、を含む、
請求項5に記載のシーン情報の検出方法。
【請求項7】
前記少なくとも2つの有向辺グループのうちの1つの前記有向辺グループの始点と終点について、
前記始点は、前記シーン画像から特徴を抽出することによって取得された各画素ノードを含み、前記終点は、前記シーン画像から抽出された物体ノードであり、
又は、前記始点と終点の両方が、前記シーン画像から抽出された物体ノードを含み、
又は、前記始点は、前記シーン画像から抽出された物体ノードを含み、前記終点は、前記オブジェクトグループノードを含み、
又は、前記始点は前記オブジェクトグループノードを含み、前記終点は前記物体ノードを含む、
請求項6に記載のシーン情報の検出方法。
【請求項8】
前記各補助ノードは、複数の画素ノードを含み、前記シーン情報の検出方法は、
前記シーン画像に従って特徴抽出を実行して、複数の特徴マップを取得することであって、前記複数の特徴マップは、それぞれ異なるサイズを有する、ことと、
前記複数の特徴マップを同じサイズにスケーリングしてから融合して、融合特徴マップを取得することと、
前記融合特徴マップに基づいて、複数の前記画素ノードのノード特徴を取得することと、を更に含む、
請求項1に記載のシーン情報の検出方法。
【請求項9】
前記更新後のオブジェクトグループノードのノード特徴に基づいて、前記オブジェクトグループノード内の2つのオブジェクト間の関係の予測結果を取得することは、
前記オブジェクトグループノードのノード特徴に基づいて、予測された初期分類信頼度を取得することであって、前記初期分類信頼度は、前記オブジェクトグループノードがそれぞれの所定関係カテゴリに対応する初期分類信頼度を含む、ことと、
前記オブジェクトグループノードが前記それぞれの所定関係カテゴリうちの1つのターゲットの所定関係カテゴリに対応する初期分類信頼度と、前記オブジェクトグループノード内の2つのオブジェクトにそれぞれ対応するオブジェクト検出信頼度とに基づいて、前記オブジェクトグループノード内の2つのオブジェクトが前記ターゲットの所定関係カテゴリに対応する信頼度を取得する、ことと、
前記信頼度がプリセットされた信頼度閾値より大きいか等しい場合、前記オブジェクトグループノード内の2つのオブジェクト間の関係の予測結果が、前記ターゲットの所定関係カテゴリであると決定することと、を含む、
請求項5に記載のシーン情報の検出方法。
【請求項10】
画像処理機器によって実行されるシーン情報の検出方法であって、
画像収集機器によって収集されたシーン画像を取得することと、
請求項1ないし9のいずれか一項に記載のシーン情報の検出方法により前記シーン画像を処理して、前記シーン画像におけるシーン情報を出力することと、を含む、シーン情報の検出方法。
【請求項11】
シーン情報の検出装置であって、
シーン異種グラフの目標ノードに接続された各補助ノードのノード特徴に基づいて、伝播されるべき集約特徴を取得するように構成される特徴処理モジュールであって、前記集約特徴の特徴次元はC
y*1であり、前記C
yは、前記集約特徴のチャネル次元であり、前記C
yは目標ノードのノード特徴のチャネル次元と同じであり、前記シーン異種グラフは、少なくとも2つのタイプの異種ノードを含み、前記少なくとも2つのタイプの異種ノードは、前記補助ノードと、前記シーン画像に基づいて取得された前記目標ノードと、を含む、特徴処理モジュールと、
前記集約特徴に基づいて、前記目標ノードのノード特徴を更新するように構成される特徴更新モジュールと、
更新後の前記目標ノードのノード特徴に基づいて、前記シーン画像におけるシーン情報を取得するように構成される情報決定モジュールと、を備える、シーン情報の検出装置。
【請求項12】
前記特徴更新モジュールは、前記集約特徴に基づいて前記目標ノードのノード特徴を更新するときに、前記集約特徴の各チャネルのチャネル特徴に基づいて、前記チャネル特徴を使用して、前記目標ノードのノード特徴において各チャネルに対応するすべての特徴位置に対して特徴更新処理を実行するように構成される、
請求項11に記載のシーン情報の検出装置。
【請求項13】
前記特徴処理モジュールは、具体的に、シーン異種グラフの目標ノードに接続された各補助ノードのノード特徴に基づいて、再重み付けベクトルと残差ベクトルのうちの少なくとも1つを前記集約特徴として取得するように構成され、
前記特徴更新モジュールは、具体的に、前記再重み付けベクトルに基づいて目標ノードのノード特徴の各チャネルに対して乗算処理を実行し、及び/又は、前記残差ベクトルによって目標ノードのノード特徴の各チャネルに対して加算処理を実行するように構成される、
請求項11に記載のシーン情報の検出装置。
【請求項14】
前記特徴処理モジュールは、再重み付けベクトルと残差ベクトルのうちの少なくとも1つを前記集約特徴として取得するときに、活性化関数と前記目標ノードのノード特徴の標準偏差を使用して、前記残差ベクトルの値を所定の数値区間にマッピングして、集約特徴として使用するように構成される、
請求項13に記載のシーン情報の検出装置。
【請求項15】
前記目標ノードは、オブジェクトグループノードを含み、前記オブジェクトグループは、前記シーン画像内の2つのオブジェクトを含み、前記情報決定モジュールは、具体的に、更新後のオブジェクトグループノードのノード特徴に基づいて、前記オブジェクトグループノード内の2つのオブジェクト間の関係の予測結果を取得するように構成される、
請求項11ないし14のいずれか一項に記載のシーン情報の検出装置。
【請求項16】
前記シーン異種グラフは、終点として1つのオブジェクトグループノードを持つ情報伝送チェーンを含み、前記情報伝送チェーンは、少なくとも2つの有向辺グループを含み、各有向辺グループは、複数の始点から同一の終点を指向する複数の有向辺を含み、前記情報伝送チェーンの各始点と終点は、少なくとも2つのタイプの前記異種ノードを含み、
前記特徴処理モジュールは、前記少なくとも2つの有向辺グループのうちの第1有向辺グループについて、前記第1有向辺グループが指向する同一の第1終点を前記目標ノードとして、前記第1終点に接続される各始点のノード特徴に従って集約特徴を取得し、前記第1終点は、同時に、前記少なくとも2つの有向辺グループのうちの第2有向辺グループ内の1つの始点として使用され、前記第2有向辺グループについて、前記第2有向辺グループが指向する同一の第2終点を前記目標ノードとして、前記第2終点に接続される各始点のノード特徴に従って集約特徴を取得するように構成され、
前記特徴更新モジュールは、前記第1終点に接続される各始点のノード特徴に従って得られた集約特徴に基づいて、前記第1終点のノード特徴を更新し、及び前記第2終点に接続される各始点のノード特徴に従って得られた集約特徴に基づいて、前記第2終点のノード特徴を更新するように構成される、
請求項15に記載のシーン情報の検出装置。
【請求項17】
前記少なくとも2つの有向辺グループのうちの1つの前記有向辺グループの始点と終点について、
前記始点は、前記シーン画像から特徴を抽出することによって取得された各画素ノードを含み、前記終点は、前記シーン画像から抽出された物体ノードであり、
又は、前記始点と終点の両方が、前記シーン画像から抽出された物体ノードを含み、
又は、前記始点は、前記シーン画像から抽出された物体ノードを含み、前記終点は、前記オブジェクトグループノードを含み、
又は、前記始点は前記オブジェクトグループノードを含み、前記終点は前記物体ノードを含む、
請求項16に記載のシーン情報の検出装置。
【請求項18】
前記各補助ノードは、複数の画素ノードを含み、
前記特徴処理モジュールは、更に、
前記シーン画像に従って特徴抽出を実行して、複数の特徴マップを取得し、前記複数の特徴マップは、それぞれ異なるサイズを有し、前記複数の特徴マップを同じサイズにスケーリングしてから融合して、融合特徴マップを取得し、前記融合特徴マップに基づいて、複数の前記画素ノードのノード特徴を取得するように構成される、
請求項11に記載のシーン情報の検出装置。
【請求項19】
前記情報決定モジュールは、更新後のオブジェクトグループノードのノード特徴に基づいて、前記オブジェクトグループノード内の2つのオブジェクト間の関係の予測結果を取得するときに、前記オブジェクトグループノードのノード特徴に基づいて、予測された初期分類信頼度を取得し、前記初期分類信頼度は、前記オブジェクトグループノードがそれぞれの所定関係カテゴリに対応する初期分類信頼度を含み、前記オブジェクトグループノードが前記それぞれの所定関係カテゴリうちの1つのターゲットの所定関係カテゴリに対応する初期分類信頼度と、前記オブジェクトグループノード内の2つのオブジェクトにそれぞれ対応するオブジェクト検出信頼度とに基づいて、前記オブジェクトグループノード内の2つのオブジェクトが前記ターゲットの所定関係カテゴリに対応する信頼度を取得し、前記信頼度がプリセットされた信頼度閾値より大きいか等しい場合、前記オブジェクトグループノード内の2つのオブジェクト間の関係の予測結果が、前記ターゲットの所定関係カテゴリであると決定するように構成される、
請求項15に記載のシーン情報の検出装置。
【請求項20】
画像処理機器に適用されるシーン情報の検出装置であって、
画像収集機器によって収集されたシーン画像を取得するように構成される画像取得モジュールと、
請求項1ないし9のいずれか一項に記載のシーン情報の検出方法により前記シーン画像を処理して、前記シーン画像におけるシーン情報を出力するように構成される情報出力モジュールと、を備える、シーン情報の検出装置。
【請求項21】
電子機器であって、
コンピュータ可読命令を記憶するメモリと、
前記コンピュータ可読命令を呼び出して、請求項1ないし9のいずれか一項に記載のシーン情報の検出方法、又は請求項10に記載のシーン情報の検出方法を実行するプロセッサと、を備える、電子機器。
【請求項22】
コンピュータプログラムが記憶されたコンピュータ可読記憶媒体であって、前記コンピュータプログラムがプロセッサによって実行されるときに、前記プロセッサに請求項1ないし9のいずれか一項に記載のシーン情報の検出方法、又は請求項10に記載のシーン情報の検出方法を実行させる、コンピュータ可読記憶媒体。
【請求項23】
コンピュータ可読コードを含むコンピュータプログラムであって、前記コンピュータ可読コードが電子機器で実行されるときに、前記電子機器のプロセッサに、請求項1ないし9のいずれか一項に記載のシーン情報の検出方法、又は請求項10に記載のシーン情報の検出方法を実行させる、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願への相互参照]
本願は、出願日が2020年07月28日である中国特許出願第202010739363.2に基づいており、当該中国特許出願の優先権を主張し、当該中国特許出願のすべての内容が参照により本願に援用される。
[技術分野]
本願は、コンピュータビジョン技術に関し、シーン情報の検出方法及びその装置、電子機器、コンピュータ可読記憶媒体、並びにコンピュータプログラムに関するが、これらに限定されない。
【背景技術】
【0002】
深層学習技術の継続的な発展により、シーン理解アルゴリズムは、シーン画像に含まれるシーン情報を取得できる。例えば、該シーン情報は、シーン画像にどのオブジェクトが含まれているのか、又はシーン画像内のさまざまなオブジェクト間の関係は何であるかであってもよい。つまり、このシーン画像でどのイベントが発生するのかを理解できる。しかしながら、シーン画像に含まれる情報は複雑で多様であるため、大量の計算などの要因により、既存のシーン理解アルゴリズムは、シーン画像内の1つのタイプの情報のみを使用してシーン理解を支援することがよくある。したがって、最終的に取得したシーン情報の検出精度を向上させる必要がある。
【発明の概要】
【発明が解決しようとする課題】
【0003】
これを鑑みて、本願の実施例は、少なくとも、シーン情報の検出方法及びその装置、電子機器、コンピュータ可読記憶媒体、並びにコンピュータプログラムを提供する。
【課題を解決するための手段】
【0004】
本願の一実施例は、シーン情報の検出方法を提供し、前記方法は、
シーン異種グラフの目標ノードに接続された各補助ノードのノード特徴に基づいて、伝播されるべき集約特徴を取得することであって、前記集約特徴の特徴次元はCy*1であり、ここで、前記Cyは、前記集約特徴のチャネル次元であり、前記Cyは目標ノードのノード特徴のチャネル次元と同じであり、ここで、前記シーン異種グラフは、少なくとも2つのタイプの異種ノードを含み、前記少なくとも2つのタイプの異種ノードは、前記補助ノードと、前記シーン画像に基づいて取得された前記目標ノードと、を含む、ことと、
前記集約特徴に基づいて、前記目標ノードのノード特徴を更新することと、
更新後の前記目標ノードのノード特徴に基づいて、前記シーン画像におけるシーン情報を取得することと、を含む。
【0005】
いくつかの実施例では、前記集約特徴に基づいて、前記目標ノードのノード特徴を更新することは、前記集約特徴の各チャネルのチャネル特徴に基づいて、前記チャネル特徴を使用して、前記目標ノードのノード特徴において前記各チャネルに対応するすべての特徴位置に対して特徴更新処理を実行することを含む。
【0006】
いくつかの実施例では、前記シーン異種グラフの目標ノードに接続された各補助ノードのノード特徴に基づいて、伝播されるべき集約特徴を取得することは、シーン異種グラフの目標ノードに接続された各補助ノードのノード特徴に基づいて、再重み付けベクトルと残差ベクトルのうちの少なくとも1つを前記集約特徴として取得することを含み、前記集約特徴に基づいて、前記目標ノードのノード特徴を更新することは、前記再重み付けベクトルに基づいて目標ノードのノード特徴の各チャネルに対して乗算処理を実行すること、及び/又は、前記残差ベクトルによって目標ノードのノード特徴の各チャネルに対して加算処理を実行することを含む。
【0007】
いくつかの実施例では、前記再重み付けベクトルと残差ベクトルのうちの少なくとも1つを前記集約特徴として取得することは、活性化関数と前記目標ノードのノード特徴の標準偏差を使用して、前記残差ベクトルの値を所定の数値区間にマッピングして、集約特徴として使用することを含む。
【0008】
いくつかの実施例では、前記目標ノードは、オブジェクトグループノードを含み、前記オブジェクトグループは、前記シーン画像内の2つのオブジェクトを含み、前記更新後の前記目標ノードのノード特徴に基づいて、前記シーン画像におけるシーン情報を取得することは、更新後のオブジェクトグループノードのノード特徴に基づいて、前記オブジェクトグループノード内の2つのオブジェクト間の関係の予測結果を取得することを含む。
【0009】
いくつかの実施例では、前記シーン異種グラフは、終点として1つのオブジェクトグループノードを持つ情報伝送チェーンを含み、前記情報伝送チェーンは、少なくとも2つの有向辺グループを含み、各有向辺グループは、複数の始点から同一の終点を指向する複数の有向辺を含み、前記情報伝送チェーンの各始点と終点は、少なくとも2つのタイプの前記異種ノードを含み、前記目標ノードに接続された各補助ノードのノード特徴に基づいて、伝播されるべき集約特徴を取得し、前記集約特徴に基づいて、前記目標ノードのノード特徴を更新することは、前記少なくとも2つの有向辺グループのうちの第1有向辺グループについて、前記第1有向辺グループが指向する同一の第1終点を前記目標ノードとして、前記第1終点に接続される各始点のノード特徴に従って集約特徴を取得し、前記集約特徴に基づいて前記第1終点のノード特徴を更新することであって、前記第1終点は、同時に、前記少なくとも2つの有向辺グループのうちの第2有向辺グループ内の1つの始点として使用される、ことと、前記第2有向辺グループについて、前記第2有向辺グループが指向する同一の第2終点を前記目標ノードとして、前記第2終点に接続される各始点のノード特徴に従って集約特徴を取得し、前記集約特徴に基づいて前記第2終点のノード特徴を更新することと、を含む。
【0010】
いくつかの実施例では、前記少なくとも2つの有向辺グループのうちの1つの前記有向辺グループの始点と終点について、前記始点は、前記シーン画像から特徴を抽出することによって取得された各画素ノードを含み、前記終点は、前記シーン画像から抽出された物体ノードであり、又は、前記始点と終点の両方が、前記シーン画像から抽出された物体ノードを含み、又は、前記始点は、前記シーン画像から抽出された物体ノードを含み、前記終点は、前記オブジェクトグループノードを含み、又は、前記始点は前記オブジェクトグループノードを含み、前記終点は前記物体ノードを含む。
【0011】
いくつかの実施例では、前記各補助ノードは、複数の画素ノードを含み、前記方法は、前記シーン画像に従って特徴抽出を実行して、複数の特徴マップを取得することであって、前記複数の特徴マップは、それぞれ異なるサイズを有する、ことと、前記複数の特徴マップを同じサイズにスケーリングしてから融合して、融合特徴マップを取得することと、前記融合特徴マップに基づいて、複数の前記画素ノードのノード特徴を取得することと、を更に含む。
【0012】
いくつかの実施例では、前記更新後のオブジェクトグループノードのノード特徴に基づいて、前記オブジェクトグループノード内の2つのオブジェクト間の関係の予測結果を取得することは、前記オブジェクトグループノードのノード特徴に基づいて、予測された初期分類信頼度を取得することであって、前記初期分類信頼度は、前記オブジェクトグループノードがそれぞれの所定関係カテゴリに対応する初期分類信頼度を含む、ことと、前記オブジェクトグループノードが前記それぞれの所定関係カテゴリうちの1つのターゲットの所定関係カテゴリに対応する初期分類信頼度と、前記オブジェクトグループノード内の2つのオブジェクトにそれぞれ対応するオブジェクト検出信頼度とに基づいて、前記オブジェクトグループノード内の2つのオブジェクトが前記ターゲットの所定関係カテゴリに対応する信頼度を取得することと、前記信頼度がプリセットされた信頼度閾値より大きいか等しい場合、前記オブジェクトグループノード内の2つのオブジェクト間の関係の予測結果が、前記ターゲットの所定関係カテゴリであると決定することと、を含む。
【0013】
本願の一実施例は、画像処理機器によって実行されるシーン情報の検出方法を提供し、前記方法は、
画像収集機器によって収集されたシーン画像を取得することと、
本願の任意の実施例によって提供されるシーン情報の検出方法により前記シーン画像を処理して、前記シーン画像におけるシーン情報を出力することと、を含む。
【0014】
本願の一実施例は、シーン情報の検出装置を提供し、前記装置は、
シーン異種グラフの目標ノードに接続された各補助ノードのノード特徴に基づいて、伝播されるべき集約特徴を取得するように構成される特徴処理モジュールであって、前記集約特徴の特徴次元はCy*1であり、ここで、前記Cyは、前記集約特徴のチャネル次元であり、前記Cyは目標ノードのノード特徴のチャネル次元と同じであり、ここで、前記シーン異種グラフは、少なくとも2つのタイプの異種ノードを含み、前記少なくとも2つのタイプの異種ノードは、前記補助ノードと、前記シーン画像に基づいて取得された前記目標ノードと、を含む、特徴処理モジュールと、
前記集約特徴に基づいて、前記目標ノードのノード特徴を更新するように構成される特徴更新モジュールと、
更新後の前記目標ノードのノード特徴に基づいて、前記シーン画像におけるシーン情報を取得するように構成される情報決定モジュールと、を備える。
【0015】
いくつかの実施例では、前記特徴更新モジュールが、前記集約特徴に基づいて前記目標ノードのノード特徴を更新するように構成されることは、前記特徴更新モジュールが、前記集約特徴の各チャネルのチャネル特徴に基づいて、前記チャネル特徴を使用して、前記目標ノードのノード特徴において各チャネルに対応するすべての特徴位置に対して特徴更新処理を実行するように構成されることを含む。
【0016】
いくつかの実施例では、前記特徴処理モジュールは、具体的に、シーン異種グラフの目標ノードに接続された各補助ノードのノード特徴に基づいて、再重み付けベクトルと残差ベクトルのうちの少なくとも1つを前記集約特徴として取得するように構成され、前記特徴更新モジュールは、具体的に、前記再重み付けベクトルに基づいて目標ノードのノード特徴の各チャネルに対して乗算処理を実行し、及び/又は、前記残差ベクトルによって目標ノードのノード特徴の各チャネルに対して加算処理を実行するように構成される。
【0017】
いくつかの実施例では、前記特徴処理モジュールが、再重み付けベクトルと残差ベクトルのうちの少なくとも1つを前記集約特徴として取得するように構成されることは、前記特徴処理モジュールが、活性化関数と前記目標ノードのノード特徴の標準偏差を使用して、前記残差ベクトルの値を所定の数値区間にマッピングして、集約特徴として使用するように構成されることを含む。
【0018】
いくつかの実施例では、前記目標ノードは、オブジェクトグループノードを含み、前記オブジェクトグループは、前記シーン画像内の2つのオブジェクトを含み、前記情報決定モジュールは、具体的に、更新後のオブジェクトグループノードのノード特徴に基づいて、前記オブジェクトグループノード内の2つのオブジェクト間の関係の予測結果を取得するように構成される。
【0019】
いくつかの実施例では、前記シーン異種グラフは、終点として1つのオブジェクトグループノードを持つ情報伝送チェーンを含み、前記情報伝送チェーンは、少なくとも2つの有向辺グループを含み、各有向辺グループは、複数の始点から同一の終点を指向する複数の有向辺を含み、前記情報伝送チェーンの各始点と終点は、少なくとも2つのタイプの前記異種ノードを含み、前記特徴処理モジュールは、前記少なくとも2つの有向辺グループのうちの第1有向辺グループについて、前記第1有向辺グループが指向する同一の第1終点を前記目標ノードとして、前記第1終点に接続される各始点のノード特徴に従って集約特徴を取得し、前記第1終点は、同時に、前記少なくとも2つの有向辺グループのうちの第2有向辺グループ内の1つの始点として使用され、前記第2有向辺グループについて、前記第2有向辺グループが指向する同一の第2終点を前記目標ノードとして、前記第2終点に接続される各始点のノード特徴に従って集約特徴を取得するように構成され、前記特徴更新モジュールは、前記第1終点に接続される各始点のノード特徴に従って得られた集約特徴に基づいて、前記第1終点のノード特徴を更新し、及び前記第2終点に接続される各始点のノード特徴に従って得られた集約特徴に基づいて、前記第2終点のノード特徴を更新するように構成される。
【0020】
いくつかの実施例では、前記少なくとも2つの有向辺グループのうちの1つの前記有向辺グループの始点と終点について、
前記始点は、前記シーン画像から特徴を抽出することによって取得された各画素ノードを含み、前記終点は、前記シーン画像から抽出された物体ノードであり、
又は、前記始点と終点の両方が、前記シーン画像から抽出された物体ノードを含み、
又は、前記始点は、前記シーン画像から抽出された物体ノードを含み、前記終点は、前記オブジェクトグループノードを含み、
又は、前記始点は前記オブジェクトグループノードを含み、前記終点は前記物体ノードを含む。
【0021】
いくつかの実施例では、前記各補助ノードは、複数の画素ノードを含み、
前記特徴処理モジュールは、更に、
前記シーン画像に従って特徴抽出を実行して、複数の特徴マップを取得し、前記複数の特徴マップは、それぞれ異なるサイズを有し、前記複数の特徴マップを同じサイズにスケーリングしてから融合して、融合特徴マップを取得し、前記融合特徴マップに基づいて、複数の前記画素ノードのノード特徴を取得するように構成される。
【0022】
いくつかの実施例では、前記情報決定モジュールが、更新後のオブジェクトグループノードのノード特徴に基づいて、前記オブジェクトグループノード内の2つのオブジェクト間の関係の予測結果を取得するように構成されることは、前記情報決定モジュールが、前記オブジェクトグループノードのノード特徴に基づいて、予測された初期分類信頼度を取得し、前記初期分類信頼度は、前記オブジェクトグループノードがそれぞれの所定関係カテゴリに対応する初期分類信頼度を含み、前記オブジェクトグループノードが前記それぞれの所定関係カテゴリうちの1つのターゲットの所定関係カテゴリに対応する初期分類信頼度と、前記オブジェクトグループノード内の2つのオブジェクトにそれぞれ対応するオブジェクト検出信頼度とに基づいて、前記オブジェクトグループノード内の2つのオブジェクトが前記ターゲットの所定関係カテゴリに対応する信頼度を取得し、前記信頼度がプリセットされた信頼度閾値より大きいか等しい場合、前記オブジェクトグループノード内の2つのオブジェクト間の関係の予測結果が、前記ターゲットの所定関係カテゴリであると決定するように構成される。
【0023】
本願の一実施例は、画像処理機器に適用されるシーン情報の検出装置を提供し、前記装置は、画像収集機器によって収集されたシーン画像を取得するように構成される画像取得モジュールと、本願の任意の実施例によるシーン情報の検出方法により前記シーン画像を処理して、前記シーン画像におけるシーン情報を出力するように構成される情報出力モジュールと、を備える。
【0024】
本願の一実施例は、メモリとプロセッサを備える電子機器を提供し、前記メモリは、コンピュータ可読命令を記憶し、前記プロセッサは、前記コンピュータ可読命令を呼び出して、本願の任意の実施例におけるシーン情報の検出方法を実行する。
【0025】
本願の一実施例は、コンピュータプログラムが記憶されたコンピュータ可読記憶媒体を提供し、前記コンピュータプログラムは、プロセッサに、本願の任意の実施例におけるシーン情報の検出方法を実行させる。
【0026】
本願の一実施例は、コンピュータ可読コードを含むコンピュータプログラムを提供し、前記コンピュータ可読コードが電子機器で実行されるときに、前記電子機器のプロセッサに、本願の任意の実施例におけるシーン情報の検出方法を実行させる。
【発明の効果】
【0027】
本願の実施例によるシーン情報の検出方法及びその装置、電子機器、コンピュータ可読記憶媒体、並びにコンピュータプログラムによれば、ノード特徴を更新する場合、異なるノード間でチャネルレベルの情報を伝送することにより、異種ノード間で情報を転送でき、このように複数のタイプの情報を融合してシーン情報の検出を実行できるため、シーン情報検出がより正確になる。
【0028】
前述の一般的な説明および以下の詳細な説明は、例示的かつ説明的なものにすぎず、本願を限定するものではないことを理解されたい。
【図面の簡単な説明】
【0029】
【
図1】本願の少なくとも1つの実施例によるシーン情報の検出方法を示す。
【
図2】本願の少なくとも1つの実施例による特徴更新の原理の概略図である。
【
図3】本願の少なくとも1つの実施例よる別のシーン情報の検出方法を示す。
【
図4】本願の少なくとも1つの実施例によるシーン異種グラフの概略図である。
【
図5】本願の少なくとも1つの実施例によるシーン情報の検出装置を示す。
【
図6】本願の少なくとも1つの実施例による別のシーン情報の検出装置を示す。
【発明を実施するための形態】
【0030】
本願の1つ又は複数の実施例又は関連技術における技術的特徴をより明確に説明するために、実施例又は関連技術の説明に使用する必要のある図面を簡単に説明する。明らかに、以上の説明の図面は、本願の1つ又は複数の実施例に記載の実施例の一部にすぎず、当業者にとって、創造的な労力なしに、これらの図面に従って他の図面を得ることができる。
【0031】
当業者が本願の1つ又は複数の実施例に置ける技術的解決策を一層簡単に理解できるようにするために、以下、本願の1つ又は複数の実施例における図面を参照して、本願の1つ又は複数の実施例における技術的解決策を明確かつ完全に説明するか、明らかに、説明された実施例は、すべての実施例ではなく、本願の実施例の一部にすぎない。本願の1つ又は複数の実施例に基づき、創造的な労力なしに当業者によって得られる他のすべての実施例は、本願の保護範囲に含まれるものとする。
【0032】
コンピュータビジョン技術は、特定のシーンのシーン画像に対して画像処理を実行することにより、当該シーン内容に関する理解情報(シーン情報と呼ばれ得る)を取得できる。当該シーン情報は、例えば、識別された、シーン画像に含まれる目標オブジェクト、検出された、シーン画像内のオブジェクトの動作、検出された、シーン画像内の異なるオブジェクト間の関係、シーン画像の内容に従って識別された、画像に含まれる情報などを含むが、これらに限定されない。
【0033】
いくつかの実施例では、画像収集機器によってシーン画像を収集することができる。ここで、上記のシーンは、シーン情報を自動分析する必要がある場所、例えば、都市の潜在的な安全上の問題(暴力事件など)が頻繁に発生する場所であり得、監視カメラなどの画像収集機器を設置することができる。別の例として、スーパーマーケットなどの買い物場所で、買い物をしている顧客の画像を自動的に収集して、顧客がどの商品に興味を持っているかを分析したい場合、スーパーマーケットに監視カメラなどの画像収集機器を設置することができる。ここで、上記のシーン画像は、単一フレーム画像であってもよく、ビデオストリーム内の画像フレームの一部であってもよい。
【0034】
シーン画像を収集した後、当該シーン画像を画像分析処理のための画像処理機器に伝送でき、当該画像処理機器は、後続の本願の一実施例で提供されるシーン情報の検出方法により画像収集機器によって収集された画像を分析でき、最終的に、シーン画像におけるシーン情報を出力することができ、例えば、当該シーン情報は、画像内の何人かの人々が喧嘩していることを示す情報であり得る。もちろん、これらは単なる例であり、実際の実施は、上記のケースに限定されない。
【0035】
シーン画像を処理してシーン情報を取得するプロセスでは、通常、シーン内の情報の一部を補助として使用して、識別されるべき及び検出されるべき目標シーン内容を取得する。このプロセスは、補助情報を融合する特徴更新プロセスに関し、特徴更新により複数のタイプの補助情報を融合して、ターゲットを共同で予測及び識別することができる。
【0036】
本願の一実施例は、シーン情報の検出方法を提供し、当該方法は、特徴更新方式を提供し、当該方法で提供される方式で特徴を更新し、更新された特徴に従ってシーン情報を検出する。
【0037】
最初に、識別されるべきシーン画像(例えば、収集されたテニスコートの画像)に対して特徴抽出などの画像処理を実行して、複数のノードを取得でき、これらのノードは、1つのグラフネットワークを形成でき、この実施例では、当該グラフネットワークは、シーン異種グラフ(Scene Heterogeneous Graph)と呼ばれる。
【0038】
当該シーン異種グラフ内の前記複数のノードは、少なくとも2つのタイプの異種ノードを含み、上記の異種ノードとは、ノード特徴次元(feature shapes)とノード特徴分布(feature distributions)などが異なるノードを指す。
【0039】
前述のシーン異種グラフに含まれる特定の異種ノードは、実際の処理目標に応じて決定でき、この実施例に限定されない。留意されたいこととして、この実施例におけるシーン異種グラフは、複数のタイプの異種ノードを含み得、これにより、より豊富な情報を融合することでシーン理解を実行でき、グラフ内の各ノード間で有向辺の接続を確立でき、有向辺の始点の特徴を有向辺の終点の特徴に融合することにより、有向辺の終点の特徴の最適化と更新を実現する。
【0040】
例えば、取得する必要のあるシーン情報が画像内の人と物体間の関係である場合、グラフ内のノードは、オブジェクトノード(オブジェクトは、人や物などであり得る)、画素ノードなどの異なるノードを含み得る。
【0041】
例えば、別のシーン理解タスクでは、グラフ内のノードは、人体ノード、画素ノードに加えて、人体のキーポイントに対応するノードも含み得る。つまり、同一人のキーポイントを接続してもよく、異なる人の同じキーポイントを接続してもよく、これらのキーポイントは、人体検出ボックスに対応するノードに接続できる。接続辺を有するノード間の情報転送により、人体特徴を最適化及び更新することができ、これにより、更新された人体特徴に従って人の動作姿勢をよりよく捕捉することができる。
【0042】
例えば、別のシーン理解タスクでは、グラフ内のノードは、画素ノード及びオブジェクトノードを含み得、特定の時刻のシーンを、当該時刻に対応する時刻ノードに凝縮することもでき。当該時刻ノードを画素ノードに接続することにより、各時刻の各画素位置の特徴表現を最適化するか、又は当該時刻ノードを特定のオブジェクトノードに接続して最適化することができる。更に、当該シーン理解タスクが、より全体的な環境要因(例えば、全体的な照明条件、天気などの要因及び特徴)に基づくことが予想される場合、これらの全体的な要因に対応するノードをグラフに追加することができる。
【0043】
まとめると、特定のシーン理解タスクに基づいて、シーン異種グラフに含まれるノードを決定でき、この実施例では、グラフは複数のタイプの異種ノードを含み得る。
図1に示されるように、当該シーン異種グラフに従ってシーン情報検出処理を実行することは、以下のとおりである。
【0044】
ステップ100において、シーン異種グラフの目標ノードに接続された各補助ノードのノード特徴に基づいて、伝播されるべき集約特徴を取得する。
【0045】
ここで、集約特徴の特徴次元はCy*1であり、ここで、前記Cyは、前記集約特徴のチャネル次元であり、前記Cyは目標ノードのノード特徴のチャネル次元と同じである。
【0046】
ここで、前記シーン異種グラフは、少なくとも2つのタイプの異種ノードを含み、前記少なくとも2つのタイプの異種ノードは、前記補助ノードと、シーン画像に対して特徴抽出を実行することによって得られた前記目標ノードと、を含む。ここで、目標ノード及び補助ノードは両方とも、シーン画像に基づいて得られることができる。例えば、シーン画像に対して目標検出を実行し、画像内の特定のオブジェクト(例えば、人、又は物体など)を検出し、これにより、当該オブジェクトに対応するノードを生成し、当該ノードは補助ノードであり得る。別の例として、目標ノード及び補助ノードは、シーン画像内の2つのオブジェクトで1つのオブジェクトグループ(例えば、一人及び1つのテニスボール)を形成し、当該オブジェクトグループに対応するノードを生成し、当該ノードは目標ノードであり得る。その中の補助ノードの一部は、他の方式でも取得でき、例えば、シーン画像が収集されたときの時間情報、照明条件情報などであり得、これらの情報は、1つのノードに対応でき、該ノードは補助ノードであり得る。もちろん、これらの情報はすべて、後続のプロセスで符号化により、当該補助ノードに対応するノード特徴に融合できる。ここからわかるように、1つのシーン画像を取得した後、当該シーン画像に基づいて、上記の目標ノード、補助ノードを生成でき、更に、これらのノードでシーン異種グラフを形成することができる。
【0047】
例えば、当該少なくとも2つのタイプの異種ノードは、ノードA、ノードB、ノードC、及びノードDの4つのタイプのノードを含み得、各タイプのノードの数は、複数であり得る。更に、当該シーン異種グラフは、次のようなノード接続関係を含み得る。
【0048】
例えば、複数のノードAが1つのノードBに接続され、ノードAが有向辺の始点として使用され、ノードBが有向辺の終点として使用される場合、このステップにおける目標ノードと各補助ノードについて、上記の複数のノードAは各補助ノードであり得、ノードBは目標ノードであり得る。
【0049】
このステップでは、各補助ノードのノード特徴に基づいて、伝播されるべき集約特徴を取得でき、集約特徴の特徴次元はCy*1であり、ここで、前記Cyは集約特徴のチャネル次元であり、Cyは目標ノードのノード特徴のチャネル次元と同じである。例示的に、目標ノードのノード特徴が256個のチャネルを有する場合、集約特徴は、1つの256次元のベクトルであり得る。
【0050】
ここで、上記の目標ノードのノード特徴は、シーン画像の画像内容の少なくとも一部に基づいて得られた情報であり得、当該ノード特徴には、シーン画像における、目標ノードに対応するオブジェクトの画像情報が融合されている。画像情報がノード特徴に融合されているからこそ、当該ノード特徴に従ってシーン情報を予測して、シーン画像に含まれるシーン情報を取得することができる。
【0051】
ステップ102において、前記集約特徴に基づいて、前記目標ノードのノード特徴を更新する。
【0052】
ここで、上記の集約特徴は、目標ノードに対応する各補助ノードのノード特徴を総合することによって得られたものであり、当該集約特徴は、目標ノードのノード特徴更新に対する各補助ノードの影響を表し、これは、各補助ノードに対応する画像内容の情報を、目標ノードに対応するオブジェクトに伝送することに相当し、これにより、目標ノードのノード特徴を補助ノードに対応する画像内容に融合することができる。
【0053】
このステップでは、集約特徴とノード特徴のチャネル次元は同じであり、目標ノードのノード特徴を更新する場合、更新方式は、チャネルレベル(channel-wise)の情報更新である。具体的には、前記集約特徴の各チャネルのチャネル特徴に基づいて、前記チャネル特徴を使用して、前記目標ノードのノード特徴において前記チャネルのすべての特徴位置に対して特徴更新処理を実行することである。
【0054】
例えば、依然として、目標ノードのノード特徴が256個のチャネルを有し、集約特徴が1つの256次元のベクトルであり得ることを例として説明する。
図2を参照すると、複数の補助ノードAのノード特徴に基づいて、1つの集約特徴{p1,p2,p3……p256}を算出でき、当該集約特徴は、1つの256次元のベクトルである。目標ノードBのノード特徴の各チャネルは、7*7=49個の特徴位置を有し、ノード特徴を更新するとき、チャネルを逐次更新することができる。例えば、
図2に示されるように、目標ノードの最初のチャネルを更新する場合、集約特徴のベクトルから最初のベクトル要素p1を抽出でき、目標ノードの最初のチャネル内のすべての特徴位置に、このベクトル要素(ここでは「加算」を例として説明し、いくつかの実施例では、「乗算」などの他の操作も使用できる)を追加することにより、当該最初のチャネル内のすべての特徴位置に対する特徴更新処理を実現する。
図2は、特徴位置の一部での+p1の操作を示している。同様に、目標ノードの2番目のチャネルを更新する場合、集約特徴のベクトル内の2番目のベクトル要素を使用して、2番目のチャネル内のすべての特徴位置に当該2番目のベクトル要素を追加する。
【0055】
ステップ104において、更新後の前記目標ノードのノード特徴に基づいて、前記シーン画像におけるシーン情報を取得する。
【0056】
上記のステップ100及びステップ102において、1回の目標ノードの更新を例として説明したが、実際の実施では、シーン画像検出からシーン情報を取得するプロセスでは、複数回のそのような特徴更新が含まれることができる。例えば、複数のノードAの特徴に基づいて、共通で指向する1つのノードBの特徴を更新した後、当該ノードBは、他のノードBと一緒に、これらのノードBのノード特徴に基づいて、共通で指向するノードCの特徴を更新でき、更新方式は、
図2に示されるとおりである。
【0057】
少なくとも1回の、この実施例の特徴更新を経過した後、更新後の目標ノードのノード特徴を使用して、前記シーン画像におけるシーン情報を最終的に取得することができる。ここで、複数回の上記の特徴更新を含む場合、ここでの更新後の目標ノードのノード特徴は、最終的に得られた更新後の目標ノード(すなわち、これ以上他のノードを指向するための始点として再度使用されない、最後の有向辺の終点である)、又は、シーン異種グラフから選択されたノードの一部であり得、この実施例では限定されない。また、シーン情報を取得する方式及び具体的なシーン情報は、実際のサービス要件に応じて決定でき、例えば、実際のサービス目標が、シーンにおけるオブジェクト間の関係を予測することである場合、多層パーセプトロン(MLP:Multi-layer Perceptron)を介して、更新されたノード特徴に基づいて、オブジェクト間の関係カテゴリを予測することができる。
【0058】
この実施例のシーン情報の検出方法によれば、ノード特徴を更新する場合、異なるノード間でチャネルレベルの情報を伝送することにより、異種ノード間で情報を転送でき、このように複数のタイプの情報を融合してシーン情報の検出を実行できるため、シーン情報検出がより正確になる。
【0059】
図3は、別のシーン情報の検出方法を示しており、当該方法は、
図1に示す方法の上で、例として、特定のチャネル情報の形式を示している。
図3に示されるように、当該方法は、以下のステップを含み得る。
【0060】
ステップ300において、シーン異種グラフの目標ノードに接続された各補助ノードのノード特徴に基づいて、再重み付けベクトルと残差ベクトルのうちの少なくとも1つを前記集約特徴として取得する。
【0061】
このステップでは、複数の補助ノードのノード特徴に従って得られた集約特徴は、再重み付けベクトルと残差ベクトルのうちの少なくとも1種であり得る。例えば、1つの再重み付けベクトルのみであってもよく、1つの残差ベクトルのみであってもよく、再重み付けベクトルと残差ベクトルの2種のベクトルを計算することであってもよい。
【0062】
wyは、再重み付けベクトル(channel-wise re-weighting vector)を表し、byは、残差ベクトル(channel-wise residual vector)を表す。これらの2つのベクトルを計算するとき、まず、1つの関数を介して、目標ノードのノード特徴に対する補助ノードのノード特徴の影響パラメータを取得でき、次に、異なる補助ノードの影響パラメータを組み合わせる。組み合わせる方式もたくさんあり、例えば、加重加算、又は多層パーセプトロンを介して組み合わせることができる。
【0063】
以下では、例として、再重み付けベクトルと残差ベクトルの2つの計算方式を示しているが、具体的な計算方式はこれに限定されないことが理解できる。
【0064】
いくつかの実施例では、下記式により、再重み付けベクトルと残差ベクトルを算出することができる。
【0065】
【0066】
ここで、HwとHbは2つの線形変換行列であり、補助ノードの次元C’*L’のL’のノード特徴をチャネル次元がCyである特徴に変換するために使用でき、fxは、補助ノードのノード特徴を表す。wxyはアテンション重みであり、下記式で算出できる。
【0067】
【0068】
ここで、WkとWqは2つの線形変換行列であり、補助ノードのノード特徴fxと目標ノードのノード特徴fyを同じ次元dkの特徴変換するために使用できる。ここで、dkは1つのハイパーパラメータ(hyperparameter)であり、状況に応じて設定できる。<.,.>は、2つのベクトルの内積の計算関数である。
【0069】
いくつかの実施例では、下記式により、再重み付けベクトルと残差ベクトルを算出することができる。
【0070】
【0071】
ここで、HxとHyの作用は、前の計算方式におけるWkとWqに類似しており、fxとfyを同じ次元dkに変換するために使用できる。ここで、[;]は連結を意味し、つまり、2つのベクトルを直接連結することを意味する。MLPは多層パーセプトロンであり、具体的なパラメータ設定は、比較的柔軟である。
【0072】
上記の2つの方式は、再重み付けベクトルwyと残差ベクトルbyの計算を示しており、この2つのベクトルの次元はすべてCy*1である。
【0073】
ステップ302において、前記集約特徴に基づいて、前記目標ノードのノード特徴を更新することは、再重み付けベクトルに基づいて目標ノードのノード特徴の各チャネルに対して乗算処理を実行すること、及び/又は、残差ベクトルによって目標ノードのノード特徴の各チャネルに対して加算処理を実行することを含む。
【0074】
このステップでは、集約特徴に基づいて、目標ノードのノード特徴を更新することも、複数の方式がある。
【0075】
更新式の例は次のとおりである。
【0076】
【0077】
ここで、目標ノードはyであり、次元はCy*Lyであり、Cyはチャネル次元であり、Lyは目標ノードの各チャネルの特徴サイズであり、当該目標ノードの更新前の特徴はfyであり、更新後の新しい特徴はfy’であり、当該目標ノードyを指向する合計M個の有向辺があると仮定すると、これらのM個の有向辺の始点は、M個の補助ノードであり、これらのM個の補助ノードで形成される集合はN(y)であり、各補助ノードの特徴次元はC’*L’である。上記の式により、M個の補助ノードのノード特徴に従って集約特徴を取得した後、当該集約特徴を目標ノードyに転送することにより、更新後の新しい特徴fy’を取得する。
【0078】
まず、wyとbyは、ステップ300で例示したように2つの方式で取得でき、これらの2つのベクトルの次元はCy*1である。依然として上記の式を参照すると、当該式で表される操作は以下を含む。
【0079】
1)Sigmoid活性化関数により、wyを(0,1)区間にマッピングし、活性化関数Tanh、及び目標ノードの更新前のノード特徴fyの標準偏差σ(fy)により、残差ベクトルbyの値を所定の数値区間[-stand、+stand]にマッピングする。ここで、σ(fy)の意味は、fyの各チャネルの標準偏差を求めるものであり、長さがCy*1であるベクトルであり、各ビットは、対応するチャネル上のfyのLy位置データの標準偏差を表す。Convは1つの1次元の畳み込み操作であり、畳み込みカーネルのサイズは1であり、入力チャネルの数と出力チャネルの数はCyである。
【0080】
2)残差ベクトルの場合、当該残差ベクトル
は、f
yの各チャネルのすべての特徴位置に「ブロードキャスト」され、すなわち、
である。その後、f
yの各チャネルの数に再重み付けベクトルを乗算する。具体的には、式において、各チャネル上のすべての特徴位置の数に、sigmoid活性化関数によって変換された再重み付けベクトルを乗算することができる。最後に、畳み込み操作を介して各チャネルの情報を融合して、更新後の特徴を取得する。
【0081】
上記の式は、再重み付けベクトルと残差ベクトルを同時計算することを例として説明したが、実際の実施では、様々な変形があり得る。例えば、再重み付けベクトルwyを使用しないか、又は残差ベクトルbyを使用しないか、又は畳み込み操作Convを使用しないなどである。別の例として、畳み込み操作の畳み込みカーネルのサイズを変更することであり得るか、又は最初に再重み付けベクトルwyと残差ベクトルbyを畳み込み、次にfyの各チャネルに伝播することであり得る。別の例として、集約特徴を目標ノードのノード特徴に融合する場合、上記の式の例の乗算および加算操作に加えて、除算、減算、または複数のネスト(たとえば、最初に加算してから乗算するなど)などの他の形式も可能である。
【0082】
この実施例のシーン情報検出方法は、以下の効果を有する。
【0083】
第1に、ノード特徴を更新する場合、異なるノード間でチャネルレベルの情報を伝送することにより、異種ノード間で情報を転送でき、このように複数のタイプの情報を融合してシーン情報の検出を実行できるため、シーン情報検出がより正確になる。更に、チャネルレベルの情報のみを送信することで情報伝送量を減らし、異種ノード間の高速情報伝送が可能になる。また、異なる異種ノードのノード特徴の情報を事前に圧縮する必要がないため、ノード特徴の元の内容を十分に保持でき、元の特徴に対する不可逆的な圧縮を必要としないため、様々なフレームワークに容易に適用でき、幅広い適用性を有する。
【0084】
第2に、チャネルレベルの再重み付けベクトルと残差ベクトルを取得して、目標ノードに伝播することにより、目標ノードの最適化効果が向上し、目標ノードの最終のシーン情報に基づく検出がより正確になる。
【0085】
第3に、更に、この実施例では、目標ノード特徴の標準偏差を使用して残差ベクトルの値の範囲を制約することにより、更新後の新しい特徴が、更新前の特徴の特徴分布から大きく逸脱しないようにし、これにより、目標ノード更新に対する異種ノードの特徴分布の違いの影響を低減する。
【0086】
上記のように、この実施例で提供される異種ノード間の情報伝送メカニズムによれば、チャネルレベルの情報の伝送により、特徴次元が異なる異種ノード間の情報転送を実現し、標準偏差により残差ベクトルの値の範囲を制限することにより、目標ノード特徴分布に対する、特徴分布が異なる異種ノードの影響を低減する。したがって、当該メカニズムは、異種ノード間の情報転送を実現し、様々なより豊富なノード特徴を介して目標ノード特徴を最適化でき、これにより、最適化された目標ノード特徴に基づくシーン情報の検出がより正確になる。
【0087】
以下、シーン画像におけるオブジェクト関係検出を例として、シーン情報の検出方法について説明する。以下の実施例では、検出されるシーン情報は、シーン画像内の2つのオブジェクト間の関係であり、この2つのオブジェクトが人及び物体であることを例として、人と物体の関係を識別し(HOI検出:Human-object Interaction Detection)、例えば、人がボールをプレーすることを識別する。
【0088】
図4に示す例を参照すると、
図4は、HOI検出の場合、シーン画像に従って作成されたシーン異種グラフを示している。この実施例では、例として、シーン異種グラフが、画素ノード、物体ノード、及びオブジェクトグループノード3つのタイプのノードを含み、他の可能な実施例では、当該異種グラフは、他のタイプのノードも含み得る。以下、上記の3つのタイプのノードのノード特徴の取得方式の例を示すが、実際の実施はこれに限定されず、他の方式でノード特徴を取得することもできる。
【0089】
画素ノードVpixの場合、1つの特定の実現方式は、FPNを使用してシーン画像に対して特徴抽出を実行して、複数の特徴マップを取得し、前記複数の特徴マップは、それぞれ異なるサイズを有し、次に、前記複数の特徴マップを同じサイズにスケーリングした後、1つの畳み込みレイアを介して融合して、融合特徴マップを取得し、最後に、前記融合特徴マップに基づいて、複数の前記画素ノードのノード特徴を取得することである。例えば、融合特徴マップの特徴次元は256*7*7であり、ここで、256はチャネル次元であり、HとWはそれぞれ特徴マップの高さと幅を表す。したがって、シーン異種グラフには、画素を表すH*W個のノード(すなわち、画素ノード)が含まれ、各画素ノードの次元は256である。
【0090】
上記の方式では、異なるサイズの特徴マップを融合することにより、融合特徴マップは、(高解像度画像からの)多くの低セマンティック特徴と局部特徴だけでなく、(低解像度画像からの)多くの高セマンティック情報とグローバル特徴を含むことができ、これにより、より豊富の画像内容を画素ノードに融合することができ、後続のシーン情報の検出精度を向上させるのに有益である。
【0091】
物体ノードVinstの場合、例えば、Faster R-CNNを使用してシーン画像を処理して、シーン画像内のすべての物体のカテゴリと位置を検出し、RoI Alignアルゴリズムを使用して、各物体の特徴を抽出することができる。検出アルゴリズムにより、このシーン内のN個の物体を検出した場合、シーン異種グラフは、異なる物体を表すN個の物体ノードを含み、各物体ノードの特徴次元は256*7*7である。当該物体ノードは、例えば、人、ボール、馬などであり得る。又は、他の例では、ResNet50などのDepthwise畳み込みニューラルネットワークを介して、物体検出ボックス内の内容から特徴を抽出することであってもよい。
【0092】
オブジェクトグループノードVpairの場合、シーン画像にN個の物体があると仮定すると、N*(N-1)個のオブジェクトグループノードを形成できる。ここで、O1とO2の2つの物体ノードの場合、「O1-O2」は、1つのオブジェクトグループノードであり、当該オブジェクトグループノードの主体はO1であり、客体はO2である。「O2-O1」は、別のオブジェクトグループノードであり、当該オブジェクトグループノードの主体はO2であり、客体はO1である。
【0093】
各オブジェクトグループノードの特徴は、3つの領域の特徴によって決定される。具体的には、オブジェクトグループノードに含まれる2つの物体ノードに対応する物体の位置がそれぞれ(ax1,ay1,ax2,ay2)と(bx1,by1,bx2,by2)であると仮定し、ここで、ax1は、最初の物体の検出ボックスの左上隅の横座標であり、ay1は、最初の物体の検出ボックスの左上隅の縦座標であり、ax2は、最初の物体の検出ボックスの右下隅の横座標であり、ay2は、最初の物体の検出ボックスの右下隅の縦座標であり、bx1は、2番目の物体の検出ボックスの左上隅の横座標であり、by1は、2番目の物体の検出ボックスの左上隅の縦座標であり、bx2は、2番目の物体の検出ボックスの右下隅の横座標であり、by2は、2番目の物体の検出ボックスの右下隅の縦座標である。次に、RoI Alignアルゴリズムを使用して、3つの領域から特徴(ax1,ay2,ax2,ay2),(bx1,by1,bx2,by2),(min(ax1,bx1),min(ay1,by1),max(ax2,bx2),max(ay2,by2))を抽出する。RoI Alignアルゴリズムにより各領域から取得した特徴次元はすべて256*7*7であるため、3つの256*7*7の特徴マップを取得する。連結後、768*7*7の次元の特徴マップを取得でき、これは、オブジェクトグループノードのノード特徴として使用される。したがって、シーン異種グラフには、これらのN*(N-1)個のオブジェクトグループノードが含まれ、各オブジェクトグループノードの特徴次元は、768*7*7である。
【0094】
グラフ内の3つのタイプのノードのノード特徴を決定した後、各タイプのノード間で有向辺を確立する必要がある。異なる異種ノード間で有向辺を作成する方式もたくさんあり得、以下では、2つの方式を例として示す。
【0095】
[有向辺の作成方式1]
すべての画素ノードをすべてのオブジェクトグループノードに接続して、H*W*N*(N-1)個の有向辺を取得する。すべての物体ノードを2つずつ接続して、N*(N-1)個の有向辺を取得する。すべての物体ノードと、それに対応するオブジェクトグループノード(すなわち、このオブジェクトグループノード内の主体又は客体は、当該物体である)を接続して、2*N*(N-1)個の有向辺を取得する。
【0096】
[有向辺の作成方式2]
すべての画素ノードをすべての物体ノードに接続して、H*W*N個の有向辺を取得する。すべての物体ノードのうちの2つの物体ノードをそれぞれ接続して、N*(N-1)個の有向辺を取得する。すべての物体ノードと、それに対応するオブジェクトグループノード(すなわち、このオブジェクトグループノード内の主体又は客体は、当該物体である)を接続して、2*N*(N-1)個の有向辺を取得する。
【0097】
上記の有向辺の作成方式では、画素ノードのノード特徴は、オブジェクトグループノードに直接伝送されるのではなく、物体ノードに伝送されてから、物体ノードによってオブジェクトグループノードに伝送される。このように、物体ノードを中継点として使用すると、物体ノードの数が比較的少ないため、情報の伝送量を減らし、伝送効率を向上させることができる。
【0098】
上記の2つの方式で説明したように、ノードを接続する辺は有向辺であり、例えば、その1つの画素ノードVpixを1つの物体ノードVinstに接続する場合、当該有向辺は、画素ノードVpixから物体ノードVinstを指向し、始点は画素ノードVpixであり、終点は物体ノードVinstである。
【0099】
画素ノード、物体ノード、及びオブジェクトグループノードの数は複数であり得、それに対応して、上記の3つのタイプの有向辺の数も複数であり得る。これらの3つのタイプの有向辺の集合は、次のように表すことができる。
【0100】
【0101】
また、有向辺を作成する方式は、上記の2つの方式に限らず、適切に調整することができる。例えば、物体ノード間の接続辺を削除したり、人体キーポイントのノードがある場合、人体キーポイントのノードと物体ノード(人体検出ボックス)との間の接続辺を追加したりすることができる。別の例では、物体ノードをオブジェクトグループノードに接続した後、当該オブジェクトグループノードを当該物体ノードに接続することによって、複数回の最適化を行うことができる。例えば、特定のオブジェクトグループノードVpairのノード特徴が更新した後、それを始点として使用して、それに接続された物体ノードを更新し続け、次に、当該物体ノードが更新された後、再び、上記のオブジェクトグループノードVpairを更新する。
【0102】
有向辺がどのように作成されても、当該シーン異種グラフのノード特徴を更新する場合、最終的に取得するノード特徴は、オブジェクトグループノードの特徴であり、当該オブジェクトグループノードのノード特徴に従ってオブジェクト関係の予測結果を取得する。したがって、シーン異種グラフには、オブジェクトグループノードを最終の終点とした情報伝送チェーンが存在する。
【0103】
図4に示されるように(
図4は単純な例示にすぎず、実際の実施におけるノードの数は比較的に多い)、オブジェクトグループノード41を例にとると、上記の情報伝送チェーンは、以下の3つの有向辺グループを含む:
(第1有向辺グループ):物体ノード42を目標ノードとし、画素ノード43、44、45を各補助ノードとし、各補助ノードのノード特徴に従って物体ノード42のノード特徴を更新する。更新方式は、前述の式に基づくことができ、例えば、再重み付けベクトルと残差ベクトルを算出し、これらのベクトルのチャネル次元は、物体ノード42のチャネル次元と同じであり、物体ノード42に対してチャネルレベルの更新を実行する。
【0104】
(第2有向辺グループ):物体ノード46を目標ノードとし、画素ノード47及び48を各補助ノードとし、各補助ノードのノード特徴に従って物体ノード46のノード特徴を更新する。更新方式は、前述の式に基づくことができ、ここでは繰り返して説明しない。
【0105】
(第3有向辺グループ):オブジェクトグループノード41を目標ノードとし、物体ノード42及び46を各補助ノードとし、各補助ノードのノード特徴に従ってオブジェクトグループノード41のノード特徴を更新する。
【0106】
上記のように、多くの異種ノードを含むシーン異種グラフでは、各有向辺グループ内の終点のノード特徴を順番に逐次更新でき、各有向辺グループは、オブジェクトグループノードのノード特徴が最終的に更新されるまで、始点から終点に収束する。
【0107】
オブジェクトグループノードのノード特徴を取得した後、当該更新後のオブジェクトグループノードのノード特徴に基づいて、前記オブジェクトグループノード内の2つのオブジェクト間の関係の予測結果、すなわち、HOIの関係予測を取得する。例えば、下記式に従って初期分類信頼度を取得できる。
【0108】
【0109】
ここで、MLPは多層パーセプトロンであり、syは、更新後のオブジェクトグループノードのノード特徴fyに従って得られた初期分類信頼度のベクトルであり、前記初期分類信頼度は、前記オブジェクトグループノードがそれぞれの所定関係カテゴリに対応する信頼度を含み、当該ベクトルsyの次元はCclass+1であり、ここで、Cclassは、所定関係カテゴリの数であり、1は「no action」である。例えば、オブジェクトグループノードに対応する2つのオブジェクトの1つは人であり、もう1つはテニスボールであり、この2つのオブジェクト間の関係は「打ち」であり、つまり、人がテニスをし、「打ち」(hit)は、所定関係カテゴリであり、同様に、他の関係も有し得、syは、各関係の信頼度を含む。
【0110】
次に、前記初期分類信頼度及びオブジェクト検出信頼度に基づいて、前記2つのオブジェクト間の関係の予測結果を取得できる。
【0111】
【0112】
ここで、cは、特定の所定関係カテゴリを表し、yは、特定のオブジェクトグループノードを表し、
は、前記所定関係カテゴリc上の当該オブジェクトグループノードの信頼度であり、それは、オブジェクトグループノード内の2つのオブジェクト間の関係が前記所定関係カテゴリcである確率に相当する。
は、s
yベクトルにおいて所定関係カテゴリcに対応する信頼度値であり、
と
はそれぞれ、オブジェクトグループノード内の2つのオブジェクトのそれぞれに対応するオブジェクト検出信頼度であり、例えば、
は、人体ボックスの検出信頼度であり、
は物体ボックスの検出信頼度である。実際の状況では、オブジェクト検出器(object detector)を介して、シーン画像内のオブジェクトを検出でき、例えば、人体又は物体を顕出でき、対応する人体ボックス又は物体ボックスを取得し、同時に、当該オブジェクト検出器は、検出スコア(detection scores)(オブジェクト検出信頼度とも呼ばれ得る)を出力することもできる。検出ボックスの不完全により、誤検出や低検出精度などの状況が発生する場合があるため、検出ボックスも、対応する信頼度(すなわち、上記のオブジェクト検出信頼度)を有する。
【0113】
実際の実施では、オブジェクト関係の予測結果の閾値を設定でき、特定のオブジェクトグループノードについては、最終的な予測結果がこの閾値に達した場合にのみ、当該オブジェクトグループノードの2つのオブジェクト間にそのような関係があると決定する。
【0114】
1つのシーン画像を例にとると、当該シーン画像内のすべてのpairをトラバースすることができ、例えば、すべての人と物体をペアリングして、オブジェクトグループノードを生成する。その後、オブジェクトグループノードごとに、上記の方式に応じて当該オブジェクトグループノードがそれぞれの所定関係カテゴリにそれぞれ対応する信頼度を取得し、閾値を超える信頼度を有するオブジェクトグループノードを、シーン画像から識別されたHOI関係であると決定する。
【0115】
上記の各実施例におけるHOI関係の検出は、様々な用途を有し得る。
【0116】
例えば、スマートシティでの異常行動検出において、当該方法により、人と人との間の暴力事件が発生したが否か、又は誰かが店を壊しているか否かなどをより良く判断することができる。
【0117】
別の例として、スーパーマーケットで買い物をするシーンでは、当該方法により、スーパーマーケットで収集された画像を処理することで、各人が購入したものや気になる商品を自動分析することができる。
【0118】
図5は、シーン情報の検出装置を示し、
図5に示されるように、当該装置は、特徴処理モジュール51と、特徴更新モジュール52と、情報決定モジュール53とを備える。
【0119】
特徴処理モジュール51は、シーン異種グラフの目標ノードに接続された各補助ノードのノード特徴に基づいて、伝播されるべき集約特徴を取得するように構成され、前記集約特徴の特徴次元はCy*1であり、ここで、前記Cyは、前記集約特徴のチャネル次元であり、前記Cyは目標ノードのノード特徴のチャネル次元と同じであり、ここで、前記シーン異種グラフは、少なくとも2つのタイプの異種ノードを含み、前記少なくとも2つのタイプの異種ノードは、前記補助ノードと、前記シーン画像に基づいて取得された前記目標ノードと、を含む。
【0120】
特徴更新モジュール52は、前記集約特徴に基づいて、前記目標ノードのノード特徴を更新するように構成される。
【0121】
情報決定モジュール53は、更新後の前記目標ノードのノード特徴に基づいて、前記シーン画像におけるシーン情報を取得するように構成される。
【0122】
いくつかの実施例では、前記特徴更新モジュール52が、前記集約特徴に基づいて前記目標ノードのノード特徴を更新するように構成されることは、前記特徴更新モジュール52が、前記集約特徴の各チャネルのチャネル特徴に基づいて、前記チャネル特徴を使用して、前記目標ノードのノード特徴において各チャネルに対応するすべての特徴位置に対して特徴更新処理を実行するように構成されることを含む。
【0123】
いくつかの実施例では、前記特徴処理モジュール51は、具体的に、シーン異種グラフの目標ノードに接続された各補助ノードのノード特徴に基づいて、再重み付けベクトルと残差ベクトルのうちの少なくとも1つを前記集約特徴として取得するように構成される。
【0124】
前記特徴更新モジュール52は、具体的に、前記再重み付けベクトルに基づいて目標ノードのノード特徴の各チャネルに対して乗算処理を実行し、及び/又は、前記残差ベクトルによって目標ノードのノード特徴の各チャネルに対して加算処理を実行するように構成される。
【0125】
いくつかの実施例では、前記特徴処理モジュール51が、再重み付けベクトルと残差ベクトルのうちの少なくとも1つを前記集約特徴として取得するように構成されることは、前記特徴処理モジュール51が、活性化関数と前記目標ノードのノード特徴の標準偏差を使用して、前記残差ベクトルの値を所定の数値区間にマッピングして、集約特徴として使用するように構成されることを含む。
【0126】
いくつかの実施例では、前記目標ノードは、オブジェクトグループノードを含み、前記オブジェクトグループは、前記シーン画像内の2つのオブジェクトを含み、前記情報決定モジュール53は、具体的に、更新後のオブジェクトグループノードのノード特徴に基づいて、前記オブジェクトグループノード内の2つのオブジェクト間の関係の予測結果を取得するように構成される。
【0127】
いくつかの実施例では、前記シーン異種グラフは、終点として1つのオブジェクトグループノードを持つ情報伝送チェーンを含み、前記情報伝送チェーンは、少なくとも2つの有向辺グループを含み、各有向辺グループは、複数の始点から同一の終点を指向する複数の有向辺を含み、前記情報伝送チェーンの各始点と終点は、少なくとも2つのタイプの前記異種ノードを含み。前記特徴処理モジュール51は、前記少なくとも2つの有向辺グループのうちの第1有向辺グループについて、前記第1有向辺グループが指向する同一の第1終点を前記目標ノードとして、前記第1終点に接続される各始点のノード特徴に従って集約特徴を取得し、前記第1終点は、同時に、前記少なくとも2つの有向辺グループのうちの第2有向辺グループ内の1つの始点として使用され、前記第2有向辺グループについて、前記第2有向辺グループが指向する同一の第2終点を前記目標ノードとして、前記第2終点に接続される各始点のノード特徴に従って集約特徴を取得するように構成される。前記特徴更新モジュール52は、前記第1終点に接続される各始点のノード特徴に従って得られた集約特徴に基づいて、前記第1終点のノード特徴を更新し、及び前記第2終点に接続される各始点のノード特徴に従って得られた集約特徴に基づいて、前記第2終点のノード特徴を更新するように構成される。
【0128】
いくつかの実施例では、前記少なくとも2つの有向辺グループのうちの1つの前記有向辺グループの始点と終点について、
前記始点は、前記シーン画像から特徴を抽出することによって取得された各画素ノードを含み、前記終点は、前記シーン画像から抽出された物体ノードであり、
又は、前記始点と終点の両方が、前記シーン画像から抽出された物体ノードを含み、
又は、前記始点は、前記シーン画像から抽出された物体ノードを含み、前記終点は、前記オブジェクトグループノードを含み、
又は、前記始点は前記オブジェクトグループノードを含み、前記終点は前記物体ノードを含む。
【0129】
いくつかの実施例では、前記各補助ノードは、複数の画素ノードを含み、
前記特徴処理モジュール51は、更に、
前記シーン画像に従って特徴抽出を実行して、複数の特徴マップを取得し、前記複数の特徴マップは、それぞれ異なるサイズを有し、前記複数の特徴マップを同じサイズにスケーリングしてから融合して、融合特徴マップを取得し、前記融合特徴マップに基づいて、複数の前記画素ノードのノード特徴を取得するように構成される。
【0130】
いくつかの実施例では、情報決定モジュール53が、更新後のオブジェクトグループノードのノード特徴に基づいて、前記オブジェクトグループノード内の2つのオブジェクト間の関係の予測結果を取得するように構成されることは、前記情報決定モジュール53が、前記オブジェクトグループノードのノード特徴に基づいて、予測された初期分類信頼度を取得し、前記初期分類信頼度は、前記オブジェクトグループノードがそれぞれの所定関係カテゴリに対応する初期分類信頼度を含み、前記オブジェクトグループノードが前記それぞれの所定関係カテゴリうちの1つのターゲットの所定関係カテゴリに対応する初期分類信頼度と、前記オブジェクトグループノード内の2つのオブジェクトにそれぞれ対応するオブジェクト検出信頼度とに基づいて、前記オブジェクトグループノード内の2つのオブジェクトが前記ターゲットの所定関係カテゴリに対応する信頼度を取得し、前記信頼度がプリセットされた信頼度閾値より大きいか等しい場合、前記オブジェクトグループノード内の2つのオブジェクト間の関係の予測結果が、前記ターゲットの所定関係カテゴリであると決定するように構成される。
【0131】
図6は、別のシーン情報の検出装置を示し、当該装置は画像処理機器に適用され、
図6に示されるように、前記装置は、画像取得モジュール61と、情報出力モジュール62とを備える。
【0132】
画像取得モジュール61は、画像収集機器によって収集されたシーン画像を取得するように構成され、
情報出力モジュール62は、本願の任意の実施例における検出方法により前記シーン画像を処理して、前記シーン画像におけるシーン情報を出力するように構成される。
【0133】
当業者なら自明であるが、本願の1つ又は複数の実施例は、方法、システム、又はコンピュータプログラム製品として提供され得る。したがって、本願の1つ又は複数の実施例は、完全ハードウェア実施例、完全ソフトウェア実施例、又はソフトウェアとハードウェアの組み合わせた実施例の形を採用することができる。更に、本願の1つ又は複数の実施例は、コンピュータ可読プログラムコードが記憶された、1つ又は複数のコンピュータ可読記憶媒体(磁気ディスクストレージ、CD-ROM、光ストレージなどを含むが、これらに限定されない)で実装されるコンピュータプログラム製品の形を採用することができる。
【0134】
本願の一実施例は、コンピュータ可読記憶媒体を更に提供し、当該コンピュータ可読記憶媒体には、コンピュータプログラムが記憶されており、前記コンピュータプログラムがプロセッサによって実行されるときに、本願の任意の実施例におけるシーン情報の検出方法を実現する。
【0135】
本願の一実施例は、電子機器を更に提供し、当該電子機器は、メモリと、プロセッサとを備え、前記メモリには、コンピュータ可読命令が記憶されており、前記プロセッサは、前記コンピュータ可読命令を呼び出して実行することにより、本願の任意の実施例におけるシーン情報の検出方法を実現する。
【0136】
ここで、本願の一実施例に記載の「及び/又は」は、両者のうちの少なくとも1つを含むことを意味し、例えば、「A1及び/又はA2」は、A1のみが存在し、A2のみが存在し、A1及びA2が同時に存在するという3つの状況を含む。
【0137】
本願の各実施例は、漸進的に説明されており、各実施例間の同じ又は類似の部分は、互いに参照でき、各実施例は、他の実施例との違いに焦点を合わせている。特に、シーン情報の検出装置については、基本的に方法の実施例と類似しているため、その説明は比較的簡単であり、関連する部分については、方法の実施例の関連する部分の説明を参照されたい。
【0138】
以上は、本願の特定の実施例について説明してきた。他の実施例は、特許請求の範囲内に含まれる。場合によっては、特許請求の範囲に記載の動作又はステップは、実施例とは異なる順序で実行でき、依然として望ましい結果を達成することができる。更に、図面に示されているプロセスは、望ましい結果を達成するために、必ずしも示されている特定の順序又は連続順序を必要としない。いくつかの実施形態では、マルチタスクと並列処理も可能であるか、有利な場合がある。
【0139】
本願で説明される主題および機能的操作の実施例は、デジタル電子回路、具現化されたコンピュータソフトウェアまたはファームウェア、本願で開示される構造およびそれらの構造的同等物を含むコンピュータハードウェア、又はそれらの1つまたは複数の組み合わせで実現できる。本願で説明される主題の実施例は、1つ又は複数のコンピュータプログラムとして実装でき、つまり、データ処理装置によってデータ処理装置の操作を実行又は制御するために、有形の非一時的プログラムキャリアに符号化されたコンピュータプログラム命令における1つ又は複数のモジュールとして実装できる。代替的または追加的に、プログラム命令は、人工的に生成された伝播信号(例えば、機器によって生成された電気的、光学的または電磁的信号など)にエンコードすることができ、当該信号は、情報を符号化して、データ処理装置による実行のために適切な受信機装置に伝送するために生成される。コンピュータ記憶媒体は、機械可読記憶装置、機械可読記憶基板、ランダムまたはシリアルアクセスメモリデバイス、又はこれらの1つまたは複数の組み合わせであり得る。
【0140】
本願で説明される処理及び論理フローは、1つ又は複数のコンピュータプログラムを実行する1つ又は複数のプログラム可能なコンピュータによって実行でき、これにより、入力データに従って操作を実行して出力を生成することで対応する機能を実行できる。前記処理および論理フローは、専用論理回路によって実行でき、例えば、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array、FPGA)又は特定用途向け集積回路(Application Specific Integrated Circuit、ASIC)によって実行でき、また、装置も、専用論理回路として実装することができる。
【0141】
コンピュータプログラムの実行に適したコンピュータは、例えば、汎用及び/又は専用マイクプロセッサ、又は任意の他のタイプの中央処理装置(CPU)を含む。通常、中央処理装置は、読み取り専用メモリ及び/又はランダムアクセスメモリから命令とデータを受信する。コンピュータの基本的なコンポーネントは、命令を実装または実行するための中央処理装置と、命令及びデータを記憶するための1つ又は複数のストレージデバイスを含む。通常、コンピュータは更に、データを記憶するための1つ又は複数の大容量ストレージデバイスを含み、例えば、磁気ディスク、磁気光学ディスク又は光ディスクなどを含み得、又は、コンピュータは、大容量ストレージデバイスに操作可能に結合されて、それからデータを受信するか、それにデータを伝送するか、又は、その両方を行う。ただし、コンピュータは、そのような機器を備えなくても構わない。更に、コンピュータは、別の機器に組み込まれることができ、例えば、携帯電話、携帯情報端末(Personal Digital Assistant、PDA)、モバイルオーディオまたはビデオプレーヤ、ゲームコンソール、全地球測位システム(Global Positioning System、GPS)受信機、又はユニバーサルシリアルバス(Universal Serial Bus、USB)フラッシュドライブなどのポータブルストレージデバイスなどに組み込まれることができる。
【0142】
コンピュータプログラム命令及びデータの記憶に適したコンピュータ可読媒体は、あらゆる形の不揮発性メモリ、媒体、およびストレージデバイスを含み、例えば、半導体ストレージデバイス、磁気ディスク(例えば、内蔵ハードディスクまたはリムーバブルディスク)、磁気光学ディスク、CD-ROMおよびDVD-ROMディスクを含む。ここで、半導体ストレージデバイスは、消去可能プログラマブル読み取り専用メモリ(Erasable Programmable Read-Only Memory、EPROM)、電気的消去可能プログラマブル読み取り専用メモリ(Electrically Erasable Programmable Read Only Memory、EEPROM)、及びフラッシュメモリデバイスであり得る。プロセッサとメモリは、専用論理回路によって補完されるか、専用論理回路に組み込まれることができる。
【0143】
本願は多くの具体的な実施詳細を含むが、これらは、開示の範囲または主張されている保護範囲を制限するものとして解釈されるべきではなく、特定の開示された特定の実施例の特徴を説明するためのものである。本願の複数の実施例で説明された特定の特徴はまた、単一の実施例で組み合わせて実施できる。一方、単一の実施例で説明された様々な特徴はまた、複数の実施例で別々に実施するか、又は任意の適切なサブ組合せで実施できる。更に、特徴は、上記のように、特定の組み合わせで機能し、元々そのように主張されていても、主張された組み合わせからの1つ又は複数の特徴は、場合によっては、組み合わせから排除でき、主張された組み合わせは、サブ組合せ又はサブ組合せの変形を指すことができる。
【0144】
同様に、図面において、操作は特定の順序で図示されているが、これは、望ましい結果を達成するために、図示された特定の順序でこれらの操作を実行する必要がある、又は図示されたすべての操作を実行する必要があると解釈されるべきではない。場合によっては、マルチタスクと並列処理が有利な場合がある。更に、上記の実施例における様々なシステムモジュールおよびコンポーネントの分離は、すべての実施例においてそのような分離を必要とするものとして解釈されるべきではなく、説明されたプログラムコンポーネントおよびシステムは、一般に、単一のソフトウェア製品に統合されるか、又は複数のソフトウェア製品にパッケージ化され得ることを理解されたい。
【0145】
これまで、主題の特定の実施例が説明されてきた。他の実施例は、特許請求の範囲内に含まれる。場合によっては、特許請求の範囲に記載の動作は、異なる順序で実行することができ、それでも望ましい結果を達成することができる。更に、図面に示される処理は、望ましい結果を達成するために、必ずしも示されている特定の順序で実行する必要はない。特定の実現では、マルチタスクと並列処理が有利な場合がある。
【0146】
上記の説明は、本願の1つ又は複数の実施例の好ましい実施例にすぎず、本願の1つ又は複数の実施例を限定することを意図するものではない。本願の1つ又は複数の実施例の精神及び原則内で行われるいかなる修正、同等置換、改善なども、すべて本願の保護範囲に含まれるものとする。
【産業上の利用可能性】
【0147】
本願の実施例は、シーン情報の検出方法及びその装置、電子機器、コンピュータ可読記憶媒体、並びにコンピュータプログラムを提供し、当該方法は、シーン異種グラフの目標ノードに接続された各補助ノードのノード特徴に基づいて、特徴次元がCy*1である、伝播されるべき集約特徴を取得することであって、Cyは集約特徴のチャネル次元であり、Cyは目標ノードのノード特徴のチャネル次元と同じであり、ここで、シーン異種グラフは、少なくとも2つのタイプの異種ノードを含み、当該少なくとも2つのタイプの異種ノードは、補助ノードと、シーン画像に基づいて取得された目標ノードと、を含む、ことと、集約特徴に基づいて目標ノードのノード特徴を更新することと、更新後の目標ノードのノード特徴に基づいて、シーン画像のシーン情報を取得することと、を含む。
【手続補正書】
【提出日】2022-05-23
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
シーン情報の検出方法であって、
シーン異種グラフの目標ノードに接続された各補助ノードのノード特徴に基づいて、伝播されるべき集約特徴を取得することであって、前記集約特徴の特徴次元はC
y*1であり、前記C
yは前記集約特徴のチャネル次元であり、前記C
yは目標ノードのノード特徴のチャネル次元と同じであり、前記シーン異種グラフは、少なくとも2つのタイプの異種ノードを含み、前記少なくとも2つのタイプの異種ノードは、前記補助ノードと、前記シーン画像に基づいて取得された前記目標ノードと、を含む、ことと、
前記集約特徴に基づいて、前記目標ノードのノード特徴を更新することと、
更新後の前記目標ノードのノード特徴に基づいて、前記シーン画像におけるシーン情報を取得することと、を含む、シーン情報の検出方法。
【請求項2】
前記集約特徴に基づいて、前記目標ノードのノード特徴を更新することは、
前記集約特徴の各チャネルのチャネル特徴に基づいて、前記チャネル特徴を使用して、前記目標ノードのノード特徴において前記各チャネルに対応するすべての特徴位置に対して特徴更新処理を実行することを含む、
請求項1に記載のシーン情報の検出方法。
【請求項3】
前記シーン異種グラフの目標ノードに接続された各補助ノードのノード特徴に基づいて、伝播されるべき集約特徴を取得することは、
前記シーン異種グラフの目標ノードに接続された各補助ノードのノード特徴に基づいて、再重み付けベクトルと残差ベクトルのうちの少なくとも1つを前記集約特徴として取得することを含み、
前記集約特徴に基づいて、前記目標ノードのノード特徴を更新することは、前記再重み付けベクトルに基づいて目標ノードのノード特徴の各チャネルに対して乗算処理を実行すること、及び/又は、前記残差ベクトルによって目標ノードのノード特徴の各チャネルに対して加算処理を実行することを含む、
請求項1に記載のシーン情報の検出方法。
【請求項4】
前記再重み付けベクトルと残差ベクトルのうちの少なくとも1つを前記集約特徴として取得することは、
活性化関数と前記目標ノードのノード特徴の標準偏差を使用して、前記残差ベクトルの値を所定の数値区間にマッピングして、集約特徴として使用することを含む、
請求項3に記載のシーン情報の検出方法。
【請求項5】
前記目標ノードは、オブジェクトグループノードを含み、前記オブジェクトグループは、前記シーン画像内の2つのオブジェクトを含み、
前記更新後の前記目標ノードのノード特徴に基づいて、前記シーン画像におけるシーン情報を取得することは、更新後のオブジェクトグループノードのノード特徴に基づいて、前記オブジェクトグループノード内の2つのオブジェクト間の関係の予測結果を取得することを含み、前記シーン情報は前記予測結果を含む、
請求項1ないし4のいずれか一項に記載のシーン情報の検出方法。
【請求項6】
前記シーン異種グラフは、終点として1つのオブジェクトグループノードを持つ情報伝送チェーンを含み、前記情報伝送チェーンは、少なくとも2つの有向辺グループを含み、各有向辺グループは、複数の始点から同一の終点を指向する複数の有向辺を含み、前記情報伝送チェーンの各始点と終点は、少なくとも2つのタイプの前記異種ノードを含み、
前記目標ノードに接続された各補助ノードのノード特徴に基づいて、伝播されるべき集約特徴を取得し、前記集約特徴に基づいて、前記目標ノードのノード特徴を更新することは、
前記少なくとも2つの有向辺グループのうちの第1有向辺グループについて、前記第1有向辺グループが指向する同一の第1終点を前記目標ノードとして、前記第1終点に接続される各始点のノード特徴に従って集約特徴を取得し、前記集約特徴に基づいて前記第1終点のノード特徴を更新することであって、前記第1終点は、同時に、前記少なくとも2つの有向辺グループのうちの第2有向辺グループ内の1つの始点として使用される、ことと、
前記第2有向辺グループについて、前記第2有向辺グループが指向する同一の第2終点を前記目標ノードとして、前記第2終点に接続される各始点のノード特徴に従って集約特徴を取得し、前記集約特徴に基づいて前記第2終点のノード特徴を更新することと、を含む、
請求項5に記載のシーン情報の検出方法。
【請求項7】
前記少なくとも2つの有向辺グループのうちの1つの前記有向辺グループの始点と終点について、
前記始点は、前記シーン画像から特徴を抽出することによって取得された各画素ノードを含み、前記終点は、前記シーン画像から抽出された物体ノードであり、
又は、前記始点と終点の両方が、前記シーン画像から抽出された物体ノードを含み、
又は、前記始点は、前記シーン画像から抽出された物体ノードを含み、前記終点は、前記オブジェクトグループノードを含み、
又は、前記始点は前記オブジェクトグループノードを含み、前記終点は前記物体ノードを含む、
請求項6に記載のシーン情報の検出方法。
【請求項8】
前記各補助ノードは、複数の画素ノードを含み、前記シーン情報の検出方法は、
前記シーン画像に従って特徴抽出を実行して、複数の特徴マップを取得することであって、前記複数の特徴マップは、それぞれ異なるサイズを有する、ことと、
前記複数の特徴マップを同じサイズにスケーリングしてから融合して、融合特徴マップを取得することと、
前記融合特徴マップに基づいて、複数の前記画素ノードのノード特徴を取得することと、を更に含む、
請求項1に記載のシーン情報の検出方法。
【請求項9】
前記更新後のオブジェクトグループノードのノード特徴に基づいて、前記オブジェクトグループノード内の2つのオブジェクト間の関係の予測結果を取得することは、
前記オブジェクトグループノードのノード特徴に基づいて、予測された初期分類信頼度を取得することであって、前記初期分類信頼度は、前記オブジェクトグループノードがそれぞれの所定関係カテゴリに対応する初期分類信頼度を含む、ことと、
前記オブジェクトグループノードが前記それぞれの所定関係カテゴリうちの1つのターゲットの所定関係カテゴリに対応する初期分類信頼度と、前記オブジェクトグループノード内の2つのオブジェクトにそれぞれ対応するオブジェクト検出信頼度とに基づいて、前記オブジェクトグループノード内の2つのオブジェクトが前記ターゲットの所定関係カテゴリに対応する信頼度を取得する、ことと、
前記信頼度がプリセットされた信頼度閾値より大きいか等しい場合、前記オブジェクトグループノード内の2つのオブジェクト間の関係の予測結果が、前記ターゲットの所定関係カテゴリであると決定することと、を含む、
請求項5に記載のシーン情報の検出方法。
【請求項10】
画像処理機器によって実行されるシーン情報の検出方法であって、
画像収集機器によって収集されたシーン画像を取得することと、
請求項1ないし9のいずれか一項に記載のシーン情報の検出方法により前記シーン画像を処理して、前記シーン画像におけるシーン情報を出力することと、を含む、シーン情報の検出方法。
【請求項11】
シーン情報の検出装置であって、
シーン異種グラフの目標ノードに接続された各補助ノードのノード特徴に基づいて、伝播されるべき集約特徴を取得するように構成される特徴処理モジュールであって、前記集約特徴の特徴次元はC
y*1であり、前記C
yは、前記集約特徴のチャネル次元であり、前記C
yは目標ノードのノード特徴のチャネル次元と同じであり、前記シーン異種グラフは、少なくとも2つのタイプの異種ノードを含み、前記少なくとも2つのタイプの異種ノードは、前記補助ノードと、前記シーン画像に基づいて取得された前記目標ノードと、を含む、特徴処理モジュールと、
前記集約特徴に基づいて、前記目標ノードのノード特徴を更新するように構成される特徴更新モジュールと、
更新後の前記目標ノードのノード特徴に基づいて、前記シーン画像におけるシーン情報を取得するように構成される情報決定モジュールと、を備える、シーン情報の検出装置。
【請求項12】
画像処理機器に適用されるシーン情報の検出装置であって、
画像収集機器によって収集されたシーン画像を取得するように構成される画像取得モジュールと、
請求項1ないし9のいずれか一項に記載のシーン情報の検出方法により前記シーン画像を処理して、前記シーン画像におけるシーン情報を出力するように構成される情報出力モジュールと、を備える、シーン情報の検出装置。
【請求項13】
電子機器であって、
コンピュータ可読命令を記憶するメモリと、
前記コンピュータ可読命令を呼び出して、請求項1ないし9のいずれか一項に記載のシーン情報の検出方法、又は請求項10に記載のシーン情報の検出方法を実行するプロセッサと、を備える、電子機器。
【請求項14】
コンピュー
タに請求項1ないし9のいずれか一項に記載のシーン情報の検出方法、又は請求項10に記載のシーン情報の検出方法を実行させる
ためのコンピュータプログラムを記憶した、コンピュータ可読記憶媒体。
【請求項15】
コンピュー
タに請求項1ないし9のいずれか一項に記載のシーン情報の検出方法、又は請求項10に記載のシーン情報の検出方法を実行させる、コンピュータプログラム。
【国際調査報告】