IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ エヌイーシー ラボラトリーズ アメリカ インクの特許一覧

特表2024-526039分析を向上させるためにカメラパラメータを調整するための強化学習ベースシステム
<>
  • 特表-分析を向上させるためにカメラパラメータを調整するための強化学習ベースシステム 図1
  • 特表-分析を向上させるためにカメラパラメータを調整するための強化学習ベースシステム 図2
  • 特表-分析を向上させるためにカメラパラメータを調整するための強化学習ベースシステム 図3
  • 特表-分析を向上させるためにカメラパラメータを調整するための強化学習ベースシステム 図4
  • 特表-分析を向上させるためにカメラパラメータを調整するための強化学習ベースシステム 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-07-17
(54)【発明の名称】分析を向上させるためにカメラパラメータを調整するための強化学習ベースシステム
(51)【国際特許分類】
   H04N 23/61 20230101AFI20240709BHJP
   G06T 7/80 20170101ALI20240709BHJP
   G06T 7/00 20170101ALI20240709BHJP
【FI】
H04N23/61
G06T7/80
G06T7/00 350B
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023574224
(86)(22)【出願日】2022-05-27
(85)【翻訳文提出日】2024-01-23
(86)【国際出願番号】 US2022031279
(87)【国際公開番号】W WO2022256246
(87)【国際公開日】2022-12-08
(31)【優先権主張番号】63/196,399
(32)【優先日】2021-06-03
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】17/825,519
(32)【優先日】2022-05-26
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.JAVA
(71)【出願人】
【識別番号】504080663
【氏名又は名称】エヌイーシー ラボラトリーズ アメリカ インク
【氏名又は名称原語表記】NEC Laboratories America, Inc.
(74)【代理人】
【識別番号】100123788
【弁理士】
【氏名又は名称】宮崎 昭夫
(74)【代理人】
【識別番号】100127454
【弁理士】
【氏名又は名称】緒方 雅昭
(72)【発明者】
【氏名】ラオ、 クナル
(72)【発明者】
【氏名】コヴィエロ、 ジュゼッペ
(72)【発明者】
【氏名】サンカラダス、 ムルガン
(72)【発明者】
【氏名】ポ、 オリバー
(72)【発明者】
【氏名】チャクラッダー、 スリマット
(72)【発明者】
【氏名】ポール、 シベンデュ
【テーマコード(参考)】
5C122
5L096
【Fターム(参考)】
5C122DA03
5C122EA55
5C122EA67
5C122FA18
5C122FG13
5C122FH11
5C122FH23
5C122HA13
5C122HA35
5C122HB01
5C122HB09
5C122HB10
5L096AA06
5L096BA02
5L096CA05
5L096DA02
5L096FA02
5L096FA69
5L096HA09
5L096JA11
5L096JA22
5L096KA04
5L096KA15
5L096MA01
(57)【要約】
環境条件の継続的な変化を通してビデオ分析精度を向上させるためにカメラパラメータを自動的に変更するための方法が提示される。本方法は、複数のカメラからビデオストリームを取り込み、分析ユニット(AU)として定義されるビデオ分析タスクをビデオストリームに実行し、ビデオストリームに画像処理を適用して処理済みのフレームを取得し、低品質のフレームを破棄するために、処理済みのフレームをフィルタに通してフィルタリングし、複数のカメラのパラメータを動的に微調整することを含む。本微調整は、フィルタリングされたフレームをAU固有のプロキシ品質評価器に渡し、SARSA(State-Action-Reward-State-Action)強化学習計算を用いて、複数のカメラのパラメータを自動的に微調整し、強化計算に基づいて、エージェントがアクションを実行し、報酬の最大化を学習するための新しいポリシーを適用することを含む。
【選択図】図5
【特許請求の範囲】
【請求項1】
環境条件の継続的な変化を通してビデオ分析精度を向上させるためにカメラパラメータを自動的に変更するための方法であって、
複数のカメラからビデオストリームを取り込み(1001)、
分析ユニット(AU)として定義されるビデオ分析タスクを前記ビデオストリームに実行し(1003)、
前記ビデオストリームに画像処理を適用して処理済みのフレームを取得し(1005)、
低品質のフレームを破棄するために、前記処理済みのフレームをフィルタに通してフィルタリングし(1007)、
前記フィルタリングされたフレームをAU固有のプロキシ品質評価器に渡し、状態-アクション-報酬-状態-アクション(SARSA:State-Action-Reward-State-Action)強化学習(RL)計算を用いて、前記複数のカメラのパラメータを自動的に微調整し、前記強化計算に基づいて、エージェントがアクションを実行し、報酬の最大化を学習するための新しいポリシーを適用することで、前記複数のカメラのパラメータを動的に微調整する(1009)、方法。
【請求項2】
仮想カメラ(VC)が、
前記ビデオストリームから取り込まれた全く同じシーンに、異なる環境特性を適用し、異なるカメラ設定で評価し、
RLアルゴリズム及びRLで使用される様々な報酬関数を迅速かつ個別に訓練及びテストするために使用される、請求項1に記載の方法。
【請求項3】
前記VCは、オフラインプロファイリング段階とオンライン段階とを含む、請求項2に記載の方法。
【請求項4】
前記オフラインプロファイリング段階を通してVCカメラテーブル及びマッピング関数が生成され、前記マッピング関数は、1日における特定の時間を、その時間で観測された対応する明るさ、コントラスト、彩度及びシャープネスの特徴値にマッピングする、請求項3に記載の方法。
【請求項5】
前記オンライン段階を通して取り込み時間以外の時間帯に対応する異なる環境条件のフレームがシミュレートされる、請求項3に記載の方法。
【請求項6】
前記AUのそれぞれに固有の分析品質(AQ)メトリックが、AU固有の品質評価器を訓練するために使用される、請求項1に記載の方法。
【請求項7】
実際の配備においてグラウンドトゥルースが存在しない場合、前記AU固有の品質評価器が、前記AUを評価するためのプロキシとして使用される、請求項6に記載の方法。
【請求項8】
前記SARSA RL計算は、状態、アクション及び報酬を含み、前記状態は、前記複数のカメラのうちのカメラの現在の明るさ、コントラスト、シャープネス及び色のパラメータ値を含むベクトル、並びに明るさ、コントラスト、シャープネス及び色の測定値であり、前記アクションは、明るさ、コントラスト、シャープネスまたは色のパラメータ値の1つを増減するか、まったくアクションを行わないことであり、前記報酬はAU固有の品質評価器の出力である、請求項1に記載の方法。
【請求項9】
環境条件の継続的な変化を通してビデオ分析精度を向上させるためにカメラパラメータを自動的に変更するためのコンピュータで読み取り可能なプログラムを含む、非一時的なコンピュータで読み取り可能な記録媒体であって、
前記コンピュータで読み取り可能なプログラムが前記コンピュータで実行されると、前記コンピュータに、
複数のカメラからビデオストリームを取り込ませ(1001)、
分析ユニット(AU)として定義されるビデオ分析タスクを前記ビデオストリームに実行させ(1003)、
前記ビデオストリームに画像処理を適用して処理済みのフレームを取得させ(1005)、
低品質のフレームを破棄するために、前記処理済みのフレームをフィルタに通してフィルタリングさせ(1007)、
前記フィルタリングされたフレームをAU固有のプロキシ品質評価器に渡し、状態-アクション-報酬-状態-アクション(SARSA:State-Action-Reward-State-Action)強化学習(RL)計算を用いて、前記複数のカメラのパラメータを自動的に微調整し、前記強化計算に基づいて、エージェントがアクションを実行し、報酬の最大化を学習するための新しいポリシーを適用することで、前記複数のカメラのパラメータを動的に微調整させる(1009)、非一時的なコンピュータで読み取り可能な記録媒体。
【請求項10】
仮想カメラ(VC)が、
前記ビデオストリームから取り込まれた全く同じシーンに、異なる環境特性を適用し、異なるカメラ設定で評価し、
RLアルゴリズム及びRLで使用される様々な報酬関数を迅速かつ個別に訓練及びテストするために使用される、請求項9に記載の非一時的なコンピュータで読み取り可能な記録媒体。
【請求項11】
前記VCは、オフラインプロファイリング段階とオンライン段階とを含む、請求項10に記載の非一時的なコンピュータで読み取り可能な記録媒体。
【請求項12】
前記オフラインプロファイリング段階を通してVCカメラテーブル及びマッピング関数が生成され、前記マッピング関数は、1日における特定の時間を、その時間で観測された対応する明るさ、コントラスト、彩度及びシャープネスの特徴値にマッピングする、請求項11に記載の非一時的なコンピュータで読み取り可能な記録媒体。
【請求項13】
前記オンライン段階を通して取り込み時間以外の時間帯に対応する異なる環境条件のフレームがシミュレートされる、請求項11に記載の非一時的なコンピュータで読み取り可能な記録媒体。
【請求項14】
前記AUのそれぞれに固有の分析品質(AQ)メトリックが、AU固有の品質評価器を訓練するために使用される、請求項9に記載の非一時的なコンピュータで読み取り可能な記録媒体。
【請求項15】
実際の配備においてグラウンドトゥルースが存在しない場合、前記AU固有の品質評価器が、前記AUを評価するためのプロキシとして使用される、請求項14に記載の非一時的なコンピュータで読み取り可能な記録媒体。
【請求項16】
環境条件の継続的な変化を通してビデオ分析精度を向上させるためにカメラパラメータを自動的に変更するためのシステムであって、
メモリと、
複数のカメラからビデオストリームを取り込み(1001)、
分析ユニット(AU)として定義されるビデオ分析タスクを前記ビデオストリームに実行し(1003)、
前記ビデオストリームに画像処理を適用して処理済みのフレームを取得し(1005)、
低品質のフレームを破棄するために、前記処理済みのフレームをフィルタに通してフィルタリングし(1007)、
前記フィルタリングされたフレームをAU固有のプロキシ品質評価器に渡し、状態-アクション-報酬-状態-アクション(SARSA:State-Action-Reward-State-Action)強化学習(RL)計算を用いて、前記複数のカメラのパラメータを自動的に微調整し、前記強化計算に基づいて、エージェントがアクションを実行し、報酬の最大化を学習するための新しいポリシーを適用することで、前記複数のカメラのパラメータを動的に微調整する(1009)ように構成された、前記メモリと通信する1つまたは複数のプロセッサと、
を有するシステム。
【請求項17】
仮想カメラ(VC)が、
前記ビデオストリームから取り込まれた全く同じシーンに、異なる環境特性を適用し、異なるカメラ設定で評価し、
RLアルゴリズム及びRLで使用される様々な報酬関数を迅速かつ個別に訓練及びテストするために使用される、請求項16に記載のシステム。
【請求項18】
前記VCは、オフラインプロファイリング段階とオンライン段階とを含む、請求項17に記載のシステム。
【請求項19】
前記オフラインプロファイリング段階を通してVCカメラテーブル及びマッピング関数が生成され、前記マッピング関数は、1日における特定の時間を、その時間で観測された対応する明るさ、コントラスト、彩度及びシャープネスの特徴値にマッピングする、請求項18に記載のシステム。
【請求項20】
前記オンライン段階を通して取り込み時間以外の時間帯に対応する異なる環境条件のフレームがシミュレートされる、請求項18に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
この出願は、2021年6月3日に出願された米国仮特許出願第63/196,399号及び2022年5月26日に出願された米国特許出願第17/825,519号を基礎とする優先権を主張し、それらの両方の開示の全てをここに取り込む。
【0002】
本発明は、ビデオ分析に関し、より詳細には、分析を向上させるためにカメラパラメータを調整するための強化学習ベースシステムに関する。
【背景技術】
【0003】
ビデオ分析は、コンピュータビジョンアルゴリズム、深層学習、エッジコンピューティング、5G等の進歩により、過去10年間で一般的になった。この市場は、新型コロナウイルス感染症(COVID-19)の時代にさらに勢いを増しており、それは政府機関が、人混みの制限、人同士の距離の確保、接触者の追跡等、新たに発生した新型コロナウイルス感染症に特有のアプリケーションに対処するため、映像を分析することに価値があると考えているからである。都市全体のユビキタスなエッジカメラの導入により、映像に対して様々な分析タスクを実行できるようになる。但し、これらの映像は、それが配置されている環境(変化し続ける)の影響を直接受ける。変化を考慮してそれに適応しないと、分析タスクの精度が低下する可能性がある。
【発明の概要】
【0004】
環境条件の継続的な変化を通してビデオ分析精度を向上させるためにカメラパラメータを自動的に変更するための方法が提示される。本方法は、複数のカメラからビデオストリームを取り込み、分析ユニット(AU)として定義されるビデオ分析タスクをビデオストリームに実行し、ビデオストリームに画像処理を適用して処理済みのフレームを取得し、低品質のフレームを破棄するために、処理済みのフレームをフィルタに通してフィルタリングし、複数のカメラのパラメータを動的に微調整することを含む。微調整は、フィルタリングされたフレームをAU固有のプロキシ品質評価器に渡し、状態-アクション-報酬-状態-アクション(SARSA:State-Action-Reward-State-Action)強化学習(RL)計算を用いて、複数のカメラのパラメータを自動的に微調整し、記強化計算に基づいて、エージェントがアクションを実行し、報酬の最大化を学習するための新しいポリシーを適用することを含む。
【0005】
環境条件の継続的な変化を通してビデオ分析精度を向上させるためにカメラパラメータを自動的に変更するためのコンピュータで読み取り可能なプログラムを含む、非一時的なコンピュータで読み取り可能な記録媒体が提示される。コンピュータで読み取り可能なプログラムがコンピュータで実行されると、コンピュータに、複数のカメラからビデオストリームを取り込ませ、分析ユニット(AU)として定義されるビデオ分析タスクを前記ビデオストリームに実行させ、ビデオストリームに画像処理を適用して処理済みのフレームを取得させ、低品質のフレームを破棄するために、処理済みのフレームをフィルタに通してフィルタリングさせ、複数のカメラのパラメータを動的に微調整させる。微調整は、フィルタリングされたフレームをAU固有のプロキシ品質評価器に渡し、状態-アクション-報酬-状態-アクション(SARSA:State-Action-Reward-State-Action)強化学習(RL)計算を用いて、複数のカメラのパラメータを自動的に微調整し、強化計算に基づいて、エージェントがアクションを実行し、報酬の最大化を学習するための新しいポリシーを適用することを含む。
【0006】
環境条件の継続的な変化を通してビデオ分析精度を向上させるためにカメラパラメータを自動的に変更するためのシステムが提示される。本システムは、メモリと、複数のカメラからビデオストリームを取り込み、分析ユニット(AU)として定義されるビデオ分析タスクをビデオストリームに実行し、ビデオストリームに画像処理を適用して処理済みのフレームを取得し、低品質のフレームを破棄するために、処理済みのフレームをフィルタに通してフィルタリングし、複数のカメラのパラメータを動的に微調整するように構成された、メモリと通信する1つまたは複数のプロセッサとを有する。微調整は、フィルタリングされたフレームをAU固有のプロキシ品質評価器に渡し、状態-アクション-報酬-状態-アクション(SARSA:State-Action-Reward-State-Action)強化学習(RL)計算を用いて、複数のカメラのパラメータを自動的に微調整し、強化計算に基づいて、エージェントがアクションを実行し、報酬の最大化を学習するための新しいポリシーを適用することを含む。
【0007】
これら及び他の特徴並びに利点は、以下の典型的な実施形態の詳細な説明を添付の図面と併せて読むことで明らかになるであろう。
【0008】
本開示では、後述するように、以下の図面を参照しながら好ましい実施形態について詳細に説明する。
【図面の簡単な説明】
【0009】
図1図1は、本発明の実施形態による、カメラパラメータを修正するための例示的な制御ループのブロック/フロー図である。
【0010】
図2図2は、本発明の実施形態による、仮想カメラパラメータを修正するための例示的な制御ループのブロック/フロー図である。
【0011】
図3図3は、本発明の実施形態による、環境条件の継続的な変化を通してビデオ分析精度を向上させるためにカメラパラメータを自動的に変更するための例示的な実際のアプリケーションである。
【0012】
図4図4は、本発明の実施形態による、環境条件の継続的な変化を通してビデオ分析精度を向上させるためにカメラパラメータを自動的に変更するための例示的な処理システムである。
【0013】
図5図5は、本発明の実施形態による、環境条件の継続的な変化を通してビデオ分析精度を向上させるためにカメラパラメータを自動的に変更するための例示的な方法のブロック/フロー図である。
【発明を実施するための形態】
【0014】
ビデオ分析は、コンピュータビジョンアルゴリズム、人工知能、深層学習及び機械学習の進歩、IoT(Internet of Things)及びエッジコンピューティングの成長に5Gの可用性が加わることで、低遅延で高帯域幅の通信が可能になり、過去10年間でごく一般的となって広く普及した。これらの要素は、既に監視、交通モニタ、小売分析、ヘルスケア、銀行業務等を含む、様々な分野で全体的にビデオ分析市場規模の成長を促進していたが、新型コロナウイルス感染症がその成長をさらに加速させた。
【0015】
具体的には、人同士の距離の確保、政府機関によるロックダウン及び封じ込めゾーンの管理、発熱スクリーニング、施設内の任意の時点における群衆及び総人数の制限、マスクをしている各個人の認識、実態的な人口統計の特定、非接触な取引、支払い及び搭乗手続きの実現等は、新たな需要であることが判明しており、これらの新たに発生した新型コロナウイルス感染症に特有のシナリオに対処する当局の日々の仕事を支援する上で、ビデオ分析が重要な役割を果たしている。
【0016】
カメラは、世界中に都市規模で配備されており、様々な種類のビデオ分析タスクがこれらの映像に対して行われている。これらのビデオ分析タスクは、分析ユニット(AU:Analytics Unit)と呼ばれる。AUの要件に応じて、カメラは屋内または屋外のいずれかに配置される。例えば、交通量の分析の場合、ビデオカメラは道路または高速道路に向けて屋外に配置されるが、非接触の搭乗手続きの場合、カメラは屋内の搭乗ゲートの入り口に向けて配置される。同じタスク、例えばビデオ監視の場合、カメラは屋外(例えば、駐車場)だけでなく屋内(例えば、建物内の廊下)にも配備される。したがって、異なるAUには異なる場所に配置されたビデオカメラが必要であり、これらのカメラはそれぞれ異なるシーンをとらえている。特に、条件は、太陽からの自然光、人工照明またはそれらの組み合わせを提供することがある。これは、明るいシーンや暗いシーンとなり、時間の経過と共に変化する。例えば、屋外の条件では、気象条件(曇り、晴れ、雨、霧等)及び1日の時間帯(夜明け、朝、午後、夕方、夕暮れ、黄昏、夜間等)によって異なり、屋内の条件では、屋内における配置場所とそのエリアにおける人工光及び自然光の量によって異なる。
【0017】
照明の特定の方向は、投影される影の方向を変えるため、カメラによるシーンの見え方も変わる。これら動的に変化する全ての環境条件は、AUの精度に影響を与える。リアルタイム応答の場合、精度は最後に観察されたビデオフレームに依存し、その時点でカメラによって観察されている条件に直接影響される。
【0018】
任意のカメラによって生成される最終画像は、カメラレンズ、カメラモジュール及びセンサの種類、並びにカメラシステムで使用される画像信号処理(ISP:Image Signal Processing)のパイプライン全体に依存する。ISPは、これにおいて重要な役割を果たし、取り込まれたロウ(raw)データを最終圧縮画像に変換する。この一環として、最終画像品質を調整する、ノブ(knob)と呼ばれる幾つかの構成パラメータが公開されている。例示的な方法は、これらのノブのサブセットに焦点を当てる。カメラの供給業者は様々なノブのデフォルト設定を提供しているが、これらのデフォルト設定は、追加設定無しで使用できるようにはならず、様々な配置条件において良好な画像品質を提供できない。これらは、複数のノブを手動で調整し、場所に応じた特定の配置条件で較正する際のガイダンスを提供する。但し、この手動調整及び較正は、その特定の場所における条件がほぼ同じままであることを前提とする。上述したように、条件は変化し続けるため、新しい条件では初期校正がうまく機能しない可能性がある。
【0019】
したがって、ビデオ分析タスクに適した高品質な画像をISPパイプラインで生成できるように、これらのカメラパラメータを継続的に変更させる必要がある。さらに、これは都市全体に配備する規模の各カメラに対して行う必要があり、人が行うのは現実的ではない。本明細書で提案するCamTunerは、このニーズに対処し、カメラパラメータを自動的に変更して(都市全体に配置する規模で)ビデオ分析精度を向上させる。例示的な方法は、環境の変化は突然ではなく、ある期間にわたって徐々に起きるという事実を利用しており、これによりCamTunerは条件を常に監視し、徐々に変化する条件に対して動的な変更及び微調整を可能にする。
【0020】
本発明の例示的な実施形態は、カメラパラメータが変更されない場合、異なるAUが異なるレベルの劣化を受けることを経験的に示している。そこで、例示的な方法は、AUのパフォーマンスを向上できる、より良好なカメラパラメータの設定が存在することを示す。本発明の例示的な実施形態は、デジタルツインと呼ばれる、物理的なカメラパラメータのデジタル相当値を見つけるための新しいメカニズムを導入し、これにより異なるカメラ設定下におけるAUのパフォーマンスを分析できるようにする。本発明の例示的な実施形態は、AUについて、環境条件が異なると最適なカメラ設定が異なり、それによって自動でかつ動的な調整の必要性が高まることを検証する。本発明の例示的な実施形態は、変化する環境条件に動的に適応するために、状態-アクション-報酬-状態-アクション(SARSA:State-Action-Reward-State-Action)強化学習(RL)アルゴリズム(または計算)を導入し、その一環として、例示的な方法は、エージェントがアクションを実行し、報酬の最大化を学習するための新しいポリシーを導入する。
【0021】
本発明の例示的な実施形態は、システムが様々な環境特性を適用し、全く同じシーンに対する様々なカメラ設定の影響を検討できるようにし、さらに自動でカメラパラメータの調整のためのRLアルゴリズムの訓練及びテストを可能する仮想カメラ(VC)シミュレータを提案する。ランタイムにおいて、RLは実行する全てのアクションに対して継続的にかつ自動的に報酬を必要とする。SOTA AQuAフィルタは、様々なAUに関するきめ細かな(fine-grained)品質評価を提供できないことが観察されている。AQuAは分析品質評価(Analytic Quality Assessment)の略である。AQuAは、フレームの歪みレベルをスコアリングすることで、歪んだフレームに対するアプリケーションの精度を保護する。AQuAは、新しいメトリック、つまり分類器のオピニオンスコアを学習することで、視覚的な質ではなくフレームの分析品質を考慮し、軽いCNNベースのオブジェクトに依存しない特徴抽出器を使用する。AQuAはフレームの歪みレベルを正確にスコア付けし、複数の異なる深層学習アプリケーションに一般化する。
【0022】
これに対処するため、例示的な方法は、各AUに固有の分析品質(AQ)メトリックを定義し、そのメトリックを用いてRLアクション毎に品質の報酬を提供するAU固有のAQuA分類器を訓練する。本発明の例示的な実施形態は、CamTunerで使用される様々なコンポーネントの効果を示す複数の評価を実施する。CamTunerは、特定のAUのニーズに基づいてカメラパラメータを自動的に調整することで環境条件の変化に適応し、AUの精度を向上させる重要なシステムである。
【0023】
CamTunerは、カメラのノブに焦点を当てているが、高レベルのアイデアは、調整される複数のノブを有するセンサに適用され、継続的に変化する環境条件に適応して変更される。その例の1つはサーマルカメラであり、「温度補償」のために「オブジェクトの放射率」、「大気透過率」、「周囲温度」等のノブが開示される。正確な温度測定のため、これらのパラメータは実際の環境条件に基づいて連続して変更する必要がある。また、PTZカメラの場合、対象のオブジェクトがシーンにおいて移動するため、「パン」、「チルト」、「ズーム」等のノブを分析要件に基づいて連続して変更する必要がある。
【0024】
まる1日にわたる環境の変化は、取得中のフレームで様々な歪み(例えば、太陽光の下での露出過剰、低照度ノイズ、夜間の露出不足等)を引き起こす。これらの歪みは、条件の変化に応じてカメラの設定を変更しない場合、様々なAUのパフォーマンスに影響を及ぼし、ほとんどの場合はパフォーマンスを低下させる。同じカメラの位置から1日の環境の変化を捉える公的に利用可能なビデオデータセットは不足しているため、例示的な方法では、朝から夕方まで単一のカメラで野球場等の屋外で撮影された個人等が所有するビデオが使用される。
【0025】
デフォルトのカメラ設定では、異なる環境条件の存在により、同じカメラフィードのAUの精度が1日を通して変化する。具体的には、正午(まぶしい太陽光がある場合)では、取り込まれたフレームにおける顔が露出オーバーになるため、朝のビデオのAUのパフォーマンスよりも精度が低くなる。但し、夕方のビデオでは低照度のノイズが発生し、精度も低下する。午後の中頃のビデオフレームにおける顔はわずかに遮られ、顔検出器による検出が困難になるが、午後を通した照明条件は良好なため、人物検出器のAUは境界ボックスを正確に予測でき、その結果、最適なmAPのパフォーマンスが得られる。
【0026】
AUに対するカメラの設定の影響に関しては、デフォルトの設定で観察される全ての精度を向上させることができる最良のカメラの設定が少なくとも存在するため、例示的な方法は、カメラパラメータの異なる組み合わせが、様々な環境条件において異なる方法で取り込まれた異なる画像及びビデオのスニペットに、どのように影響を与えるかを検討する。
【0027】
仮想ノブに関して、再現性と一貫性を持たせるために、例示的な方法は、ある特定のシーンが撮影可能であり、同じシーンに異なるカメラの設定を適用できる必要がある。シーンは変化し続けるが、カメラの様々なノブの設定は1つだけであるため、カメラの実際の物理設定に相当するデジタル設定を見つけることが重要になる。このデジタル相当値は、あたかもカメラ自体の物理設定を変更して撮影されたかのような画像を忠実に生成する必要がある。このデジタル相当値は、カメラのデジタルツインと呼ばれる。以下に記載するアルゴリズム1によれば、AXIS Q1615ネットワークカメラの4つの調整パラメータ(明るさ、コントラスト、彩度、シャープネス)のカメラデジタルツインは次のようになる。
【表1】
【0028】
このデジタルツインは、物理的なカメラの設定空間全体を横断することで達成できる、デジタルドメインにおける等価検索空間を見つけるのに役に立つ。デジタルドメインにおけるノブの値は、それぞれのノブの値を用いて両方のドメインで取得された画像が最大SSIM(少なくとも0.90より大きい)を提供する場合にのみ、物理的なノブの値の信頼できる表現として扱われる。デジタルドメインにおける等価検索空間は、デジタル変換されたカメラフレームと実際の物理的なカメラフレームとの間の類似性をテストするために使用される、構造的類似性(SSIM:structural similarity)、マルチスケール構造的類似性(MS-SSIM:multiscale-structural similarity)、MSE及びPSNR等のフルリファレンス画像品質評価(FR-IQA:full-reference Image-Quality assessment)法と、使用している画像変換アルゴリズムと、に依存する。デジタルドメインにおけるこれらの様々な等価検索空間の範囲をテーブル1に示す。
【表2】
【0029】
最後に、特定の調整パラメータに対する異なるFR‐IQA法で得られたこれらの異なる範囲の和集合が、テーブル2でリストされた等価デジタル検索空間として採用される。
【表3】
【0030】
仮想ノブを変更することの影響に関して、デジタルドメインにおける等価範囲のパラメータを用いて、全ての画像またはフレームに対して、4つの調整パラメータのうちの1つを変更しながら、同時にAUの精度がどのように変化するかを判定する。例示的な方法は、単一のパラメータを一旦変更することでAUの精度に対する可能な限り最良の影響を調査する。
【0031】
彩度を変更すると、FiveKロウ(raw)画像データセットの100枚のランダム画像では、顔検出(すなわち、mAP)の分析精度に5%影響する。さらに、単一の調整ノブを変更すると、顔認識AUは、celebAデータセットからランダムに選択された1150枚の有名人の画像のうち、ベースラインよりもさらに10枚の画像を認識する。生体検知AUは、画像が本物か偽物かを検出し(つまり、キャッシュレス決済で重要な役割を果たす)、コントラスト調整ノブを変更しつつ、バイナリ分類の精度を6.8%向上させ、MSU-MFSDデータセットの280枚の画像のうち、さらに20枚の画像が本物か偽物か正しく分類される。
【0032】
彩度調整ノブの変更(すなわち、他のノブを固定したままにすること)により、個人等が所有する夜間ビデオの顔検出AUのmAPが7%向上する。オリンピックのアクションデータセットのビデオスニペットでは、コントラストを変化させると人物検出器AUのmAPが9%向上するが、顔検出器AUのmAPは彩度を変化させることで向上する。
【0033】
データセットに存在する全ての画像に対して個別に単一のパラメータを調整する粗い方法であっても、より良い分析結果を提供できる。但し、各カメラの調整ノブが分析精度に与える影響は本質的に単調ではなく、各画像またはビデオセグメントは異なる環境条件やカメラ設定で取り込まれるため、これら4つの画像の見た目のための調整ノブの共同の調整が、各静止画像及びビデオスニペットについて考慮される。
【0034】
静止画像に関して、公開データセット(例えば、FiveK RAWデータセット、celebA等)で利用可能な各画像は、画像が撮影された頃に撮影されたであろうビデオスニペットのプロキシである。したがって、各画像は異なる環境下で様々なカメラ設定を用いて取り込まれる。カメラにおける最適なパラメータ設定は、AU固有の最も良好な分析品質を提供する構成に対応している。
【0035】
検出AUに関して、例示的な方法は、ランダムに選択された100枚のFiveKロウ(raw)画像の人物検出器としてEfficientdet-v0を使用し、顔検出器としてRetinaNetを使用する。まず、これらの100枚のロウ画像に対して、人物と対応する顔の境界ボックスに手動で注釈を付与する。アルゴリズム2(以下に再現)は、分析品質メトリックとしてmAPと真陽性IoUを共に考慮した、顔または人物検出AUのいずれかに対する最適なタプル検索アルゴリズムを示す。
【0036】
例示的な方法では、最初にテーブル2で示したパラメータ範囲を使用するが、最良の構成はデジタルツインを用いて得られるパラメータ範囲の上限に近いことが観察された。したがって、例示的な方法は、別の考えられる最良の構成を見逃さないように構成空間を拡張した。
【0037】
顔検出器AUは、基本構成よりも最適構成で調整した後、さらに39枚の画像で顔を検出できるが、人物検出については、最適構成の調整により、平均で2.8%のmAPの向上と6.7%のIoUの向上がもたらされる。したがって、顔検出等のよりきめ細かな分析に関する調整後は、同じ画像セットに対する人物検出と比べて、より高い改善が見られる。
【表4】
【0038】
顔認識AUに関して、例示的な方法は、顔認識AUパイプラインを考慮する。少なくとも1つの顔画像が関連付けられている人物のデータベースが与えられると、AUは入力画像における顔を、一致スコアを用いて既知の人物(データベースに既に存在する)として認識する、または未知として分類する。データベースの構築には、CelebAデータセットの人物毎に1つの画像が使用され、同じ人物のランダムに選択された別の画像の様々な拡張バージョンがクエリ画像として使用される。顔認識AUの分析品質(AQ)は、任意の画像の真陽性一致スコアとして定義される。
【0039】
4つのノブを組み合わせて調整することは、300の未登録画像のうち、基本構成(すなわち、拡張なし)よりも41(13.67%)多くの画像で顔を正確に認識するのに役に立つ。真陽性認識の一致スコアでさえ、平均3.6%向上する(例えば、分析品質は最大で11.6%向上する)。minEyeDistance構成を20から40に変更すると、認識が大幅に向上し、基本構成と比較して最適構成の拡張では20.67%多くの画像が認識される。
【0040】
顔キーポイント検出AUに関して、顔キーポイント検出AUは、300Wデータセットの画像に存在する顔の68個の顔ランドマークを検出する。このAUの分析品質は、予測されたランドマークと実際のランドマークとの間の二乗平均平方根(RMS:root-mean-square)距離として定義される。
【0041】
基本構成と比べて、最適な構成で調整を実施した後、230人の人物画像のうち11枚以上の画像で顔ランドマークが検出されている。検出された画像の分析品質は、単純に基本構成を使用する場合よりも、最適な構成の調整下において平均で31.1%向上する。
【0042】
構成空間全体にわたる最適なパラメータのばらつきは、異なる環境で異なるカメラ設定で撮影された各画像は異なるアテンション(すなわち、異なる最適な構成)が必要であることが分かる。
【0043】
ビデオスニペットに関して、各ビデオスニペットには数百以下の連続するフレームが含まれるため、撮影全体を通して同様の環境条件及びカメラ設定が示される。ビデオスニペットの最適な構成では、ビデオスニペット全体の全てのフレームにわたって最適な分析品質を提供する必要がある。例示的な方法は、cvatツールを用いて顔及び人物境界ボックスに手動で注釈を付与した後、HMDBデータセットの19のビデオスニペット、並びにオリンピックデータセットの11のビデオスニペットに対して検出AU(例えば、顔及び人物検出AU)を使用する。
【0044】
以下のテーブル3は、各ビデオスニペットで異なる調整を行った後に達成できる最大及び平均の分析品質の改善を示している。
【表5】
【0045】
オリンピック及びHMDBデータセットにおける各ビデオセグメントは高圧縮されている。したがって、より粗い人物検出AUは、人物を検出するために、はるかに大きなスペース、つまりフレームにおけるより多くのピクセルを探し、きめ細かな顔検出AUよりもそのような圧縮を許容できる。但し、きめ細かな顔検出では、一般にフレームにおいて非常に小さいスペース、つまり顔を検出するためにより少ないピクセルを探すが、テーブル3で示した人物検出AUよりも圧縮アーティファクトが深刻な、小さい顔検出の改善はあまり期待できない。
【0046】
異なるAUとの連系における、異なるカメラ設定(異なるコンテンツが埋め込まれた)を備える異なる環境条件を示す各静止画像またはビデオスニペットに対して、最も高いAU精度を提供する独自のパラメータセットが存在する。これらのパラメータは人が識別することはできない。さらに、人は環境の変化に応じてこれらのパラメータを変更し続けることはできない。したがって、様々な環境やカメラ設定下で最適なAUパフォーマンスを得るには、これらのノブの自動的な調整が必要である。
【0047】
ネットワークカメラの調整ノブを修正し、与えられたAUの分析品質を向上させるための制御ループが、図1のシステム100に示されている。ライブビデオフィードは、外部環境からネットワークカメラのイメージセンサ102によって連続して取り込まれ、ISPパイプラインを通じて様々な画像処理技術104が適用されて最終処理フレームが取得される。無線ネットワーク(4Gまたは5G)を用いてさらに分析する場合、エッジサーバまたはリモートクラウドにオフロードする前に、これらの処理されたフレームは、高い確度で誤り(AUには適さない)を引き起こす可能性がある低品質フレームを破棄するのに役に立つ、軽いAQuAフィルタ106によってフィルタリングされる。これは、AUの精度向上やより良好な分析のためのカメラパラメータの調整に寄与しないフレームを早期に破棄することで、ワイヤレスネットワークの帯域幅要件を軽減するためにも役に立つ。
【0048】
エッジサーバでは、フィルタリングされ、オフロードされたフレームが、異なる分析パイプラインと、きめ細かなAU固有の分析品質評価器110とを並行して通過する。例示的な方法は、共同mAP及び任意の検出AUのIoUメトリック、顔認識AUの一致スコア、並びにキーポイント検出における予測キーポイントと実際のキーポイントとの間のRMS距離を備えた分析品質評価器を使用できる。しかしながら、これらの評価器は、全てグラウンドトゥルース(またはラベル付きデータ)を必要とする。これは、いくつかの分析のために受信フレームに連続してラベルを付与する制御ループを人が管理しない限り、ランタイムにおいて不可能であり、現実的ではない。
【0049】
AU品質を判定するために使用できるグラウンドトゥルース(実際の展開では不可能)を生成する代わりに、例示的な方法は、きめ細かなプロキシ品質評価器110を導入する。プロキシ品質評価器110は、AU固有であり、オフロードされたフレームの品質を判定するために使用できる品質推定値を提供する。プロキシ品質評価器110で判定されたAU品質に基づいて、カメラパラメータが自動的に調整されて、AU品質がさらに向上する。カメラ供給業者は、カメラパラメータをプログラムで変更できるAPIを提供している。通常、パラメータの変更は非常に短い時間(約150~200ミリ秒)で済むため、本アプローチはカメラパラメータを動的に調整する場合に適している。本調整プロセスはAUの存続期間中継続する。具体的には、例示的な方法は、強化学習(RL)技術を利用してパラメータを調整する。
【0050】
カメラパラメータの調整に関して、カメラパラメータを自動で調整するために、例示的な方法は、個々のAU108毎にRL技術を利用する。特に、例示的な方法は、SARSA(State-Action-Reward-State-Action)RLアルゴリズム115またはRL計算を使用する。この設定では、様々なアクションを実行することで環境、つまり環境の状態と相互作用するエージェントが存在する。エージェントがアクションを実行すると、エージェントは新しい異なる環境に到着する。各アクションには、新しく達成された状態が望ましいか否か、つまり、エージェントが肯定的な方向に導くか否定的な方向に導くかに応じて、報酬またはペナルティが関連付けられる。時間の経過と共に、エージェントがアクションを継続的に実行して報酬とペナルティを受け取ると、エージェントが正しいアクションを取ることで報酬の最大化を学習し、最終的にエージェントをポジティブな方向に導く。
【0051】
SARSA115は、ラベル付けされたデータや事前訓練されたモデルを必要とせず、SARSA115が実行するアクションに基づいてそのポリシーを学習して更新する。したがって、SARSA115は、ポリシーに基づく学習アルゴリズムであり、環境、すなわち状態、アクション、報酬の明確な定義が必要である。カメラパラメータの自動調整を目的として、以下が定義される。
【0052】
状態に関して、これは、カメラの現在の明るさ、コントラスト、シャープネス及び色のパラメータ値を含むベクトルと、明るさ、コントラスト、シャープネス及び色の測定値である。
【0053】
アクションに関して、エージェントが実行できるアクションのセットは、明るさ、コントラスト、シャープネスまたは色のパラメータ値のうちの1つを増減するか、若しくは全くアクションを実行しないことである。
【0054】
報酬に関して、例示的な方法は、SARSA115に関する報酬関数として、各AU108に関するプロキシ品質評価器110を使用する。品質の推定値が向上した場合は報酬と見なされ、品質の推定値が低下した場合はペナルティと見なされる。
【0055】
プロキシ品質評価器110を用いて得られる報酬は、即時報酬と呼ばれる。エージェントは、即時報酬を考慮するだけでなく、現在のアクションの結果で発生する可能性がある将来の報酬も考慮する。これに基づいて、Q値と呼ばれる値が、状態sのときのアクションaを実行するために計算される。これはQ(s,a)で表される。Q(s,a)の値は、以下の式に従って計算される。ここで、αは0から1までの値を有する定数である。これは、エージェントが取得した新しい情報にどの程度の重要度を与えるかを制御するために使用できる。値1は新しい情報に高い重要度を与えるが、値0はエージェントの学習段階を停止する。初期段階において、オペレータはより高い値(例えば、0.9)を割り当てることができる。これにより、最新の情報をより重要視することで、エージェントが新しい環境を迅速に学習して理解できるようになる。エージェントが新しい環境の情報を学習して取り入れた後、エージェントが新しい環境について収集した情報の使用を開始するように、オペレータはαの値を、例えば0.1に下げることができる。
【数1】
【0056】
αと同様に、上記の式には0から1までの値を有する別の定数γを含む。この定数は割引係数と呼ばれ、エージェントが長期報酬に付与する重要度を制御するために使用できる。エージェントは、値が1の場合は長期的な報酬を重要視し、値が0の場合は長期的な報酬を無視して即時報酬のみに焦点を当てる。条件が非常に頻繁に変化する場合、即時報酬を優先するためにγに低い値(例えば、0.1)を割り当てることができる。一方、条件が頻繁に変化しない場合、長期的な報酬を優先するために、より高い値(例えば、0.9)を割り当てることができる。
【0057】
SARSAアルゴリズム115において、エージェントが従うアルゴリズムは、以下のアルゴリズム3である。
【表6】
【0058】
ここで、エージェントは、まず環境、すなわち状態sを観察し、状態sで実行される適切なアクションaを選択する。アクションaを実行した後、エージェント即時報酬(またはペナルティ)rを受け取り、新しい状態s’になる。この新しい状態において、エージェントで選択されたアクションはa’であり、関連するQ値はQ(s’,a’)である。エージェントは、これを用いて上記の方程式に従って累積報酬Q(s,a)を計算する。次に、エージェントは計算した累積Q値を更新し、新しい状態s’になる。このプロセスは、エージェントが連続して学習して環境に適応するために、AUが存続する期間で継続する。
【0059】
アルゴリズム3は、SARSA115においてエージェントが従うステップを提供するが、実行されるアクションaを選択するためにエージェントが使用する正確な方法を提供するものではない。
【0060】
このため、例示的な方法は、実行するアクションをエージェントが決定するための新しいポリシーを考案する。本ポリシーは、以下のアルゴリズム4で示される。ここでは、イプシロン(epsilon)と呼ばれる定数が定義される。この定数は、0から1までの値を有し、オペレータが微調整できる。
【表7】
【0061】
最初に、エージェントは0から1までの乱数を生成する。乱数がイプシロンの設定値よりも大きい場合、ランダムなアクションが選択される。イプシロンの値が低いほど、より多くのランダムなアクションが生成されるようにトリガーされ、イプシロンの値が高いほど、より少ないランダムなアクションがトリガーされる。したがって、展開の初期段階では、エージェントが様々なアクションを探索するとき、通常、イプシロンの値はより低く設定される(例えば、0.1)。一方、エージェントが十分に探索した後では、エージェントが初期の探索段階で学習した情報の使用を開始し、その活用を開始するように、イプシロンの値はより高く、例えば、0,9に設定される。乱数がイプシロンの設定値よりも小さい場合、報酬rがチェックされる。報酬が0未満の場合、つまりアクションの結果としてペナルティが発生した場合、アクションは直ちに元に戻される。但し、報酬が正であっても、アクションの予測報酬よりも小さい場合は、同じアクションが繰り返される。したがって、これは、ポジティブな方向へ向かうアクションは繰り返される一方で、ネガティブな方向へ向かうアクションは直ぐに元に戻される貪欲ポリシー(greedy policy)である。
【0062】
AU固有の品質評価器設計に関して、AUに依存しないSOTA AQuAフィルタは、予測品質と異なる分析品質との間のノミナルスピアマン(nominal spearman)相関(約-0.03)を提供する。このAUに依存しないAQuAフィルタは、AUが高い確度で誤りを提供する低品質のフレームをフィルタで除外できるが、きめ細かな品質値の予測を用いた高品質なオフロードされたフレームを区別することはできない。したがって、ランタイムにおいて、AQuAフィルタを通過した任意のオフロードされたフレームの継続的な品質測定値(例えば、RLアルゴリズムの報酬関数)を取得するため、例示的な方法は、AU固有のきめ細かなプロキシ品質評価モデルを設計する。これらの品質評価モデルは、以下のように様々なAUに対して定義されて訓練される。
【0063】
顔認識AUについて、celebAデータセットからランダムにサンプリングされた300人の有名人について、2つの画像が選択される。1つはデータベースを構築するためのリファレンス画像として選択され、もう1つは、クエリ画像として使用される、未登録画像及びその複数の拡張バリアントとして選択される(例えば、4つのノブの値を変更することで取得される)。これらのクエリ画像(約4M)は、品質評価モデルの訓練データセットを構成する。これらの各クエリ画像は、顔認識モデルに送信されると、[0,1]の間の一致スコアを有する有名人の名前を提供する。正しい顔認識毎に、例示的な方法は、クラスラベルとして、対応する四捨五入されたmatchScore100の値を使用する。訓練データセットには合計で101のクラスが存在できる。したがって、既存のAQuAモデルは101の出力ノードで訓練できる。
【0064】
人物及び顔検出AUについて、これらの検出AUに特有の品質評価器を設計するため、例示的な方法は、オリンピック及びHMDB訓練ビデオフレーム、並びにそれらの拡張バリアント(約7.5M)の201の出力ノードを用いてAQuA分類モデルを訓練する。訓練中、各フレームは、以下の式で示すように、mAPの共同メトリックと真陽性検出のためのIoUに基づいてクラスラベルに関連付けられる。したがって、クラスラベルが高いほど、分析品質が高くなる。
【数2】
【0065】
CamTunerの有効性を検討すると、1つのアプローチは、実際のカメラを使用して動作し、2つのケースにおけるAU精度を比較することでアプローチの影響を示すことである。例えば、第1のケースでは、例示的な技術が適用されず、静的なカメラパラメータが適用される。第2のケースにおいて、例示的な方法は、本技術を適用してカメラパラメータを動的に調整する。但し、本アプローチの問題は、カメラが任意の時点でパラメータのセットを1つしか有することができず、両方の条件(例示的な手法の有無にかかわらず)を1台のカメラで同時に実行できないことである。異なる時間に設定すると、環境(晴れ、曇り等)やシーンの条件(視野において見える顔等)が異なるため、公平な比較にはならない。
【0066】
代替アプローチは、例示的な方法が2台のカメラを使用することであり、AUは一方のカメラフィードで実行され、本技術は適用されず、カメラパラメータを同じにしてAU精度を測定し、他方のカメラフィードでは、同じAUが実行され、例示的な技術がカメラパラメータを動的に調整するために適用される。そして、これら2つのケースで測定された精度を比較する。本シナリオでは、2台のカメラから見える環境条件は似ているが、シーンの条件が似ていても正確ではない。一部のAUは非常に敏感であり、同様の画像で同じ結果が得られない場合がある。例えば、結果はフレーム内の非常に細かい特性に依存し、画像のわずかな変化で異なる結果が生成される場合がある。したがって、これでも公平な比較とは言えない。さらに、AUが画像のわずかな変化に対して寛容であるとしても、環境条件の変化は確定的ではないため、様々な構成の試行、RLアルゴリズムの訓練及びテスト、RL等に関する様々な報酬関数の試行等、様々な実験を実行するには非常に長い時間を要する。
【0067】
実際にカメラフィードを使用する際の上記の問題点のため、例示的な方法は、図2のシステム200のように、事前に記録されたビデオを使用することで例示的なアプローチの有効性を検討する。これらのビデオは、白昼の条件において単一のカメラ210の設定で記録される。そうすることにより、特定の環境条件(この場合は日光)及び特定のシーン条件(例えば、人々の顔)を有する、高品質なオリジナルビデオフィードを取得することが可能であり、例示的な方法は、これらのビデオに関するグラウンドトゥルースも取得できる。続いて、仮想カメラと呼ばれる2台のカメラがシミュレートされる。ここでは、実際のカメラと同じパラメータが公開され、それらのパラメータはAPIを用いて変更できる。これにより、全く同じシーンに対して様々な設定を適用して実験を行うことが可能であり、実際のカメラでは不可能な実験での繰り返し性と再現性が可能になる。さらに、実験はリアルタイムよりも高速に実行できる。つまり、思い通りの高いFPS(frame-per-second)でフレームを実行することが可能であり、RLアルゴリズム、RL等で使用される様々な報酬関数を個別にテスト及び訓練できる。
【0068】
これらの仮想カメラは、日の出、正午、午後、夕暮れ、夜等に始まる同じ1日の環境変化をエミュレートする必要がある。仮想カメラシミュレータの設計には、オフラインプロファイリング段階とオンライン段階の2つの段階を含む。オフラインプロファイリング段階において、最初に以下のアルゴリズム5に従って、例示的な方法は、VC(virtual-camera)テーブルと、1日における特定の時間を、その時間中に観察された、対応する明るさ、コントラスト、彩度、シャープネスの特徴値にマッピングするマッピング関数を生成する。
【表8】
【0069】
フレームの異なる部位は異なって(例えば、障害物の存在、影、異なる色の光源等)照らされているため、フレーム全体についてこれらの特徴値を計算する代わりに、例示的な方法は、例えば、フレームにおける12のタイルのそれぞれの特徴値を取得する。
【0070】
各ビデオは、コンテンツ及びその取得時間の環境を取り込んでいる。観察されるコンテンツは複数の仮想カメラで同じで維持する必要があるため、取り込まれたフレームに影響を与えるのは1日を通した環境条件だけである。カメラパラメータの調整RLアプローチを用いて、例示的な方法は、AU性能における環境の悪影響を最小限に抑制するように尽力する。コンテンツを同じで維持しつつ、該1日の異なる時間帯のビデオに拡張するため、例示的な方法は、2つの時間の明るさ、コントラスト、彩度、シャープネスの変化を、その変化を得るために、対応する仮想カメラノブ構成にマッピングする別のマッピングテーブルを生成する必要がある。オフライン段階において、例示的な方法は、以下で再現するアルゴリズム6に従って、このデルタ変化対構成(delta change-to-Configuration)マッピングテーブルを生成する。
【表9】
【0071】
オンライン段階において、取り込み時間以外の、その日における時間に対応する異なる環境条件のフレームをシミュレートするため、以下のアルゴリズム7に従って、例示的な方法は、まず入力フレームを12のタイルに分割する。
【表10】
【0072】
各タイルについて、例示的な方法は、4つの異なる画像特徴を抽出する必要があり、所望の時間(取り込み時間以外)に基づき、VCテーブル(アルゴリズム5の出力)を用いて、例示的な方法は、画像特徴のタイル固有の所望な値を取得できる。現在の特徴値と所望の特徴値との間のわずかなデルタ変化は、デルタ変化対構成マッピングテーブル(アルゴリズム6の出力)を用いて仮想カメラノブ構成値にマッピングされる。例示的な方法は、タイル毎に異なるノブ構成を取得するが、出力フレームにおけるタイリング問題(タイルの分離が明示的である)を排除するため、例示的な方法は、各タイルに対応する12の構成全てにわたって中央値構成を計算する。修正された中央値ノブ構成を使用すると、例示的な方法は、所望の時間のビデオフレームを取得できる。
【0073】
結論として、CamTunerは、変化する環境条件に連続して適応するために強化学習技術を利用する。CamTunerは、カメラで生成されたビデオフィードが間近の分析タスクに適し、その精度が向上するように、特定のカメラパラメータを調整する。CamTunerは、あらゆるビデオ分析タスクに適用でき、あらゆる複雑なカメラパラメータのセットを処理できるように設計されている。評価の繰り返し性と再現性を持たせるため(同じシーンを用いてCamTunerを適用する前と後のパフォーマンスを評価する)、例示的な方法は、仮想カメラと、1日の異なる時間セグメント(図2)で撮影されて事前に記録された個人等が所有するビデオをループスルーで使用する。VCの助けを借りて、例示的な方法は、リアルタイムでより高速に実験を実行することが可能である。つまり、例示的な方法は、所望のより高いFPSでフレームを実行可能であり、RLアルゴリズム、RL等で使用される様々な報酬関数等を個別にテスト及び訓練できる。仮想カメラ(VC)は実際のRGBカメラと同じであり、その日の取り込み時間に応じて、フレームのコンテンツを変更せずにシーンの特性をその時間に適合させる。VCは入力ビデオからフレームを連続して抽出し、変換を適用して取り込み時間を変更し、1日の様々な時間セグメントにエミュレートする。エッジサーバにオフロードする前に、フレームはAUに依存しないSOTA AQuAフィルタを通過する。
【0074】
図3は、本発明の実施形態による、環境条件の継続的な変化を通してビデオ分析精度を向上させるためにカメラパラメータを自動的に変更するための実際のアプリケーションのブロック/フロー図800である。
【0075】
一つの実際のアプリケーションにおいて、カメラ802からのビデオフィードは「ビデオセンサ」804によってデコードされ、フレームは「顔検出」コンポーネント806に利用可能にされ、顔808(オブジェクト)を検出し、それらを「特徴抽出」コンポーネント810で利用可能にする。次に、特徴等の固有の顔テンプレートが抽出され、「顔照合」コンポーネント812で利用可能になり、これらの特徴を顔特徴のギャラリーと比較及び照合される。環境の変化は、明るさ820、コントラスト822、彩度824及びシャープネス826等のカメラパラメータを微調整して、AU固有の品質評価器110及びSARSA115を使用するCamTuner950で検出できる。
【0076】
図4は、本発明の実施形態による、環境条件の継続的な変化を通してビデオ分析精度を向上させるためにカメラパラメータを自動的に調整するための例示的な処理システムである。
【0077】
処理システムは、システムバス902を介して他のコンポーネントに動作可能に接続された少なくとも1つのプロセッサ(CPU)904を含む。システムバス902には、GPU905、キャッシュ906、読み取り専用メモリ(ROM)908、ランダムアクセスメモリ(RAM)910、入出力(I/O)アダプタ920、ネットワークアダプタ930、ユーザインタフェースアダプタ940及び/またはディスプレイアダプタ950もまた動作可能に接続されている。さらに、CamTuner950は、AU固有の品質評価器110及びSARSA115を含む。
【0078】
記憶装置922は、I/Oアダプタ920によってシステムバス902に動作可能に接続されている。記憶装置922は、ディスク記憶装置(例えば、磁気ディスク記憶装置または光ディスク記憶装置)、固体磁気装置等のいずれであってもよい。
【0079】
トランシーバ932は、ネットワークアダプタ930によってシステムバス902に動作可能に接続されている。
【0080】
ユーザ入力装置942は、ユーザインタフェースアダプタ940によってシステムバス902に動作可能に接続されている。ユーザ入力装置942は、キーボード、マウス、キーパッド、画像キャプチャ装置、モーション感知装置、マイクロフォン、あるいはこれらの装置のうちの少なくとも2つの装置の機能を組み込んだ装置等のいずれであってもよい。もちろん、本発明の原理の主旨を維持しながら、他のタイプの入力装置を使用することもできる。もちろん、本発明の精神を維持しながら、他のタイプの入力装置も使用することができる。ユーザ入力装置942は、同じタイプのユーザ入力装置であってもよく、異なるタイプのユーザ入力装置であってもよい。ユーザ入力装置942は、処理システムに情報を入力し、処理システムから情報を出力するために使用される。
【0081】
ディスプレイ装置952は、ディスプレイアダプタ950によってシステムバス902に動作可能に接続されている。
【0082】
もちろん、処理システムは、当業者であれば容易に思いつくような他の要素(図示せず)を含んでもよく、特定の要素を省略することも可能である。例えば、当業者であれば容易に理解できるが、処理システムには、その詳細な実施に応じて他の様々なタイプの入力装置及び/または出力装置を含むことができる。例えば、無線及び/または有線による様々な入力装置及び/または出力装置を使用できる。さらに、当業者であれば容易に理解できるが、様々な構成の追加プロセッサ、コントローラ、メモリ等を使用することも可能である。処理システムの上記及び他の変形例は、本明細書で提供される本原理の教示によって当業者であれば容易に考えられるであろう。
【0083】
図5は、本発明の実施形態による、環境条件の継続的な変化を通してビデオ分析精度を向上させるためにカメラパラメータを自動的に調整する例示的な方法のブロック/フロー図である。
【0084】
ブロック1001において、複数のカメラからのビデオストリームを取り込む。
【0085】
ブロック1003において、分析ユニット(AU)として定義されるビデオ分析タスクをビデオストリームに実行する。
【0086】
ブロック1005において、ビデオストリームに画像処理を適用して処理済みフレームを取得する。
【0087】
ブロック1007において、低品質のフレームを破棄するために、処理済みフレームをフィルタに通してフィルタリングする。
【0088】
ブロック1009において、フィルタリングされたフレームをAU固有のプロキシ品質評価器に渡し、SARSA(State-Action-Reward-State-Action)強化学習計算を用いて、複数のカメラのパラメータを自動的に微調整し、強化計算に基づいて、エージェントがアクションを実行し、報酬の最大化を学習するための新しいポリシーを適用することで、複数のカメラのパラメータを動的に微調整する。
【0089】
本明細書で用いる「データ」、「コンテンツ」、「情報」及び同様の用語は、様々な例示的な実施形態によって取得され、送信され、受信され、表示され、及び/または保存可能なデータを示すために、交換可能に使用できる。したがって、これらの用語の使用は、開示の主旨及び範囲を制限するものと解釈されるべきではない。さらに、本明細書に別の計算デバイスからデータを受信するための計算デバイスが記載されている場合、データは、別の計算デバイスから直接受信してもよく、1つまたは複数の中間計算デバイス、例えば1つまたは複数のサーバ、リレー、ルータ、ネットワークアクセスポイント、基地局等を介して間接的に受信してもよい。同様に、本明細書にデータを別の計算デバイスに送信するための計算デバイスが記載されている場合、データは、別の計算データに直接送信してもよく、例えば、1つまたは複数のサーバ、リレー、ルータ、ネットワークアクセスポイント、基地局及び/または同様のもの等の1つまたは複数の中間計算デバイスを介して間接的に送信してもよい。
【0090】
当業者であれば理解するように、本発明の態様は、システム、方法またはコンピュータプログラムプロダクトとして実現してもよい。したがって、本発明の態様は、全体としてハードウェアの実施形態であってもよく、全体としてソフトウェアの実施形態(ファームウェア、常駐ソフトウェア、マイクロコード等を含む)であってもよく、本明細書において、一般に「回路」、「モジュール」、「計算機」、「装置」または「システム」と呼ぶことができる、ソフトウェアとハードウェアの態様を組み合わせた実施の形態を採用してもよい。さらに、本発明の態様は、コンピュータで読み取り可能なプログラムコードを有する、1つまたは複数のコンピュータで読み取り可能な媒体で具現化された、コンピュータプログラムプロダクトの形態を採用してもよい。
【0091】
1つまたは複数のコンピュータで読み取り可能な媒体の任意の組合せを用いてもよい。コンピュータで読み取り可能な媒体は、コンピュータで読み取り可能な信号媒体またはコンピュータで読み取り可能な記録媒体であってもよい。コンピュータで読み取り可能な記録媒体は、例えば、電子、磁気、光学、電磁気、赤外線または半導体システム、装置またはデバイス、あるいは前述の任意の適切な組合せとすることができるが、これらに限定されない。コンピュータで読み取り可能な記録媒体のより具体的な例(以下に限定されない)は、1つまたは複数のワイヤ、携帯用コンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROMまたはフラッシュメモリ)、光ファイバ、携帯用コンパクトディスクリードオンリーメモリ(CD-ROM)、光データ記憶装置、磁気データ記憶装置または前述した任意の適切な組み合わせを含む。本文書のコンテキストにおいて、コンピュータで読み取り可能な記録媒体は、命令実行システム、装置またはデバイスによって、またはそれに関連して使用するためのプログラムを含む、またはそれを記憶できる、任意の有形媒体であってもよい。
【0092】
コンピュータで読み取り可能な信号媒体には、例えば、ベースバンドで、または搬送波の一部として、コンピュータで読み取り可能なプログラムコードが具現化された伝搬データ信号を含むことができる。そのような伝播信号は、電磁、光学またはそれらの任意の適切な組み合わせを含むが、それらに限定されない、任意の様々な形態がある。コンピュータで読み取り可能な信号媒体は、コンピュータで読み取り可能な記録媒体ではなく、命令実行システム、装置または装置によって、またはそれに関連して使用するためにプログラムを通信、伝播、または移送できる、任意のコンピュータで読み取り可能な媒体であってもよい。
【0093】
コンピュータで読み取り可能な媒体で具現化されるプログラムコードは、無線、有線、光ファイバケーブル、RF等、あるいは前述した任意の適切な組合せを含むが、これらに限定されない、任意の適切な媒体を用いて送信される。
【0094】
本発明の態様に関する処理を実行するためのコンピュータプログラムコードは、Java、Smalltalk(登録商標)、C++等のオブジェクト指向プログラミング言語及び「C」プログラミング言語または類似のプログラミング言語等の従来の手続き型プログラミング言語を含む、1つまたは複数のプログラミング言語の任意の組み合わせで書くことができる。プログラムコードは、全体的にユーザのコンピュータで実行されてもよく、スタンドアロンソフトウェアパッケージとして部分的にユーザのコンピュータで実行されてもよく、部分的にユーザのコンピュータで実行され、かつ部分的にリモートコンピュータで実行されてもよく、全体的にリモートコンピュータまたはサーバで実行されてもよい。後者のシナリオにおいて、リモートコンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含む任意のタイプのネットワークを介してユーザのコンピュータと接続されてもよく、(例えば、インターネットサービスプロバイダを利用したインターネットを介して)外部コンピュータと接続されてもよい。
【0095】
本発明の態様について、本発明の実施形態による方法、装置(システム)、並びにコンピュータプログラムプロダクトのフローチャート及び/またはブロック図を参照して以下で説明する。フローチャート及び/またはブロック図の各ブロック、並びにフローチャート及び/またはブロック図のブロックにおける組合せは、コンピュータプログラム命令によって実施できることを理解されたい。これらのコンピュータプログラム命令は、コンピュータまたは他のプログラマブルデータ処理装置のプロセッサを用いて実行される命令が、フローチャート及び/またはブロック図の1つまたは複数のブロックまたはモジュールに指定された機能/動作を実施するための手段を作り出すようなマシンを生成するために、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサに提供される。
【0096】
これらのコンピュータプログラム命令は、コンピュータで読み取り可能な媒体に保存された命令が、フローチャート及び/またはブロック図の1つまたは複数のブロックまたはモジュールに指定された機能/動作を実施するための命令を含むプロダクトを生成するように、コンピュータ、他のプログラマブルデータ処理装置または他のデバイスに、特定の方法で機能するように指示できるコンピュータで読み取り可能な媒体に保存できる。
【0097】
コンピュータプログラム命令は、またコンピュータ、他のプログラマブルデータ処理装置または他のデバイスにロードされて、一連の動作ステップがコンピュータ、他のプログラマブル装置または他のデバイスで実行され、コンピュータまたは他のプログラマブル装置で実行される命令が、フローチャート及び/またはブロック図のブロックまたはモジュールに指定された機能/動作を実施するためのプロセスを提供するように、コンピュータで実施されるプロセスを生成できる。
【0098】
本明細書で使用する「プロセッサ」という用語は、例えばCPU(central processing unit)及び/または他の処理回路を含むもの等、任意の処理装置を含むことを意図している。また、「プロセッサ」という用語は1つまたは複数の処理装置を指すことが可能であり、処理装置に関連する様々な要素は、他の処理装置によって共有されることも理解されたい。
【0099】
本明細書で使用する「メモリ」という用語は、例えば、RAM、ROM、固定メモリデバイス(例えば、ハードドライブ)、リムーバブルメモリデバイス(例えば、ディスケット)、フラッシュメモリ等、プロセッサまたはCPUに関連するメモリを含むことを意図している。このようなメモリは、コンピュータで読み取り可能な記録媒体と考えることができる。
【0100】
さらに、本明細書で使用する「入力/出力装置」または「I/O装置」という用語は、例えば、処理ユニットにデータを入力するための1つまたは複数の入力装置(例えば、キーボード、マウス、スキャナ等)及び/または処理ユニットに関連する、結果を提示するための1つまたは複数の出力装置(例えば、スピーカ、ディスプレイ、プリンタ等)を含むことを意図する。
【0101】
上記は、あらゆる観点において説明的かつ典型的であって限定的でないものと理解されるべきであり、本明細書で開示する本発明の範囲は、詳細な説明から決定されるべきではなく、特許法で認められた最大限の広さに基づいて解釈される特許請求の範囲から決定されるべきである。本明細書中に図示及び記載されている実施形態は、本発明の原理を説明するものにすぎず、本発明の範囲及び主旨から逸脱することなく当業者は様々な変更を実施することができることを理解されたい。当業者は、本発明の範囲及び精神から逸脱することなく、様々な他の特徴の組み合わせを実施できる。以上、本発明の態様について、特許法で要求される細部及び詳細な事項と共に説明したが、特許証で保護されることを要求する特許請求の範囲は、添付の特許請求の範囲に示されている。
図1
図2
図3
図4
図5
【国際調査報告】