特表2024-526039 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ エヌイーシー　ラボラトリーズ　アメリカ　インクの特許一覧

特表2024-526039分析を向上させるためにカメラパラメータを調整するための強化学習ベースシステム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-07-17

(54)【発明の名称】分析を向上させるためにカメラパラメータを調整するための強化学習ベースシステム

(51)【国際特許分類】

H04N 23/61 20230101AFI20240709BHJP

G06T 7/80 20170101ALI20240709BHJP

G06T 7/00 20170101ALI20240709BHJP

【ＦＩ】

H04N23/61

G06T7/80

G06T7/00 350B

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2023574224

(86)(22)【出願日】2022-05-27

(85)【翻訳文提出日】2024-01-23

(86)【国際出願番号】 US2022031279

(87)【国際公開番号】W WO2022256246

(87)【国際公開日】2022-12-08

(31)【優先権主張番号】63/196,399

(32)【優先日】2021-06-03

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】17/825,519

(32)【優先日】2022-05-26

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＪＡＶＡ

(71)【出願人】

【識別番号】504080663

【氏名又は名称】エヌイーシーラボラトリーズアメリカインク

【氏名又は名称原語表記】ＮＥＣＬａｂｏｒａｔｏｒｉｅｓＡｍｅｒｉｃａ，Ｉｎｃ．

(74)【代理人】

【識別番号】100123788

【弁理士】

【氏名又は名称】宮崎昭夫

(74)【代理人】

【識別番号】100127454

【弁理士】

【氏名又は名称】緒方雅昭

(72)【発明者】

【氏名】ラオ、クナル

(72)【発明者】

【氏名】コヴィエロ、ジュゼッペ

(72)【発明者】

【氏名】サンカラダス、ムルガン

(72)【発明者】

【氏名】ポ、オリバー

(72)【発明者】

【氏名】チャクラッダー、スリマット

(72)【発明者】

【氏名】ポール、シベンデュ

【テーマコード（参考）】

5C122

5L096

【Ｆターム（参考）】

5C122DA03

5C122EA55

5C122EA67

5C122FA18

5C122FG13

5C122FH11

5C122FH23

5C122HA13

5C122HA35

5C122HB01

5C122HB09

5C122HB10

5L096AA06

5L096BA02

5L096CA05

5L096DA02

5L096FA02

5L096FA69

5L096HA09

5L096JA11

5L096JA22

5L096KA04

5L096KA15

5L096MA01

(57)【要約】

環境条件の継続的な変化を通してビデオ分析精度を向上させるためにカメラパラメータを自動的に変更するための方法が提示される。本方法は、複数のカメラからビデオストリームを取り込み、分析ユニット（ＡＵ）として定義されるビデオ分析タスクをビデオストリームに実行し、ビデオストリームに画像処理を適用して処理済みのフレームを取得し、低品質のフレームを破棄するために、処理済みのフレームをフィルタに通してフィルタリングし、複数のカメラのパラメータを動的に微調整することを含む。本微調整は、フィルタリングされたフレームをＡＵ固有のプロキシ品質評価器に渡し、ＳＡＲＳＡ（State-Action-Reward-State-Action）強化学習計算を用いて、複数のカメラのパラメータを自動的に微調整し、強化計算に基づいて、エージェントがアクションを実行し、報酬の最大化を学習するための新しいポリシーを適用することを含む。
【選択図】図５

【特許請求の範囲】

【請求項1】

環境条件の継続的な変化を通してビデオ分析精度を向上させるためにカメラパラメータを自動的に変更するための方法であって、
複数のカメラからビデオストリームを取り込み（１００１）、
分析ユニット（ＡＵ）として定義されるビデオ分析タスクを前記ビデオストリームに実行し（１００３）、
前記ビデオストリームに画像処理を適用して処理済みのフレームを取得し（１００５）、
低品質のフレームを破棄するために、前記処理済みのフレームをフィルタに通してフィルタリングし（１００７）、
前記フィルタリングされたフレームをＡＵ固有のプロキシ品質評価器に渡し、状態－アクション－報酬－状態－アクション（ＳＡＲＳＡ：State-Action-Reward-State-Action）強化学習（ＲＬ）計算を用いて、前記複数のカメラのパラメータを自動的に微調整し、前記強化計算に基づいて、エージェントがアクションを実行し、報酬の最大化を学習するための新しいポリシーを適用することで、前記複数のカメラのパラメータを動的に微調整する（１００９）、方法。

【請求項2】

仮想カメラ（ＶＣ）が、
前記ビデオストリームから取り込まれた全く同じシーンに、異なる環境特性を適用し、異なるカメラ設定で評価し、
ＲＬアルゴリズム及びＲＬで使用される様々な報酬関数を迅速かつ個別に訓練及びテストするために使用される、請求項１に記載の方法。

【請求項3】

前記ＶＣは、オフラインプロファイリング段階とオンライン段階とを含む、請求項２に記載の方法。

【請求項4】

前記オフラインプロファイリング段階を通してＶＣカメラテーブル及びマッピング関数が生成され、前記マッピング関数は、１日における特定の時間を、その時間で観測された対応する明るさ、コントラスト、彩度及びシャープネスの特徴値にマッピングする、請求項３に記載の方法。

【請求項5】

前記オンライン段階を通して取り込み時間以外の時間帯に対応する異なる環境条件のフレームがシミュレートされる、請求項３に記載の方法。

【請求項6】

前記ＡＵのそれぞれに固有の分析品質（ＡＱ）メトリックが、ＡＵ固有の品質評価器を訓練するために使用される、請求項１に記載の方法。

【請求項7】

実際の配備においてグラウンドトゥルースが存在しない場合、前記ＡＵ固有の品質評価器が、前記ＡＵを評価するためのプロキシとして使用される、請求項６に記載の方法。

【請求項8】

前記ＳＡＲＳＡＲＬ計算は、状態、アクション及び報酬を含み、前記状態は、前記複数のカメラのうちのカメラの現在の明るさ、コントラスト、シャープネス及び色のパラメータ値を含むベクトル、並びに明るさ、コントラスト、シャープネス及び色の測定値であり、前記アクションは、明るさ、コントラスト、シャープネスまたは色のパラメータ値の１つを増減するか、まったくアクションを行わないことであり、前記報酬はＡＵ固有の品質評価器の出力である、請求項１に記載の方法。

【請求項9】

環境条件の継続的な変化を通してビデオ分析精度を向上させるためにカメラパラメータを自動的に変更するためのコンピュータで読み取り可能なプログラムを含む、非一時的なコンピュータで読み取り可能な記録媒体であって、
前記コンピュータで読み取り可能なプログラムが前記コンピュータで実行されると、前記コンピュータに、
複数のカメラからビデオストリームを取り込ませ（１００１）、
分析ユニット（ＡＵ）として定義されるビデオ分析タスクを前記ビデオストリームに実行させ（１００３）、
前記ビデオストリームに画像処理を適用して処理済みのフレームを取得させ（１００５）、
低品質のフレームを破棄するために、前記処理済みのフレームをフィルタに通してフィルタリングさせ（１００７）、
前記フィルタリングされたフレームをＡＵ固有のプロキシ品質評価器に渡し、状態－アクション－報酬－状態－アクション（ＳＡＲＳＡ：State-Action-Reward-State-Action）強化学習（ＲＬ）計算を用いて、前記複数のカメラのパラメータを自動的に微調整し、前記強化計算に基づいて、エージェントがアクションを実行し、報酬の最大化を学習するための新しいポリシーを適用することで、前記複数のカメラのパラメータを動的に微調整させる（１００９）、非一時的なコンピュータで読み取り可能な記録媒体。

【請求項10】

仮想カメラ（ＶＣ）が、
前記ビデオストリームから取り込まれた全く同じシーンに、異なる環境特性を適用し、異なるカメラ設定で評価し、
ＲＬアルゴリズム及びＲＬで使用される様々な報酬関数を迅速かつ個別に訓練及びテストするために使用される、請求項９に記載の非一時的なコンピュータで読み取り可能な記録媒体。

【請求項11】

前記ＶＣは、オフラインプロファイリング段階とオンライン段階とを含む、請求項１０に記載の非一時的なコンピュータで読み取り可能な記録媒体。

【請求項12】

前記オフラインプロファイリング段階を通してＶＣカメラテーブル及びマッピング関数が生成され、前記マッピング関数は、１日における特定の時間を、その時間で観測された対応する明るさ、コントラスト、彩度及びシャープネスの特徴値にマッピングする、請求項１１に記載の非一時的なコンピュータで読み取り可能な記録媒体。

【請求項13】

前記オンライン段階を通して取り込み時間以外の時間帯に対応する異なる環境条件のフレームがシミュレートされる、請求項１１に記載の非一時的なコンピュータで読み取り可能な記録媒体。

【請求項14】

前記ＡＵのそれぞれに固有の分析品質（ＡＱ）メトリックが、ＡＵ固有の品質評価器を訓練するために使用される、請求項９に記載の非一時的なコンピュータで読み取り可能な記録媒体。

【請求項15】

実際の配備においてグラウンドトゥルースが存在しない場合、前記ＡＵ固有の品質評価器が、前記ＡＵを評価するためのプロキシとして使用される、請求項１４に記載の非一時的なコンピュータで読み取り可能な記録媒体。

【請求項16】

環境条件の継続的な変化を通してビデオ分析精度を向上させるためにカメラパラメータを自動的に変更するためのシステムであって、
メモリと、
複数のカメラからビデオストリームを取り込み（１００１）、
分析ユニット（ＡＵ）として定義されるビデオ分析タスクを前記ビデオストリームに実行し（１００３）、
前記ビデオストリームに画像処理を適用して処理済みのフレームを取得し（１００５）、
低品質のフレームを破棄するために、前記処理済みのフレームをフィルタに通してフィルタリングし（１００７）、
前記フィルタリングされたフレームをＡＵ固有のプロキシ品質評価器に渡し、状態－アクション－報酬－状態－アクション（ＳＡＲＳＡ：State-Action-Reward-State-Action）強化学習（ＲＬ）計算を用いて、前記複数のカメラのパラメータを自動的に微調整し、前記強化計算に基づいて、エージェントがアクションを実行し、報酬の最大化を学習するための新しいポリシーを適用することで、前記複数のカメラのパラメータを動的に微調整する（１００９）ように構成された、前記メモリと通信する１つまたは複数のプロセッサと、
を有するシステム。

【請求項17】

仮想カメラ（ＶＣ）が、
前記ビデオストリームから取り込まれた全く同じシーンに、異なる環境特性を適用し、異なるカメラ設定で評価し、
ＲＬアルゴリズム及びＲＬで使用される様々な報酬関数を迅速かつ個別に訓練及びテストするために使用される、請求項１６に記載のシステム。

【請求項18】

前記ＶＣは、オフラインプロファイリング段階とオンライン段階とを含む、請求項１７に記載のシステム。

【請求項19】

前記オフラインプロファイリング段階を通してＶＣカメラテーブル及びマッピング関数が生成され、前記マッピング関数は、１日における特定の時間を、その時間で観測された対応する明るさ、コントラスト、彩度及びシャープネスの特徴値にマッピングする、請求項１８に記載のシステム。

【請求項20】

前記オンライン段階を通して取り込み時間以外の時間帯に対応する異なる環境条件のフレームがシミュレートされる、請求項１８に記載のシステム。

【発明の詳細な説明】

【技術分野】

【0001】

この出願は、２０２１年６月３日に出願された米国仮特許出願第６３／１９６，３９９号及び２０２２年５月２６日に出願された米国特許出願第１７／８２５，５１９号を基礎とする優先権を主張し、それらの両方の開示の全てをここに取り込む。

【0002】

本発明は、ビデオ分析に関し、より詳細には、分析を向上させるためにカメラパラメータを調整するための強化学習ベースシステムに関する。

【背景技術】

【0003】

ビデオ分析は、コンピュータビジョンアルゴリズム、深層学習、エッジコンピューティング、５Ｇ等の進歩により、過去１０年間で一般的になった。この市場は、新型コロナウイルス感染症（ＣＯＶＩＤ－１９）の時代にさらに勢いを増しており、それは政府機関が、人混みの制限、人同士の距離の確保、接触者の追跡等、新たに発生した新型コロナウイルス感染症に特有のアプリケーションに対処するため、映像を分析することに価値があると考えているからである。都市全体のユビキタスなエッジカメラの導入により、映像に対して様々な分析タスクを実行できるようになる。但し、これらの映像は、それが配置されている環境（変化し続ける）の影響を直接受ける。変化を考慮してそれに適応しないと、分析タスクの精度が低下する可能性がある。

【発明の概要】

【0004】

環境条件の継続的な変化を通してビデオ分析精度を向上させるためにカメラパラメータを自動的に変更するための方法が提示される。本方法は、複数のカメラからビデオストリームを取り込み、分析ユニット（ＡＵ）として定義されるビデオ分析タスクをビデオストリームに実行し、ビデオストリームに画像処理を適用して処理済みのフレームを取得し、低品質のフレームを破棄するために、処理済みのフレームをフィルタに通してフィルタリングし、複数のカメラのパラメータを動的に微調整することを含む。微調整は、フィルタリングされたフレームをＡＵ固有のプロキシ品質評価器に渡し、状態－アクション－報酬－状態－アクション（ＳＡＲＳＡ：State-Action-Reward-State-Action）強化学習（ＲＬ）計算を用いて、複数のカメラのパラメータを自動的に微調整し、記強化計算に基づいて、エージェントがアクションを実行し、報酬の最大化を学習するための新しいポリシーを適用することを含む。

【0005】

環境条件の継続的な変化を通してビデオ分析精度を向上させるためにカメラパラメータを自動的に変更するためのコンピュータで読み取り可能なプログラムを含む、非一時的なコンピュータで読み取り可能な記録媒体が提示される。コンピュータで読み取り可能なプログラムがコンピュータで実行されると、コンピュータに、複数のカメラからビデオストリームを取り込ませ、分析ユニット（ＡＵ）として定義されるビデオ分析タスクを前記ビデオストリームに実行させ、ビデオストリームに画像処理を適用して処理済みのフレームを取得させ、低品質のフレームを破棄するために、処理済みのフレームをフィルタに通してフィルタリングさせ、複数のカメラのパラメータを動的に微調整させる。微調整は、フィルタリングされたフレームをＡＵ固有のプロキシ品質評価器に渡し、状態－アクション－報酬－状態－アクション（ＳＡＲＳＡ：State-Action-Reward-State-Action）強化学習（ＲＬ）計算を用いて、複数のカメラのパラメータを自動的に微調整し、強化計算に基づいて、エージェントがアクションを実行し、報酬の最大化を学習するための新しいポリシーを適用することを含む。

【0006】

環境条件の継続的な変化を通してビデオ分析精度を向上させるためにカメラパラメータを自動的に変更するためのシステムが提示される。本システムは、メモリと、複数のカメラからビデオストリームを取り込み、分析ユニット（ＡＵ）として定義されるビデオ分析タスクをビデオストリームに実行し、ビデオストリームに画像処理を適用して処理済みのフレームを取得し、低品質のフレームを破棄するために、処理済みのフレームをフィルタに通してフィルタリングし、複数のカメラのパラメータを動的に微調整するように構成された、メモリと通信する１つまたは複数のプロセッサとを有する。微調整は、フィルタリングされたフレームをＡＵ固有のプロキシ品質評価器に渡し、状態－アクション－報酬－状態－アクション（ＳＡＲＳＡ：State-Action-Reward-State-Action）強化学習（ＲＬ）計算を用いて、複数のカメラのパラメータを自動的に微調整し、強化計算に基づいて、エージェントがアクションを実行し、報酬の最大化を学習するための新しいポリシーを適用することを含む。

【0007】

これら及び他の特徴並びに利点は、以下の典型的な実施形態の詳細な説明を添付の図面と併せて読むことで明らかになるであろう。

【0008】

本開示では、後述するように、以下の図面を参照しながら好ましい実施形態について詳細に説明する。

【図面の簡単な説明】

【0009】

【図1】図１は、本発明の実施形態による、カメラパラメータを修正するための例示的な制御ループのブロック／フロー図である。

【0010】

【図2】図２は、本発明の実施形態による、仮想カメラパラメータを修正するための例示的な制御ループのブロック／フロー図である。

【0011】

【図3】図３は、本発明の実施形態による、環境条件の継続的な変化を通してビデオ分析精度を向上させるためにカメラパラメータを自動的に変更するための例示的な実際のアプリケーションである。

【0012】

【図4】図４は、本発明の実施形態による、環境条件の継続的な変化を通してビデオ分析精度を向上させるためにカメラパラメータを自動的に変更するための例示的な処理システムである。

【0013】

【図5】図５は、本発明の実施形態による、環境条件の継続的な変化を通してビデオ分析精度を向上させるためにカメラパラメータを自動的に変更するための例示的な方法のブロック／フロー図である。

【発明を実施するための形態】

【0014】

ビデオ分析は、コンピュータビジョンアルゴリズム、人工知能、深層学習及び機械学習の進歩、ＩｏＴ（Internet of Things）及びエッジコンピューティングの成長に５Ｇの可用性が加わることで、低遅延で高帯域幅の通信が可能になり、過去１０年間でごく一般的となって広く普及した。これらの要素は、既に監視、交通モニタ、小売分析、ヘルスケア、銀行業務等を含む、様々な分野で全体的にビデオ分析市場規模の成長を促進していたが、新型コロナウイルス感染症がその成長をさらに加速させた。

【0015】

具体的には、人同士の距離の確保、政府機関によるロックダウン及び封じ込めゾーンの管理、発熱スクリーニング、施設内の任意の時点における群衆及び総人数の制限、マスクをしている各個人の認識、実態的な人口統計の特定、非接触な取引、支払い及び搭乗手続きの実現等は、新たな需要であることが判明しており、これらの新たに発生した新型コロナウイルス感染症に特有のシナリオに対処する当局の日々の仕事を支援する上で、ビデオ分析が重要な役割を果たしている。

【0016】

カメラは、世界中に都市規模で配備されており、様々な種類のビデオ分析タスクがこれらの映像に対して行われている。これらのビデオ分析タスクは、分析ユニット（ＡＵ：Analytics Unit）と呼ばれる。ＡＵの要件に応じて、カメラは屋内または屋外のいずれかに配置される。例えば、交通量の分析の場合、ビデオカメラは道路または高速道路に向けて屋外に配置されるが、非接触の搭乗手続きの場合、カメラは屋内の搭乗ゲートの入り口に向けて配置される。同じタスク、例えばビデオ監視の場合、カメラは屋外（例えば、駐車場）だけでなく屋内（例えば、建物内の廊下）にも配備される。したがって、異なるＡＵには異なる場所に配置されたビデオカメラが必要であり、これらのカメラはそれぞれ異なるシーンをとらえている。特に、条件は、太陽からの自然光、人工照明またはそれらの組み合わせを提供することがある。これは、明るいシーンや暗いシーンとなり、時間の経過と共に変化する。例えば、屋外の条件では、気象条件（曇り、晴れ、雨、霧等)及び１日の時間帯（夜明け、朝、午後、夕方、夕暮れ、黄昏、夜間等）によって異なり、屋内の条件では、屋内における配置場所とそのエリアにおける人工光及び自然光の量によって異なる。

【0017】

照明の特定の方向は、投影される影の方向を変えるため、カメラによるシーンの見え方も変わる。これら動的に変化する全ての環境条件は、ＡＵの精度に影響を与える。リアルタイム応答の場合、精度は最後に観察されたビデオフレームに依存し、その時点でカメラによって観察されている条件に直接影響される。

【0018】

任意のカメラによって生成される最終画像は、カメラレンズ、カメラモジュール及びセンサの種類、並びにカメラシステムで使用される画像信号処理（ＩＳＰ：Image Signal Processing）のパイプライン全体に依存する。ＩＳＰは、これにおいて重要な役割を果たし、取り込まれたロウ（raw）データを最終圧縮画像に変換する。この一環として、最終画像品質を調整する、ノブ（knob）と呼ばれる幾つかの構成パラメータが公開されている。例示的な方法は、これらのノブのサブセットに焦点を当てる。カメラの供給業者は様々なノブのデフォルト設定を提供しているが、これらのデフォルト設定は、追加設定無しで使用できるようにはならず、様々な配置条件において良好な画像品質を提供できない。これらは、複数のノブを手動で調整し、場所に応じた特定の配置条件で較正する際のガイダンスを提供する。但し、この手動調整及び較正は、その特定の場所における条件がほぼ同じままであることを前提とする。上述したように、条件は変化し続けるため、新しい条件では初期校正がうまく機能しない可能性がある。

【0019】

したがって、ビデオ分析タスクに適した高品質な画像をＩＳＰパイプラインで生成できるように、これらのカメラパラメータを継続的に変更させる必要がある。さらに、これは都市全体に配備する規模の各カメラに対して行う必要があり、人が行うのは現実的ではない。本明細書で提案するＣａｍＴｕｎｅｒは、このニーズに対処し、カメラパラメータを自動的に変更して（都市全体に配置する規模で）ビデオ分析精度を向上させる。例示的な方法は、環境の変化は突然ではなく、ある期間にわたって徐々に起きるという事実を利用しており、これによりＣａｍＴｕｎｅｒは条件を常に監視し、徐々に変化する条件に対して動的な変更及び微調整を可能にする。

【0020】

本発明の例示的な実施形態は、カメラパラメータが変更されない場合、異なるＡＵが異なるレベルの劣化を受けることを経験的に示している。そこで、例示的な方法は、ＡＵのパフォーマンスを向上できる、より良好なカメラパラメータの設定が存在することを示す。本発明の例示的な実施形態は、デジタルツインと呼ばれる、物理的なカメラパラメータのデジタル相当値を見つけるための新しいメカニズムを導入し、これにより異なるカメラ設定下におけるＡＵのパフォーマンスを分析できるようにする。本発明の例示的な実施形態は、ＡＵについて、環境条件が異なると最適なカメラ設定が異なり、それによって自動でかつ動的な調整の必要性が高まることを検証する。本発明の例示的な実施形態は、変化する環境条件に動的に適応するために、状態－アクション－報酬－状態－アクション（ＳＡＲＳＡ：State-Action-Reward-State-Action）強化学習（ＲＬ）アルゴリズム（または計算）を導入し、その一環として、例示的な方法は、エージェントがアクションを実行し、報酬の最大化を学習するための新しいポリシーを導入する。

【0021】

本発明の例示的な実施形態は、システムが様々な環境特性を適用し、全く同じシーンに対する様々なカメラ設定の影響を検討できるようにし、さらに自動でカメラパラメータの調整のためのＲＬアルゴリズムの訓練及びテストを可能する仮想カメラ（ＶＣ）シミュレータを提案する。ランタイムにおいて、ＲＬは実行する全てのアクションに対して継続的にかつ自動的に報酬を必要とする。ＳＯＴＡＡＱｕＡフィルタは、様々なＡＵに関するきめ細かな（fine-grained）品質評価を提供できないことが観察されている。ＡＱｕＡは分析品質評価（Analytic Quality Assessment）の略である。ＡＱｕＡは、フレームの歪みレベルをスコアリングすることで、歪んだフレームに対するアプリケーションの精度を保護する。ＡＱｕＡは、新しいメトリック、つまり分類器のオピニオンスコアを学習することで、視覚的な質ではなくフレームの分析品質を考慮し、軽いＣＮＮベースのオブジェクトに依存しない特徴抽出器を使用する。ＡＱｕＡはフレームの歪みレベルを正確にスコア付けし、複数の異なる深層学習アプリケーションに一般化する。

【0022】

これに対処するため、例示的な方法は、各ＡＵに固有の分析品質（ＡＱ）メトリックを定義し、そのメトリックを用いてＲＬアクション毎に品質の報酬を提供するＡＵ固有のＡＱｕＡ分類器を訓練する。本発明の例示的な実施形態は、ＣａｍＴｕｎｅｒで使用される様々なコンポーネントの効果を示す複数の評価を実施する。ＣａｍＴｕｎｅｒは、特定のＡＵのニーズに基づいてカメラパラメータを自動的に調整することで環境条件の変化に適応し、ＡＵの精度を向上させる重要なシステムである。

【0023】

ＣａｍＴｕｎｅｒは、カメラのノブに焦点を当てているが、高レベルのアイデアは、調整される複数のノブを有するセンサに適用され、継続的に変化する環境条件に適応して変更される。その例の１つはサーマルカメラであり、「温度補償」のために「オブジェクトの放射率」、「大気透過率」、「周囲温度」等のノブが開示される。正確な温度測定のため、これらのパラメータは実際の環境条件に基づいて連続して変更する必要がある。また、ＰＴＺカメラの場合、対象のオブジェクトがシーンにおいて移動するため、「パン」、「チルト」、「ズーム」等のノブを分析要件に基づいて連続して変更する必要がある。

【0024】

まる１日にわたる環境の変化は、取得中のフレームで様々な歪み（例えば、太陽光の下での露出過剰、低照度ノイズ、夜間の露出不足等）を引き起こす。これらの歪みは、条件の変化に応じてカメラの設定を変更しない場合、様々なＡＵのパフォーマンスに影響を及ぼし、ほとんどの場合はパフォーマンスを低下させる。同じカメラの位置から１日の環境の変化を捉える公的に利用可能なビデオデータセットは不足しているため、例示的な方法では、朝から夕方まで単一のカメラで野球場等の屋外で撮影された個人等が所有するビデオが使用される。

【0025】

デフォルトのカメラ設定では、異なる環境条件の存在により、同じカメラフィードのＡＵの精度が１日を通して変化する。具体的には、正午（まぶしい太陽光がある場合）では、取り込まれたフレームにおける顔が露出オーバーになるため、朝のビデオのＡＵのパフォーマンスよりも精度が低くなる。但し、夕方のビデオでは低照度のノイズが発生し、精度も低下する。午後の中頃のビデオフレームにおける顔はわずかに遮られ、顔検出器による検出が困難になるが、午後を通した照明条件は良好なため、人物検出器のＡＵは境界ボックスを正確に予測でき、その結果、最適なｍＡＰのパフォーマンスが得られる。

【0026】

ＡＵに対するカメラの設定の影響に関しては、デフォルトの設定で観察される全ての精度を向上させることができる最良のカメラの設定が少なくとも存在するため、例示的な方法は、カメラパラメータの異なる組み合わせが、様々な環境条件において異なる方法で取り込まれた異なる画像及びビデオのスニペットに、どのように影響を与えるかを検討する。

【0027】

仮想ノブに関して、再現性と一貫性を持たせるために、例示的な方法は、ある特定のシーンが撮影可能であり、同じシーンに異なるカメラの設定を適用できる必要がある。シーンは変化し続けるが、カメラの様々なノブの設定は１つだけであるため、カメラの実際の物理設定に相当するデジタル設定を見つけることが重要になる。このデジタル相当値は、あたかもカメラ自体の物理設定を変更して撮影されたかのような画像を忠実に生成する必要がある。このデジタル相当値は、カメラのデジタルツインと呼ばれる。以下に記載するアルゴリズム１によれば、ＡＸＩＳＱ１６１５ネットワークカメラの４つの調整パラメータ（明るさ、コントラスト、彩度、シャープネス）のカメラデジタルツインは次のようになる。

【表1】

【0028】

このデジタルツインは、物理的なカメラの設定空間全体を横断することで達成できる、デジタルドメインにおける等価検索空間を見つけるのに役に立つ。デジタルドメインにおけるノブの値は、それぞれのノブの値を用いて両方のドメインで取得された画像が最大ＳＳＩＭ（少なくとも０．９０より大きい）を提供する場合にのみ、物理的なノブの値の信頼できる表現として扱われる。デジタルドメインにおける等価検索空間は、デジタル変換されたカメラフレームと実際の物理的なカメラフレームとの間の類似性をテストするために使用される、構造的類似性（ＳＳＩＭ：structural similarity）、マルチスケール構造的類似性（ＭＳ－ＳＳＩＭ：multiscale-structural similarity）、ＭＳＥ及びＰＳＮＲ等のフルリファレンス画像品質評価（ＦＲ－ＩＱＡ：full-reference Image-Quality assessment）法と、使用している画像変換アルゴリズムと、に依存する。デジタルドメインにおけるこれらの様々な等価検索空間の範囲をテーブル１に示す。

【表2】

【0029】

最後に、特定の調整パラメータに対する異なるＦＲ‐ＩＱＡ法で得られたこれらの異なる範囲の和集合が、テーブル２でリストされた等価デジタル検索空間として採用される。

【表3】

【0030】

仮想ノブを変更することの影響に関して、デジタルドメインにおける等価範囲のパラメータを用いて、全ての画像またはフレームに対して、４つの調整パラメータのうちの１つを変更しながら、同時にＡＵの精度がどのように変化するかを判定する。例示的な方法は、単一のパラメータを一旦変更することでＡＵの精度に対する可能な限り最良の影響を調査する。

【0031】

彩度を変更すると、ＦｉｖｅＫロウ（raw）画像データセットの１００枚のランダム画像では、顔検出（すなわち、ｍＡＰ）の分析精度に５％影響する。さらに、単一の調整ノブを変更すると、顔認識ＡＵは、ｃｅｌｅｂＡデータセットからランダムに選択された１１５０枚の有名人の画像のうち、ベースラインよりもさらに１０枚の画像を認識する。生体検知ＡＵは、画像が本物か偽物かを検出し（つまり、キャッシュレス決済で重要な役割を果たす)、コントラスト調整ノブを変更しつつ、バイナリ分類の精度を６．８％向上させ、ＭＳＵ－ＭＦＳＤデータセットの２８０枚の画像のうち、さらに２０枚の画像が本物か偽物か正しく分類される。

【0032】

彩度調整ノブの変更（すなわち、他のノブを固定したままにすること）により、個人等が所有する夜間ビデオの顔検出ＡＵのｍＡＰが７％向上する。オリンピックのアクションデータセットのビデオスニペットでは、コントラストを変化させると人物検出器ＡＵのｍＡＰが９％向上するが、顔検出器ＡＵのｍＡＰは彩度を変化させることで向上する。

【0033】

データセットに存在する全ての画像に対して個別に単一のパラメータを調整する粗い方法であっても、より良い分析結果を提供できる。但し、各カメラの調整ノブが分析精度に与える影響は本質的に単調ではなく、各画像またはビデオセグメントは異なる環境条件やカメラ設定で取り込まれるため、これら４つの画像の見た目のための調整ノブの共同の調整が、各静止画像及びビデオスニペットについて考慮される。

【0034】

静止画像に関して、公開データセット（例えば、ＦｉｖｅＫＲＡＷデータセット、ｃｅｌｅｂＡ等）で利用可能な各画像は、画像が撮影された頃に撮影されたであろうビデオスニペットのプロキシである。したがって、各画像は異なる環境下で様々なカメラ設定を用いて取り込まれる。カメラにおける最適なパラメータ設定は、ＡＵ固有の最も良好な分析品質を提供する構成に対応している。

【0035】

検出ＡＵに関して、例示的な方法は、ランダムに選択された１００枚のＦｉｖｅＫロウ（raw）画像の人物検出器としてＥｆｆｉｃｉｅｎｔｄｅｔ－ｖ０を使用し、顔検出器としてＲｅｔｉｎａＮｅｔを使用する。まず、これらの１００枚のロウ画像に対して、人物と対応する顔の境界ボックスに手動で注釈を付与する。アルゴリズム２（以下に再現）は、分析品質メトリックとしてｍＡＰと真陽性ＩｏＵを共に考慮した、顔または人物検出ＡＵのいずれかに対する最適なタプル検索アルゴリズムを示す。

【0036】

例示的な方法では、最初にテーブル２で示したパラメータ範囲を使用するが、最良の構成はデジタルツインを用いて得られるパラメータ範囲の上限に近いことが観察された。したがって、例示的な方法は、別の考えられる最良の構成を見逃さないように構成空間を拡張した。

【0037】

顔検出器ＡＵは、基本構成よりも最適構成で調整した後、さらに３９枚の画像で顔を検出できるが、人物検出については、最適構成の調整により、平均で２．８％のｍＡＰの向上と６．７％のＩｏＵの向上がもたらされる。したがって、顔検出等のよりきめ細かな分析に関する調整後は、同じ画像セットに対する人物検出と比べて、より高い改善が見られる。

【表4】

【0038】

顔認識ＡＵに関して、例示的な方法は、顔認識ＡＵパイプラインを考慮する。少なくとも１つの顔画像が関連付けられている人物のデータベースが与えられると、ＡＵは入力画像における顔を、一致スコアを用いて既知の人物（データベースに既に存在する）として認識する、または未知として分類する。データベースの構築には、ＣｅｌｅｂＡデータセットの人物毎に１つの画像が使用され、同じ人物のランダムに選択された別の画像の様々な拡張バージョンがクエリ画像として使用される。顔認識ＡＵの分析品質（ＡＱ）は、任意の画像の真陽性一致スコアとして定義される。

【0039】

４つのノブを組み合わせて調整することは、３００の未登録画像のうち、基本構成（すなわち、拡張なし）よりも４１（１３．６７％）多くの画像で顔を正確に認識するのに役に立つ。真陽性認識の一致スコアでさえ、平均３．６％向上する（例えば、分析品質は最大で１１．６％向上する)。ｍｉｎＥｙｅＤｉｓｔａｎｃｅ構成を２０から４０に変更すると、認識が大幅に向上し、基本構成と比較して最適構成の拡張では２０．６７％多くの画像が認識される。

【0040】

顔キーポイント検出ＡＵに関して、顔キーポイント検出ＡＵは、３００Ｗデータセットの画像に存在する顔の６８個の顔ランドマークを検出する。このＡＵの分析品質は、予測されたランドマークと実際のランドマークとの間の二乗平均平方根（ＲＭＳ：root-mean-square）距離として定義される。

【0041】

基本構成と比べて、最適な構成で調整を実施した後、２３０人の人物画像のうち１１枚以上の画像で顔ランドマークが検出されている。検出された画像の分析品質は、単純に基本構成を使用する場合よりも、最適な構成の調整下において平均で３１．１％向上する。

【0042】

構成空間全体にわたる最適なパラメータのばらつきは、異なる環境で異なるカメラ設定で撮影された各画像は異なるアテンション（すなわち、異なる最適な構成）が必要であることが分かる。

【0043】

ビデオスニペットに関して、各ビデオスニペットには数百以下の連続するフレームが含まれるため、撮影全体を通して同様の環境条件及びカメラ設定が示される。ビデオスニペットの最適な構成では、ビデオスニペット全体の全てのフレームにわたって最適な分析品質を提供する必要がある。例示的な方法は、ｃｖａｔツールを用いて顔及び人物境界ボックスに手動で注釈を付与した後、ＨＭＤＢデータセットの１９のビデオスニペット、並びにオリンピックデータセットの１１のビデオスニペットに対して検出ＡＵ（例えば、顔及び人物検出ＡＵ）を使用する。

【0044】

以下のテーブル３は、各ビデオスニペットで異なる調整を行った後に達成できる最大及び平均の分析品質の改善を示している。

【表5】

【0045】

オリンピック及びＨＭＤＢデータセットにおける各ビデオセグメントは高圧縮されている。したがって、より粗い人物検出ＡＵは、人物を検出するために、はるかに大きなスペース、つまりフレームにおけるより多くのピクセルを探し、きめ細かな顔検出ＡＵよりもそのような圧縮を許容できる。但し、きめ細かな顔検出では、一般にフレームにおいて非常に小さいスペース、つまり顔を検出するためにより少ないピクセルを探すが、テーブル３で示した人物検出ＡＵよりも圧縮アーティファクトが深刻な、小さい顔検出の改善はあまり期待できない。

【0046】

異なるＡＵとの連系における、異なるカメラ設定（異なるコンテンツが埋め込まれた）を備える異なる環境条件を示す各静止画像またはビデオスニペットに対して、最も高いＡＵ精度を提供する独自のパラメータセットが存在する。これらのパラメータは人が識別することはできない。さらに、人は環境の変化に応じてこれらのパラメータを変更し続けることはできない。したがって、様々な環境やカメラ設定下で最適なＡＵパフォーマンスを得るには、これらのノブの自動的な調整が必要である。

【0047】

ネットワークカメラの調整ノブを修正し、与えられたＡＵの分析品質を向上させるための制御ループが、図１のシステム１００に示されている。ライブビデオフィードは、外部環境からネットワークカメラのイメージセンサ１０２によって連続して取り込まれ、ＩＳＰパイプラインを通じて様々な画像処理技術１０４が適用されて最終処理フレームが取得される。無線ネットワーク（４Ｇまたは５Ｇ）を用いてさらに分析する場合、エッジサーバまたはリモートクラウドにオフロードする前に、これらの処理されたフレームは、高い確度で誤り（ＡＵには適さない）を引き起こす可能性がある低品質フレームを破棄するのに役に立つ、軽いＡＱｕＡフィルタ１０６によってフィルタリングされる。これは、ＡＵの精度向上やより良好な分析のためのカメラパラメータの調整に寄与しないフレームを早期に破棄することで、ワイヤレスネットワークの帯域幅要件を軽減するためにも役に立つ。

【0048】

エッジサーバでは、フィルタリングされ、オフロードされたフレームが、異なる分析パイプラインと、きめ細かなＡＵ固有の分析品質評価器１１０とを並行して通過する。例示的な方法は、共同ｍＡＰ及び任意の検出ＡＵのＩｏＵメトリック、顔認識ＡＵの一致スコア、並びにキーポイント検出における予測キーポイントと実際のキーポイントとの間のＲＭＳ距離を備えた分析品質評価器を使用できる。しかしながら、これらの評価器は、全てグラウンドトゥルース（またはラベル付きデータ）を必要とする。これは、いくつかの分析のために受信フレームに連続してラベルを付与する制御ループを人が管理しない限り、ランタイムにおいて不可能であり、現実的ではない。

【0049】

ＡＵ品質を判定するために使用できるグラウンドトゥルース（実際の展開では不可能）を生成する代わりに、例示的な方法は、きめ細かなプロキシ品質評価器１１０を導入する。プロキシ品質評価器１１０は、ＡＵ固有であり、オフロードされたフレームの品質を判定するために使用できる品質推定値を提供する。プロキシ品質評価器１１０で判定されたＡＵ品質に基づいて、カメラパラメータが自動的に調整されて、ＡＵ品質がさらに向上する。カメラ供給業者は、カメラパラメータをプログラムで変更できるＡＰＩを提供している。通常、パラメータの変更は非常に短い時間（約１５０～２００ミリ秒)で済むため、本アプローチはカメラパラメータを動的に調整する場合に適している。本調整プロセスはＡＵの存続期間中継続する。具体的には、例示的な方法は、強化学習（ＲＬ）技術を利用してパラメータを調整する。

【0050】

カメラパラメータの調整に関して、カメラパラメータを自動で調整するために、例示的な方法は、個々のＡＵ１０８毎にＲＬ技術を利用する。特に、例示的な方法は、ＳＡＲＳＡ（State-Action-Reward-State-Action）ＲＬアルゴリズム１１５またはＲＬ計算を使用する。この設定では、様々なアクションを実行することで環境、つまり環境の状態と相互作用するエージェントが存在する。エージェントがアクションを実行すると、エージェントは新しい異なる環境に到着する。各アクションには、新しく達成された状態が望ましいか否か、つまり、エージェントが肯定的な方向に導くか否定的な方向に導くかに応じて、報酬またはペナルティが関連付けられる。時間の経過と共に、エージェントがアクションを継続的に実行して報酬とペナルティを受け取ると、エージェントが正しいアクションを取ることで報酬の最大化を学習し、最終的にエージェントをポジティブな方向に導く。

【0051】

ＳＡＲＳＡ１１５は、ラベル付けされたデータや事前訓練されたモデルを必要とせず、ＳＡＲＳＡ１１５が実行するアクションに基づいてそのポリシーを学習して更新する。したがって、ＳＡＲＳＡ１１５は、ポリシーに基づく学習アルゴリズムであり、環境、すなわち状態、アクション、報酬の明確な定義が必要である。カメラパラメータの自動調整を目的として、以下が定義される。

【0052】

状態に関して、これは、カメラの現在の明るさ、コントラスト、シャープネス及び色のパラメータ値を含むベクトルと、明るさ、コントラスト、シャープネス及び色の測定値である。

【0053】

アクションに関して、エージェントが実行できるアクションのセットは、明るさ、コントラスト、シャープネスまたは色のパラメータ値のうちの１つを増減するか、若しくは全くアクションを実行しないことである。

【0054】

報酬に関して、例示的な方法は、ＳＡＲＳＡ１１５に関する報酬関数として、各ＡＵ１０８に関するプロキシ品質評価器１１０を使用する。品質の推定値が向上した場合は報酬と見なされ、品質の推定値が低下した場合はペナルティと見なされる。

【0055】

プロキシ品質評価器１１０を用いて得られる報酬は、即時報酬と呼ばれる。エージェントは、即時報酬を考慮するだけでなく、現在のアクションの結果で発生する可能性がある将来の報酬も考慮する。これに基づいて、Ｑ値と呼ばれる値が、状態ｓのときのアクションａを実行するために計算される。これはＱ（ｓ，ａ）で表される。Ｑ（ｓ，ａ）の値は、以下の式に従って計算される。ここで、αは０から１までの値を有する定数である。これは、エージェントが取得した新しい情報にどの程度の重要度を与えるかを制御するために使用できる。値１は新しい情報に高い重要度を与えるが、値０はエージェントの学習段階を停止する。初期段階において、オペレータはより高い値（例えば、０．９）を割り当てることができる。これにより、最新の情報をより重要視することで、エージェントが新しい環境を迅速に学習して理解できるようになる。エージェントが新しい環境の情報を学習して取り入れた後、エージェントが新しい環境について収集した情報の使用を開始するように、オペレータはαの値を、例えば０．１に下げることができる。

【数1】

【0056】

αと同様に、上記の式には０から１までの値を有する別の定数γを含む。この定数は割引係数と呼ばれ、エージェントが長期報酬に付与する重要度を制御するために使用できる。エージェントは、値が１の場合は長期的な報酬を重要視し、値が０の場合は長期的な報酬を無視して即時報酬のみに焦点を当てる。条件が非常に頻繁に変化する場合、即時報酬を優先するためにγに低い値（例えば、０．１）を割り当てることができる。一方、条件が頻繁に変化しない場合、長期的な報酬を優先するために、より高い値（例えば、０．９）を割り当てることができる。

【0057】

ＳＡＲＳＡアルゴリズム１１５において、エージェントが従うアルゴリズムは、以下のアルゴリズム３である。

【表6】

【0058】

ここで、エージェントは、まず環境、すなわち状態ｓを観察し、状態ｓで実行される適切なアクションａを選択する。アクションａを実行した後、エージェント即時報酬（またはペナルティ)ｒを受け取り、新しい状態ｓ’になる。この新しい状態において、エージェントで選択されたアクションはａ’であり、関連するＱ値はＱ（ｓ’，ａ’）である。エージェントは、これを用いて上記の方程式に従って累積報酬Ｑ（ｓ，ａ）を計算する。次に、エージェントは計算した累積Ｑ値を更新し、新しい状態ｓ’になる。このプロセスは、エージェントが連続して学習して環境に適応するために、ＡＵが存続する期間で継続する。

【0059】

アルゴリズム３は、ＳＡＲＳＡ１１５においてエージェントが従うステップを提供するが、実行されるアクションａを選択するためにエージェントが使用する正確な方法を提供するものではない。

【0060】

このため、例示的な方法は、実行するアクションをエージェントが決定するための新しいポリシーを考案する。本ポリシーは、以下のアルゴリズム４で示される。ここでは、イプシロン（epsilon）と呼ばれる定数が定義される。この定数は、０から１までの値を有し、オペレータが微調整できる。

【表7】

【0061】

最初に、エージェントは０から１までの乱数を生成する。乱数がイプシロンの設定値よりも大きい場合、ランダムなアクションが選択される。イプシロンの値が低いほど、より多くのランダムなアクションが生成されるようにトリガーされ、イプシロンの値が高いほど、より少ないランダムなアクションがトリガーされる。したがって、展開の初期段階では、エージェントが様々なアクションを探索するとき、通常、イプシロンの値はより低く設定される（例えば、０．１）。一方、エージェントが十分に探索した後では、エージェントが初期の探索段階で学習した情報の使用を開始し、その活用を開始するように、イプシロンの値はより高く、例えば、０，９に設定される。乱数がイプシロンの設定値よりも小さい場合、報酬ｒがチェックされる。報酬が０未満の場合、つまりアクションの結果としてペナルティが発生した場合、アクションは直ちに元に戻される。但し、報酬が正であっても、アクションの予測報酬よりも小さい場合は、同じアクションが繰り返される。したがって、これは、ポジティブな方向へ向かうアクションは繰り返される一方で、ネガティブな方向へ向かうアクションは直ぐに元に戻される貪欲ポリシー（greedy policy）である。

【0062】

ＡＵ固有の品質評価器設計に関して、ＡＵに依存しないＳＯＴＡＡＱｕＡフィルタは、予測品質と異なる分析品質との間のノミナルスピアマン（nominal spearman）相関（約－０．０３）を提供する。このＡＵに依存しないＡＱｕＡフィルタは、ＡＵが高い確度で誤りを提供する低品質のフレームをフィルタで除外できるが、きめ細かな品質値の予測を用いた高品質なオフロードされたフレームを区別することはできない。したがって、ランタイムにおいて、ＡＱｕＡフィルタを通過した任意のオフロードされたフレームの継続的な品質測定値（例えば、ＲＬアルゴリズムの報酬関数）を取得するため、例示的な方法は、ＡＵ固有のきめ細かなプロキシ品質評価モデルを設計する。これらの品質評価モデルは、以下のように様々なＡＵに対して定義されて訓練される。

【0063】

顔認識ＡＵについて、ｃｅｌｅｂＡデータセットからランダムにサンプリングされた３００人の有名人について、２つの画像が選択される。１つはデータベースを構築するためのリファレンス画像として選択され、もう１つは、クエリ画像として使用される、未登録画像及びその複数の拡張バリアントとして選択される（例えば、４つのノブの値を変更することで取得される）。これらのクエリ画像（約４Ｍ）は、品質評価モデルの訓練データセットを構成する。これらの各クエリ画像は、顔認識モデルに送信されると、［０，１］の間の一致スコアを有する有名人の名前を提供する。正しい顔認識毎に、例示的な方法は、クラスラベルとして、対応する四捨五入されたｍａｔｃｈＳｃｏｒｅ^＊１００の値を使用する。訓練データセットには合計で１０１のクラスが存在できる。したがって、既存のＡＱｕＡモデルは１０１の出力ノードで訓練できる。

【0064】

人物及び顔検出ＡＵについて、これらの検出ＡＵに特有の品質評価器を設計するため、例示的な方法は、オリンピック及びＨＭＤＢ訓練ビデオフレーム、並びにそれらの拡張バリアント（約７．５Ｍ）の２０１の出力ノードを用いてＡＱｕＡ分類モデルを訓練する。訓練中、各フレームは、以下の式で示すように、ｍＡＰの共同メトリックと真陽性検出のためのＩｏＵに基づいてクラスラベルに関連付けられる。したがって、クラスラベルが高いほど、分析品質が高くなる。

【数2】

【0065】

ＣａｍＴｕｎｅｒの有効性を検討すると、１つのアプローチは、実際のカメラを使用して動作し、２つのケースにおけるＡＵ精度を比較することでアプローチの影響を示すことである。例えば、第１のケースでは、例示的な技術が適用されず、静的なカメラパラメータが適用される。第２のケースにおいて、例示的な方法は、本技術を適用してカメラパラメータを動的に調整する。但し、本アプローチの問題は、カメラが任意の時点でパラメータのセットを１つしか有することができず、両方の条件（例示的な手法の有無にかかわらず）を１台のカメラで同時に実行できないことである。異なる時間に設定すると、環境（晴れ、曇り等）やシーンの条件（視野において見える顔等）が異なるため、公平な比較にはならない。

【0066】

代替アプローチは、例示的な方法が２台のカメラを使用することであり、ＡＵは一方のカメラフィードで実行され、本技術は適用されず、カメラパラメータを同じにしてＡＵ精度を測定し、他方のカメラフィードでは、同じＡＵが実行され、例示的な技術がカメラパラメータを動的に調整するために適用される。そして、これら２つのケースで測定された精度を比較する。本シナリオでは、２台のカメラから見える環境条件は似ているが、シーンの条件が似ていても正確ではない。一部のＡＵは非常に敏感であり、同様の画像で同じ結果が得られない場合がある。例えば、結果はフレーム内の非常に細かい特性に依存し、画像のわずかな変化で異なる結果が生成される場合がある。したがって、これでも公平な比較とは言えない。さらに、ＡＵが画像のわずかな変化に対して寛容であるとしても、環境条件の変化は確定的ではないため、様々な構成の試行、ＲＬアルゴリズムの訓練及びテスト、ＲＬ等に関する様々な報酬関数の試行等、様々な実験を実行するには非常に長い時間を要する。

【0067】

実際にカメラフィードを使用する際の上記の問題点のため、例示的な方法は、図２のシステム２００のように、事前に記録されたビデオを使用することで例示的なアプローチの有効性を検討する。これらのビデオは、白昼の条件において単一のカメラ２１０の設定で記録される。そうすることにより、特定の環境条件（この場合は日光）及び特定のシーン条件（例えば、人々の顔）を有する、高品質なオリジナルビデオフィードを取得することが可能であり、例示的な方法は、これらのビデオに関するグラウンドトゥルースも取得できる。続いて、仮想カメラと呼ばれる２台のカメラがシミュレートされる。ここでは、実際のカメラと同じパラメータが公開され、それらのパラメータはＡＰＩを用いて変更できる。これにより、全く同じシーンに対して様々な設定を適用して実験を行うことが可能であり、実際のカメラでは不可能な実験での繰り返し性と再現性が可能になる。さらに、実験はリアルタイムよりも高速に実行できる。つまり、思い通りの高いＦＰＳ（frame-per-second）でフレームを実行することが可能であり、ＲＬアルゴリズム、ＲＬ等で使用される様々な報酬関数を個別にテスト及び訓練できる。

【0068】

これらの仮想カメラは、日の出、正午、午後、夕暮れ、夜等に始まる同じ１日の環境変化をエミュレートする必要がある。仮想カメラシミュレータの設計には、オフラインプロファイリング段階とオンライン段階の２つの段階を含む。オフラインプロファイリング段階において、最初に以下のアルゴリズム５に従って、例示的な方法は、ＶＣ（virtual-camera）テーブルと、１日における特定の時間を、その時間中に観察された、対応する明るさ、コントラスト、彩度、シャープネスの特徴値にマッピングするマッピング関数を生成する。

【表8】

【0069】

フレームの異なる部位は異なって（例えば、障害物の存在、影、異なる色の光源等）照らされているため、フレーム全体についてこれらの特徴値を計算する代わりに、例示的な方法は、例えば、フレームにおける１２のタイルのそれぞれの特徴値を取得する。

【0070】

各ビデオは、コンテンツ及びその取得時間の環境を取り込んでいる。観察されるコンテンツは複数の仮想カメラで同じで維持する必要があるため、取り込まれたフレームに影響を与えるのは１日を通した環境条件だけである。カメラパラメータの調整ＲＬアプローチを用いて、例示的な方法は、ＡＵ性能における環境の悪影響を最小限に抑制するように尽力する。コンテンツを同じで維持しつつ、該１日の異なる時間帯のビデオに拡張するため、例示的な方法は、２つの時間の明るさ、コントラスト、彩度、シャープネスの変化を、その変化を得るために、対応する仮想カメラノブ構成にマッピングする別のマッピングテーブルを生成する必要がある。オフライン段階において、例示的な方法は、以下で再現するアルゴリズム６に従って、このデルタ変化対構成（delta change-to-Configuration）マッピングテーブルを生成する。

【表9】

【0071】

オンライン段階において、取り込み時間以外の、その日における時間に対応する異なる環境条件のフレームをシミュレートするため、以下のアルゴリズム７に従って、例示的な方法は、まず入力フレームを１２のタイルに分割する。

【表10】

【0072】

各タイルについて、例示的な方法は、４つの異なる画像特徴を抽出する必要があり、所望の時間（取り込み時間以外）に基づき、ＶＣテーブル（アルゴリズム５の出力）を用いて、例示的な方法は、画像特徴のタイル固有の所望な値を取得できる。現在の特徴値と所望の特徴値との間のわずかなデルタ変化は、デルタ変化対構成マッピングテーブル（アルゴリズム６の出力）を用いて仮想カメラノブ構成値にマッピングされる。例示的な方法は、タイル毎に異なるノブ構成を取得するが、出力フレームにおけるタイリング問題（タイルの分離が明示的である）を排除するため、例示的な方法は、各タイルに対応する１２の構成全てにわたって中央値構成を計算する。修正された中央値ノブ構成を使用すると、例示的な方法は、所望の時間のビデオフレームを取得できる。

【0073】

結論として、ＣａｍＴｕｎｅｒは、変化する環境条件に連続して適応するために強化学習技術を利用する。ＣａｍＴｕｎｅｒは、カメラで生成されたビデオフィードが間近の分析タスクに適し、その精度が向上するように、特定のカメラパラメータを調整する。ＣａｍＴｕｎｅｒは、あらゆるビデオ分析タスクに適用でき、あらゆる複雑なカメラパラメータのセットを処理できるように設計されている。評価の繰り返し性と再現性を持たせるため（同じシーンを用いてＣａｍＴｕｎｅｒを適用する前と後のパフォーマンスを評価する）、例示的な方法は、仮想カメラと、１日の異なる時間セグメント（図２）で撮影されて事前に記録された個人等が所有するビデオをループスルーで使用する。ＶＣの助けを借りて、例示的な方法は、リアルタイムでより高速に実験を実行することが可能である。つまり、例示的な方法は、所望のより高いＦＰＳでフレームを実行可能であり、ＲＬアルゴリズム、ＲＬ等で使用される様々な報酬関数等を個別にテスト及び訓練できる。仮想カメラ（ＶＣ）は実際のＲＧＢカメラと同じであり、その日の取り込み時間に応じて、フレームのコンテンツを変更せずにシーンの特性をその時間に適合させる。ＶＣは入力ビデオからフレームを連続して抽出し、変換を適用して取り込み時間を変更し、１日の様々な時間セグメントにエミュレートする。エッジサーバにオフロードする前に、フレームはＡＵに依存しないＳＯＴＡＡＱｕＡフィルタを通過する。

【0074】

図３は、本発明の実施形態による、環境条件の継続的な変化を通してビデオ分析精度を向上させるためにカメラパラメータを自動的に変更するための実際のアプリケーションのブロック／フロー図８００である。

【0075】

一つの実際のアプリケーションにおいて、カメラ８０２からのビデオフィードは「ビデオセンサ」８０４によってデコードされ、フレームは「顔検出」コンポーネント８０６に利用可能にされ、顔８０８（オブジェクト）を検出し、それらを「特徴抽出」コンポーネント８１０で利用可能にする。次に、特徴等の固有の顔テンプレートが抽出され、「顔照合」コンポーネント８１２で利用可能になり、これらの特徴を顔特徴のギャラリーと比較及び照合される。環境の変化は、明るさ８２０、コントラスト８２２、彩度８２４及びシャープネス８２６等のカメラパラメータを微調整して、ＡＵ固有の品質評価器１１０及びＳＡＲＳＡ１１５を使用するＣａｍＴｕｎｅｒ９５０で検出できる。

【0076】

図４は、本発明の実施形態による、環境条件の継続的な変化を通してビデオ分析精度を向上させるためにカメラパラメータを自動的に調整するための例示的な処理システムである。

【0077】

処理システムは、システムバス９０２を介して他のコンポーネントに動作可能に接続された少なくとも１つのプロセッサ（ＣＰＵ）９０４を含む。システムバス９０２には、ＧＰＵ９０５、キャッシュ９０６、読み取り専用メモリ（ＲＯＭ）９０８、ランダムアクセスメモリ（ＲＡＭ）９１０、入出力（Ｉ／Ｏ）アダプタ９２０、ネットワークアダプタ９３０、ユーザインタフェースアダプタ９４０及び／またはディスプレイアダプタ９５０もまた動作可能に接続されている。さらに、ＣａｍＴｕｎｅｒ９５０は、ＡＵ固有の品質評価器１１０及びＳＡＲＳＡ１１５を含む。

【0078】

記憶装置９２２は、Ｉ／Ｏアダプタ９２０によってシステムバス９０２に動作可能に接続されている。記憶装置９２２は、ディスク記憶装置（例えば、磁気ディスク記憶装置または光ディスク記憶装置）、固体磁気装置等のいずれであってもよい。

【0079】

トランシーバ９３２は、ネットワークアダプタ９３０によってシステムバス９０２に動作可能に接続されている。

【0080】

ユーザ入力装置９４２は、ユーザインタフェースアダプタ９４０によってシステムバス９０２に動作可能に接続されている。ユーザ入力装置９４２は、キーボード、マウス、キーパッド、画像キャプチャ装置、モーション感知装置、マイクロフォン、あるいはこれらの装置のうちの少なくとも２つの装置の機能を組み込んだ装置等のいずれであってもよい。もちろん、本発明の原理の主旨を維持しながら、他のタイプの入力装置を使用することもできる。もちろん、本発明の精神を維持しながら、他のタイプの入力装置も使用することができる。ユーザ入力装置９４２は、同じタイプのユーザ入力装置であってもよく、異なるタイプのユーザ入力装置であってもよい。ユーザ入力装置９４２は、処理システムに情報を入力し、処理システムから情報を出力するために使用される。

【0081】

ディスプレイ装置９５２は、ディスプレイアダプタ９５０によってシステムバス９０２に動作可能に接続されている。

【0082】

もちろん、処理システムは、当業者であれば容易に思いつくような他の要素（図示せず）を含んでもよく、特定の要素を省略することも可能である。例えば、当業者であれば容易に理解できるが、処理システムには、その詳細な実施に応じて他の様々なタイプの入力装置及び／または出力装置を含むことができる。例えば、無線及び／または有線による様々な入力装置及び／または出力装置を使用できる。さらに、当業者であれば容易に理解できるが、様々な構成の追加プロセッサ、コントローラ、メモリ等を使用することも可能である。処理システムの上記及び他の変形例は、本明細書で提供される本原理の教示によって当業者であれば容易に考えられるであろう。

【0083】

図５は、本発明の実施形態による、環境条件の継続的な変化を通してビデオ分析精度を向上させるためにカメラパラメータを自動的に調整する例示的な方法のブロック／フロー図である。

【0084】

ブロック１００１において、複数のカメラからのビデオストリームを取り込む。

【0085】

ブロック１００３において、分析ユニット（ＡＵ）として定義されるビデオ分析タスクをビデオストリームに実行する。

【0086】

ブロック１００５において、ビデオストリームに画像処理を適用して処理済みフレームを取得する。

【0087】

ブロック１００７において、低品質のフレームを破棄するために、処理済みフレームをフィルタに通してフィルタリングする。

【0088】

ブロック１００９において、フィルタリングされたフレームをＡＵ固有のプロキシ品質評価器に渡し、ＳＡＲＳＡ（State-Action-Reward-State-Action）強化学習計算を用いて、複数のカメラのパラメータを自動的に微調整し、強化計算に基づいて、エージェントがアクションを実行し、報酬の最大化を学習するための新しいポリシーを適用することで、複数のカメラのパラメータを動的に微調整する。

【0089】

本明細書で用いる「データ」、「コンテンツ」、「情報」及び同様の用語は、様々な例示的な実施形態によって取得され、送信され、受信され、表示され、及び／または保存可能なデータを示すために、交換可能に使用できる。したがって、これらの用語の使用は、開示の主旨及び範囲を制限するものと解釈されるべきではない。さらに、本明細書に別の計算デバイスからデータを受信するための計算デバイスが記載されている場合、データは、別の計算デバイスから直接受信してもよく、１つまたは複数の中間計算デバイス、例えば１つまたは複数のサーバ、リレー、ルータ、ネットワークアクセスポイント、基地局等を介して間接的に受信してもよい。同様に、本明細書にデータを別の計算デバイスに送信するための計算デバイスが記載されている場合、データは、別の計算データに直接送信してもよく、例えば、１つまたは複数のサーバ、リレー、ルータ、ネットワークアクセスポイント、基地局及び／または同様のもの等の１つまたは複数の中間計算デバイスを介して間接的に送信してもよい。

【0090】

当業者であれば理解するように、本発明の態様は、システム、方法またはコンピュータプログラムプロダクトとして実現してもよい。したがって、本発明の態様は、全体としてハードウェアの実施形態であってもよく、全体としてソフトウェアの実施形態（ファームウェア、常駐ソフトウェア、マイクロコード等を含む）であってもよく、本明細書において、一般に「回路」、「モジュール」、「計算機」、「装置」または「システム」と呼ぶことができる、ソフトウェアとハードウェアの態様を組み合わせた実施の形態を採用してもよい。さらに、本発明の態様は、コンピュータで読み取り可能なプログラムコードを有する、１つまたは複数のコンピュータで読み取り可能な媒体で具現化された、コンピュータプログラムプロダクトの形態を採用してもよい。

【0091】

１つまたは複数のコンピュータで読み取り可能な媒体の任意の組合せを用いてもよい。コンピュータで読み取り可能な媒体は、コンピュータで読み取り可能な信号媒体またはコンピュータで読み取り可能な記録媒体であってもよい。コンピュータで読み取り可能な記録媒体は、例えば、電子、磁気、光学、電磁気、赤外線または半導体システム、装置またはデバイス、あるいは前述の任意の適切な組合せとすることができるが、これらに限定されない。コンピュータで読み取り可能な記録媒体のより具体的な例（以下に限定されない）は、１つまたは複数のワイヤ、携帯用コンピュータディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリーメモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、携帯用コンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光データ記憶装置、磁気データ記憶装置または前述した任意の適切な組み合わせを含む。本文書のコンテキストにおいて、コンピュータで読み取り可能な記録媒体は、命令実行システム、装置またはデバイスによって、またはそれに関連して使用するためのプログラムを含む、またはそれを記憶できる、任意の有形媒体であってもよい。

【0092】

コンピュータで読み取り可能な信号媒体には、例えば、ベースバンドで、または搬送波の一部として、コンピュータで読み取り可能なプログラムコードが具現化された伝搬データ信号を含むことができる。そのような伝播信号は、電磁、光学またはそれらの任意の適切な組み合わせを含むが、それらに限定されない、任意の様々な形態がある。コンピュータで読み取り可能な信号媒体は、コンピュータで読み取り可能な記録媒体ではなく、命令実行システム、装置または装置によって、またはそれに関連して使用するためにプログラムを通信、伝播、または移送できる、任意のコンピュータで読み取り可能な媒体であってもよい。

【0093】

コンピュータで読み取り可能な媒体で具現化されるプログラムコードは、無線、有線、光ファイバケーブル、ＲＦ等、あるいは前述した任意の適切な組合せを含むが、これらに限定されない、任意の適切な媒体を用いて送信される。

【0094】

本発明の態様に関する処理を実行するためのコンピュータプログラムコードは、Ｊａｖａ、Ｓｍａｌｌｔａｌｋ（登録商標）、Ｃ＋＋等のオブジェクト指向プログラミング言語及び「Ｃ」プログラミング言語または類似のプログラミング言語等の従来の手続き型プログラミング言語を含む、１つまたは複数のプログラミング言語の任意の組み合わせで書くことができる。プログラムコードは、全体的にユーザのコンピュータで実行されてもよく、スタンドアロンソフトウェアパッケージとして部分的にユーザのコンピュータで実行されてもよく、部分的にユーザのコンピュータで実行され、かつ部分的にリモートコンピュータで実行されてもよく、全体的にリモートコンピュータまたはサーバで実行されてもよい。後者のシナリオにおいて、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）または広域ネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを介してユーザのコンピュータと接続されてもよく、（例えば、インターネットサービスプロバイダを利用したインターネットを介して）外部コンピュータと接続されてもよい。

【0095】

本発明の態様について、本発明の実施形態による方法、装置（システム）、並びにコンピュータプログラムプロダクトのフローチャート及び／またはブロック図を参照して以下で説明する。フローチャート及び／またはブロック図の各ブロック、並びにフローチャート及び／またはブロック図のブロックにおける組合せは、コンピュータプログラム命令によって実施できることを理解されたい。これらのコンピュータプログラム命令は、コンピュータまたは他のプログラマブルデータ処理装置のプロセッサを用いて実行される命令が、フローチャート及び／またはブロック図の１つまたは複数のブロックまたはモジュールに指定された機能／動作を実施するための手段を作り出すようなマシンを生成するために、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサに提供される。

【0096】

これらのコンピュータプログラム命令は、コンピュータで読み取り可能な媒体に保存された命令が、フローチャート及び／またはブロック図の１つまたは複数のブロックまたはモジュールに指定された機能／動作を実施するための命令を含むプロダクトを生成するように、コンピュータ、他のプログラマブルデータ処理装置または他のデバイスに、特定の方法で機能するように指示できるコンピュータで読み取り可能な媒体に保存できる。

【0097】

コンピュータプログラム命令は、またコンピュータ、他のプログラマブルデータ処理装置または他のデバイスにロードされて、一連の動作ステップがコンピュータ、他のプログラマブル装置または他のデバイスで実行され、コンピュータまたは他のプログラマブル装置で実行される命令が、フローチャート及び／またはブロック図のブロックまたはモジュールに指定された機能／動作を実施するためのプロセスを提供するように、コンピュータで実施されるプロセスを生成できる。

【0098】

本明細書で使用する「プロセッサ」という用語は、例えばＣＰＵ（central processing unit）及び／または他の処理回路を含むもの等、任意の処理装置を含むことを意図している。また、「プロセッサ」という用語は１つまたは複数の処理装置を指すことが可能であり、処理装置に関連する様々な要素は、他の処理装置によって共有されることも理解されたい。

【0099】

本明細書で使用する「メモリ」という用語は、例えば、ＲＡＭ、ＲＯＭ、固定メモリデバイス（例えば、ハードドライブ）、リムーバブルメモリデバイス（例えば、ディスケット）、フラッシュメモリ等、プロセッサまたはＣＰＵに関連するメモリを含むことを意図している。このようなメモリは、コンピュータで読み取り可能な記録媒体と考えることができる。

【0100】

さらに、本明細書で使用する「入力／出力装置」または「Ｉ／Ｏ装置」という用語は、例えば、処理ユニットにデータを入力するための１つまたは複数の入力装置（例えば、キーボード、マウス、スキャナ等）及び／または処理ユニットに関連する、結果を提示するための１つまたは複数の出力装置（例えば、スピーカ、ディスプレイ、プリンタ等）を含むことを意図する。

【0101】

上記は、あらゆる観点において説明的かつ典型的であって限定的でないものと理解されるべきであり、本明細書で開示する本発明の範囲は、詳細な説明から決定されるべきではなく、特許法で認められた最大限の広さに基づいて解釈される特許請求の範囲から決定されるべきである。本明細書中に図示及び記載されている実施形態は、本発明の原理を説明するものにすぎず、本発明の範囲及び主旨から逸脱することなく当業者は様々な変更を実施することができることを理解されたい。当業者は、本発明の範囲及び精神から逸脱することなく、様々な他の特徴の組み合わせを実施できる。以上、本発明の態様について、特許法で要求される細部及び詳細な事項と共に説明したが、特許証で保護されることを要求する特許請求の範囲は、添付の特許請求の範囲に示されている。

【図1】

【図2】

【図3】

【図4】

【図5】

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版