(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024168690
(43)【公開日】2024-12-05
(54)【発明の名称】オブジェクト状態評価システム、オブジェクト状態評価方法、及びオブジェクト状態評価プログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20241128BHJP
G06V 10/82 20220101ALI20241128BHJP
【FI】
G06T7/00 300D
G06V10/82
【審査請求】未請求
【請求項の数】12
【出願形態】OL
(21)【出願番号】P 2023085572
(22)【出願日】2023-05-24
(71)【出願人】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110000279
【氏名又は名称】弁理士法人ウィルフォート国際特許事務所
(72)【発明者】
【氏名】チャブラ モヒト
(72)【発明者】
【氏名】佐々木 辰也
(72)【発明者】
【氏名】伊藤 良起
(72)【発明者】
【氏名】吉田 大輔
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA09
5L096DA03
5L096FA66
5L096FA67
5L096HA11
5L096JA09
5L096KA04
(57)【要約】
【課題】容易かつ適切にオブジェクトの状態を評価することができるようにする。
【解決手段】画像中のオブジェクトの状態を評価するオブジェクト状態評価システム10において、プロセッサを有し、プロセッサを、評価対象のオブジェクトを含む画像を取得し、前記画像中の前記オブジェクトが第1の姿勢となっている評価用画像を生成し、前記評価用画像と、前記オブジェクトが所定の状態且つ前記第1の姿勢である判定用テンプレート画像とに基づいて、前記オブジェクトが前記所定の状態であるか否かを判定するように構成する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
画像中のオブジェクトの状態を評価するオブジェクト状態評価システムであって、
プロセッサを有し、
前記プロセッサは、
評価対象のオブジェクトを含む画像を取得し、
前記画像中の前記オブジェクトが第1の姿勢となっている評価用画像を生成し、
前記評価用画像と、前記オブジェクトが所定の状態且つ前記第1の姿勢である判定用テンプレート画像とに基づいて、前記オブジェクトが前記所定の状態であるか否かを判定する
オブジェクト状態評価システム。
【請求項2】
前記オブジェクトに対する制限に関わる制限情報を格納する記憶部を更に有し、
前記プロセッサは、
前記制限情報に基づいて、前記制限情報が示す制限に適合する状態のオブジェクトを示すテキスト情報を生成し、
前記テキスト情報と、前記オブジェクトの参考テンプレート画像とに基づいて、前記制限に適合する状態のオブジェクトに対応するテンプレート画像を前記判定用テンプレート画像として生成する
請求項1に記載のオブジェクト状態評価システム。
【請求項3】
前記プロセッサは、
ニューラルネットワークを用いて、前記判定用テンプレート画像を生成する
請求項2に記載のオブジェクト状態評価システム。
【請求項4】
前記プロセッサは、
前記オブジェクトが前記所定の状態でない場合に、所定の通知先にアラートを送信する
請求項1に記載のオブジェクト状態評価システム。
【請求項5】
前記プロセッサは、
前記画像に基づいて、前記オブジェクトを特定する情報である特定情報を抽出し、
前記特定情報に対応するオブジェクトの3Dモデルが存在するか否かを判定し、前記オブジェクトの3Dモデルが存在する場合に、前記3Dモデルに基づいて、前記オブジェクトが前記第1の姿勢となっている前記評価用画像を生成する
請求項1に記載のオブジェクト状態評価システム。
【請求項6】
前記プロセッサは、
前記特定情報に対応するオブジェクトの3Dモデルが存在しない場合に、前記画像の前記オブジェクトの部分画像に基づいて、前記オブジェクトの3Dメッシュとテクスチャとを予測し、前記3Dメッシュと前記テクスチャとに基づいて3Dモデルを作成し、作成した前記3Dモデルに基づいて、前記オブジェクトが前記第1の姿勢となっている前記評価用画像を生成する
請求項5に記載のオブジェクト状態評価システム。
【請求項7】
前記プロセッサは、
前記画像に基づいて、前記画像における前記オブジェクトの複数のポイントの座標を特定し、前記複数のポイントの深度を推定し、前記複数のポイントの深度に基づいて、前記オブジェクトの姿勢を特定し、前記特定した姿勢に基づいて、前記第1の姿勢となっている評価用画像を生成する
請求項1に記載のオブジェクト状態評価システム。
【請求項8】
前記プロセッサは、
前記画像に基づいて、前記画像の消失点を特定し、前記消失点に基づいて前記画像についてのカメラ行列を計算し、
前記カメラ行列を用いて、前記画像中のオブジェクトの複数のポイントの深度を推定する
請求項7に記載のオブジェクト状態評価システム。
【請求項9】
前記プロセッサは、
前記カメラ行列と、オブジェクトについての複数のビューの画像と、オブジェクトのメッシュとを用いて、前記画像中のオブジェクトのテクスチャを生成する
請求項8に記載のオブジェクト状態評価システム。
【請求項10】
前記オブジェクト状態評価システムは、
所定の状態が検出された場合に起動され、処理後に電源オフされる
請求項1に記載のオブジェクト状態評価システム。
【請求項11】
画像中のオブジェクトの状態を評価するオブジェクト状態評価システムによるオブジェクト状態評価方法であって、
前記オブジェクト状態評価システムは、
評価対象のオブジェクトを含む画像を取得し、
前記画像中の前記オブジェクトが第1の姿勢となっている評価用画像を生成し、
前記評価用画像と、前記オブジェクトが所定の状態且つ前記第1の姿勢である判定用テンプレート画像とに基づいて、前記オブジェクトが前記所定の状態であるか否かを判定する
オブジェクト状態評価方法。
【請求項12】
画像中のオブジェクトの状態を評価するオブジェクト状態評価システムを構成するコンピュータに実行させるためのオブジェクト状態評価プログラムであって、
前記コンピュータに、
評価対象のオブジェクトを含む画像を取得させ、
前記画像中の前記オブジェクトが第1の姿勢となっている評価用画像を生成させ、
前記評価用画像と、前記オブジェクトが所定の状態且つ前記第1の姿勢である判定用テンプレート画像とに基づいて、前記オブジェクトが前記所定の状態であるか否かを判定させる
オブジェクト状態評価プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オブジェクトの状態を評価する技術に関する。
【背景技術】
【0002】
例えば、ビデオ分析システムによって分析されるオブジェクトの外観は、新しモデル、政策、設計が導入されるにつれて、経時的に変化することがある。例えば、オブジェクトの一例としての車両については、新しいモデルが投入されると、車両のモデルやデザインが時間とともに変更され、旧型車両は廃止される。車両は、改造されたり、損傷を受けたりし、また、天候状態に対して積載又は適合されることによりショールームのモデルと異なるように見えることがある。したがって、ビデオ分析システムにおいてすべての車両をカバーすることは困難である。
【0003】
また、現実世界においては、監視対象のオブジェクトは、他のオブジェクトによって遮られることもある。また、監視対象のオブジェクトを撮像するカメラの取付位置は、場所によって変化する可能性があり、カメラの取付位置や取付状態等により画像におけるオブジェクトの姿勢が変わってしまうことがある。このような場合においては、オブジェクトのマッチングにおいてテンプレートを使用することができないことが多い。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】米国特許第10176405号明細書
【特許文献2】米国特許第9438878号明細書
【特許文献3】米国特許第9609307号明細書
【特許文献4】米国特許第10789717号明細書
【特許文献5】米国特許第9613137号明細書
【特許文献6】米国特許第10007020号明細書
【特許文献7】中国特許第104149716号明細書
【特許文献8】欧州特許第2818340号明細書
【特許文献9】米国特許出願公開第2019/0095877号明細書
【特許文献10】米国特許第7881865号明細書
【特許文献11】国際公開第2020/262520号
【特許文献12】米国特許第9076276号明細書
【特許文献13】米国特許第9218698号明細書
【非特許文献】
【0005】
【非特許文献1】‘Differentiable Volumetric Rendering: Learning Implicit 3D Representations Without 3D Supervision’. Niemeyer et. al CVPR 2020: 3501-3512
【発明の概要】
【発明が解決しようとする課題】
【0006】
例えば、非特許文献1には、形状およびテクスチャ表現を暗黙的に学習する方法が提案されている。この方法では、点uを通って方向wに沿って光線を投射することを提案している。ニューラルネットワークを使用して、占有確率を決定し、オブジェクト境界が開始する場所を決定し、確率が設定された閾値τよりも大きい点を呼び出す。また、ニューラルネットワークは、c=t()で表される赤、緑、青の色強度値を予測する。占有確率およびテクスチャは、画像マスク内の各点uについて予測される。しかしながら、この方法は、カメラパラメータが既知であり、出力を生成するために外因性パラメータと内因性パラメータの両方を必要とすることを前提とする。占有確率およびテクスチャ値は、ニューラルネットワークによって生成されたグローバル特徴上で条件付けされ、近傍ピクセルの深さおよびテクスチャを考慮に入れていない。このため、深度マップの平滑化を引き起こし、テクスチャを均一な強度のものに見せてしまう。
【0007】
3Dモデルや複数のビューを用いて物体の再識別を調べる技術が以下に示すように開示されている。
【0008】
特許文献1には、ニューラルネットワークを使用する車両再識別のための方法が提案されている。この方法では、まず、ニューラルネットワークを用いて視点を特定する。次いで、注意マップを使用して、マルチビュー表現を構築する。次いで、このマルチビュー表現は、車両を再識別するために、既存のマルチビュー表現と比較される。画像からの視点の直接分類には、異なるカメラパラメータによるモデルトレーニングが必要である。さらに、推論された視点は、すでにキャプチャされた視点とは異なり得る。視点分類および共通部分の注意ベースのマッチングにおけるより高い分解能は、多くの視点からより多くのデータサンプルを必要とする。複数の視点は、推論時に利用可能でないことがある。
【0009】
特許文献2には、シーン内の2Dオブジェクトの3Dモデルを取得する方法が提案されている。この方法では、各フレームにおいて、フレーム内のオブジェクトの位置及び向きが決定される。深度マップが生成され、このマップを使用して立体画像が生成される。3Dモデルは、観察下のオブジェクトに対して利用可能であるか、またはスキャナから取得可能であると仮定されている。この仮定は、必ずしも可能ではない。さらに、この方法は、カメラパラメータを知ることの難しさに対処していない。
【0010】
特許文献3には、機械学習を使用して3Dモデルが生成される場合における2Dビデオを3Dビデオへ変換する方法が提案されている。この方法は、カメラパラメータを推定せず、生成した3Dモデルを立体画像の構築に使用する。画像の視点が固定されていないので、カメラパラメータを供給せずに直接奥行きマップを推測するためにニューラルネットワークを使用すると、モデルがオーバーフィットする原因となり、不正確なメッシュ推定とマッチング結果を生成する可能性がある。
【0011】
特許文献4には、2D画像に見られる特徴点に対するメッシュ上の3次元特徴点の対応を学習することにより、移動物体の姿勢を学習する手法が提案されている。このアプローチは、カメラパラメータのフィッティングを開示するが、このアプローチは、既存のメッシュモデルにおける特徴点と、画像における特徴点との存在及びマッチングに依存する。このアプローチは、キャプチャされているオブジェクトのメッシュがトレーニングセットに存在しない場合、特徴点のマッチング誤差を増加させてしまう。異なる外観および形状に起因する特徴点のマッチングにおけるこれらの誤差は、凸凹の多い3Dモデルをもたらす可能性がある。
【0012】
特許文献5には、車の状態(オーナーシップ)をチェックするシステムを用いて、タグを用いた車両状態の識別についての方法が提案されており、この方法により盗難車の位置を特定することができる。しかし、タグベースの識別は、すべての車両上にセンサおよびタグをインストールすることが必要となる。
【0013】
特許文献6には、X線ベースの画像を用いた車両検査の方法が提案されている。この方法では、画像は、有効な状態を参照して比較される。
【0014】
特許文献7には、車両に搭載されたセンサを用いた故障診断のための遠隔車両診断システムが提案されている。
【0015】
特許文献8には、車輪径変化と高速タイヤバーストについての制御及び救助システムが提案されている。このシステムは、車両に搭載されたセンサを使用するため、システム全体の配備コストが増加する。
【0016】
特許文献9には、車両損傷検出のための画像認識システムを提案されている。このシステムは、損傷の有無の画像を備えた訓練セットの構築を必要とする。データを収集するために使用されるカメラ構成の使用は、システムをバイアスし、制御されない構成環境における適用可能性が制限されることがある。
【0017】
特許文献10には、衝突検出予測を行うために車両の軌道及び挙動を必要とする衝突判定システムが提案されている。このような軌道は、アプリケーションが場所へのアクセスを監視するとき、または連続視線ビューが利用不可能であるとき、常に利用可能であるとは限らない場合がある。
【0018】
特許文献11には、指定された幅制限に基づいて、自動車が自動運転レーンに入るのに適しているかどうかを検出するために、道路管理装置を提案している。実際には、これは、特定の視点における幅を検出するように、検出デバイスが訓練されることを必要とする。
【0019】
特許文献12には、オークション記録、事故記録、車番号などの車両識別子情報を使用し、選択されたイベントについてユーザに警告する技術が提案されている。
【0020】
特許文献13には、損傷検出のために車両センサデータを使用する技術が開示されている。この技術では、このようなデータへのアクセスを有していない操作者に対しての適用性を制限してしまう。
【0021】
本発明は、上記事情に鑑みなされたものであり、その目的は、容易かつ適切にオブジェクトの状態を評価することのできる技術を提供することにある。
【課題を解決するための手段】
【0022】
上記目的を達成するため、一観点に係るオブジェクト状態評価システムは、画像中のオブジェクトの状態を評価するオブジェクト状態評価システムであって、プロセッサを有し、前記プロセッサは、評価対象のオブジェクトを含む画像を取得し、前記画像中の前記オブジェクトが第1の姿勢となっている評価用画像を生成し、前記評価用画像と、前記オブジェクトが所定の状態且つ前記第1の姿勢である判定用テンプレート画像とに基づいて、前記オブジェクトが前記所定の状態であるか否かを判定する。
【発明の効果】
【0023】
本発明によれば、容易かつ適切にオブジェクトの状態を評価することができる。
【図面の簡単な説明】
【0024】
【
図1】
図1は、一実施形態に係る情報処理システムの全体構成図である。
【
図2】
図2は、一実施形態に係る情報処理システムにおける処理を説明する図である。
【
図3】
図3は、一実施形態に係るオブジェクト状態評価システムの処理の詳細を説明する図である。
【
図4】
図4は、一実施形態に係るオブジェクト状態評価システムの一部の処理を説明する図である。
【
図5】
図5は、一実施形態に係るテンプレート生成器の処理を説明する図である。
【
図6】
図6は、一実施形態に係るテンプレート生成器の処理の一例を説明する図である。
【
図7】
図7は、一実施形態に係るテンプレート生成器の処理の他の例を説明する図である。
【
図8】
図8は、一実施形態に係る生成モデルの一例を説明する図である。
【
図9】
図9は、一実施形態に係る生成モデルにおけるサンプリングプロセスを説明する図である。
【
図10】
図10は、一実施形態に係るカメラ較正システムの処理を説明する図である。
【
図11】
図11は、一実施形態に係るメッシュ及びテクスチャ予測システムの一部を説明する図である。
【
図12】
図12は、一実施形態に係るメッシュ及びテクスチャ予測システムの他の部分を説明する図である。
【
図13】
図13は、変形例に係るメッシュ及びテクスチャ予測システムのテクスチャ生成処理を説明する図である。
【
図14】
図14は、一実施形態に係るオブジェクト状態評価システムのGUI画面を示す図である。
【
図15】
図15は、一実施形態に係るオブジェクト状態評価システムを含むオブジェクトを追跡するためのオブジェクト追跡システムの構成図である。
【
図16】
図16は、一実施形態に係るオブジェクト状態評価システムを含む基幹施設を管理するための基幹施設管理システムの構成図である。
【発明を実施するための形態】
【0025】
実施形態について、図面を参照して説明する。なお、以下に説明する実施形態は特許請求の範囲に係る発明を限定するものではなく、また実施形態の中で説明されている諸要素及びその組み合わせの全てが発明の解決手段に必須であるとは限らない。
【0026】
図1は、一実施形態に係る情報処理システムの全体構成図である。
図2は、一実施形態に係る情報処理システムにおける処理を説明する図である。
【0027】
情報処理システム1は、画像取得システム2と、オブジェクト状態評価システム10と、表示システム3とを備える。
【0028】
画像取得システム2は、管理対象のインフラストラクチャ(基幹施設)や監視対象のエリアの画像を取得するシステムである。画像取得システム2は、RGBカメラ及び/又はサーマルカメラ等の画像を撮像するカメラと、カメラが取得した画像(フレーム画像)を画像取得システム2に送信する送信機とを含む。カメラは、管理対象のインフラストラクチャや監視対象のエリアに近接して配置される。
【0029】
オブジェクト状態評価システム10は、例えば、プロセッサやメモリを有する1以上のコンピュータにより構成される。本実施形態では、オブジェクト状態評価システム10は、クラウド上の1以上のサーバ等により構成されている。
【0030】
オブジェクト状態評価システム10は、オブジェクト検出及び分割システム11と、カメラ較正システム12と、オブジェクト追跡システム13と、画像レンダリングシステム14と、画像マッチングシステム15と、データベース16と、テンプレート生成器18とを含む。なお、オブジェクト状態評価システム10において、テンプレート生成器18は、必ずしも必須ではない。オブジェクト状態評価システム10は、画像取得システム2が監視対象となるオブジェクトの存在を検出した場合にのみ起動され、それ以外の場合(処理が終わった場合等)には、電源オフされてもよい。
【0031】
オブジェクト検出及び分割システム11は、画像取得システム2から取得した画像において、評価対象のオブジェクトを検出し、オブジェクトを分割する処理を行う。オブジェクト検出及び分割システム11は、画像から、オブジェクトの属性を表すクラス(特定情報)、オブジェクトのスコア、オブジェクトを検出した座標(検出座標)、オブジェクトを分割する分割マスク、姿勢のキーポイント、深度を推定する。クラスはオブジェクトの種類を表し、例えば、オブジェクトが車の場合には、車の型式、モデル、車の色等である。スコアは、オブジェクトが予測したクラスであることの信頼度を表す。検出座標は、オブジェクトのポリゴン領域境界を表す。セグメンテーションマスクは、オブジェクトのインスタンスの存在/不在のピクセル単位の分類を表す。深度は、検出されたオブジェクトのインスタンスの各ピクセルについてのカメラからの距離(深さ)を表す。姿勢のキーポイントは、オブジェクトの姿勢を示す部位のピクセル座標を表す。
【0032】
オブジェクト検出及び分割システム11は、例えば、Mask-RCNN(Mask R-CNN. Kaiming He , Georgia Gkioxari, Piotr Dollar, Ross B. GirshickIEEE Trans. Pattern Anal. Mach. Intell. 42(2): 386-397 (2020) インターネット:URL=https://dblp.org/db/journals/pami/pami42.html#HeGDG20))で記載されたモデルと同様のニューラルネットワークモデルに対して、検出座標、スコア、クラス、分割マスクに加えて、深度及びオブジェクトの姿勢を予測するための追加のヘッドを追加したものとしてもよい。
【0033】
カメラ較正システム12は、検出されたオブジェクトの姿勢のキーポイントを用いて、3次元座標(3D座標)を画像中の座標に変換するカメラ行列を生成する。このカメラ行列は、検出されたオブジェクトの3D表現を生成するために使用される。
【0034】
オブジェクト追跡システム13は、オブジェクト検出及び分割システム11から出力されたスコア、分割マスク、検出座標、及びクラスを用いて、検出されたオブジェクトを追跡する。オブジェクト追跡システム13は、フレーム画像から検出された全てのオブジェクトのインスタンスに対して、一意に識別するためのトラックIDを割り当て、トラックIDとそのオブジェクトのクラスとを出力する。
【0035】
画像レンダリングシステム14は、メッシュ及びテクスチャ予測システム21と、レンダリングシステム22と、精錬システム23とを含む。画像レンダリングシステム14は、トラックIDとクラスとに基づいて、対応するオブジェクトの3Dモデルが利用可能か否かを判定する。
【0036】
メッシュ及びテクスチャ予測システム21は、対応するオブジェクトの3Dモデルが利用可能でない場合に、3Dモデルを生成するために、オブジェクトの3Dメッシュと、テクスチャとを予測する。メッシュ及びテクスチャ予測システム21は、オブジェクトの3Dメッシュをより正確に生成するために、カメラ較正システム12により生成されたカメラ行列を使用してもよい。
【0037】
レンダリングシステム22は、対応するオブジェクトの3Dモデルを用いて所定の姿勢のオブジェクトの合成画像(レンダリング済み画像:評価用画像)を生成する。
【0038】
精錬システム23は、レンダリングシステム22により生成された合成画像を精錬又は様式化して出力する。なお、精錬システム23は、レンダリングシステム22が生成した合成画像をそのまま次の処理に渡してもよい。
【0039】
データベース16は、各種情報を格納する。本実施形態では、データベース16は、オブジェクトの画像とマッチングするためのテンプレート17(テンプレート画像)を格納する。
【0040】
テンプレート生成器18は、対象のオブジェクトの画像とマッチングするための所定の状態且つ所定の姿勢のテンプレートを作成する。
【0041】
画像マッチングシステム15は、テンプレート生成器18が作成したテンプレート又はデータベース16のテンプレートと、対象のオブジェクトの画像と、の間の特徴類似性を使用して、テンプレートのオブジェクトと、画像のオブジェクトとの間の色、車の型式、モデル、外観類似性等の一致属性を推定し、一致又は不一致の特徴と、テンプレートとの類似性と、を含む評価結果を出力する。なお、特定のオブジェクトを再識別する場合には、テンプレートは、そのオブジェクトの以前に取得された画像であってもよい。
【0042】
表示システム3は、オブジェクト状態評価システム10による画像中のオブジェクトの状態の評価結果(一致属性)に基づいて各種情報を表示(出力)する。表示システム3は、評価結果を表示してもよく、評価結果に応じてアラートを表示してもよい。なお、表示システム3の出力は、クラウドアプリケーション24への入力として使用されてもよく、後に使うためにデータベース16に格納されてもよい。
【0043】
図3は、一実施形態に係るオブジェクト状態評価システムの処理の詳細を説明する図である。
【0044】
オブジェクト検出及び分割システム11は、入力された画像30からオブジェクトを検出し、オブジェクトのクラス、姿勢を特定して出力するとともに、画像30からオブジェクトを含む部分画像を切り出した分割済画像31を出力する。
【0045】
画像レンダリングシステム14は、クラスに基づいて、対応するオブジェクトの3Dモデルが利用可能か否かを判定する(S11)。
【0046】
この結果、対応するオブジェクトの3Dモデルが利用可能である場合(S11:Yes)には、レンダリングシステム22は、利用可能な3Dモデルを使用して所定の姿勢(例えば、テンプレートにおいて想定されている姿勢:第1の姿勢)のオブジェクトの合成画像を生成する。
【0047】
一方、対応するオブジェクトの3Dモデルが利用可能でない場合(S11:No)には、メッシュ及びテクスチャ予測システム21は、姿勢、分割済画像等を使用して、オブジェクトの3Dメッシュと、テクスチャとを予測し、予測した3Dメッシュとテクスチャとに基づいてオブジェクトの3Dモデルを生成する。なお、この場合には、レンダリングシステム22は、メッシュ及びテクスチャ予測システム21により生成された3Dモデルを使用して、所定の姿勢(第1の姿勢)のオブジェクトの合成画像を生成する。
【0048】
精錬システム23の一例である生成モデル33は、レンダリングシステム22により生成された合成画像を精錬化する処理を行う。生成モデル33は、合成画像のスタイルを所定のスタイル(ユーザが指定したスタイル又はデフォルトのスタイル)に変換する。また、生成モデル33は、画像内の詳細を抑制又は強調するために使用されてもよい。また、生成モデル33は、オブジェクトのクラスに従って処理を行ってもよい。生成モデル33としては、例えば、文献(Null-text Inversion for Editing Real Images using Guided Diffusion Models. CoRR abs/2211.09794, Ron Mokady, Amir Hertz, Kfir Aberman, Yael Pritch, Daniel Cohen-Or, (URL=https://dblp.org/db/journals/corr/corr2211.html#abs-2211-09794))に記載のテキスト条件付き拡散モデルであってもよい。
【0049】
画像マッチングシステム15の特徴抽出器(特徴抽出モデル)35は、レンダリングシステム22により生成された合成画像、又は生成モデル33で変換された合成画像(S12)を入力として合成画像の特徴を抽出するとともに、データベース16に格納されているテンプレート又はテンプレート生成器18により作成されたテンプレートの特徴を抽出する。画像マッチングシステム15は、合成画像とテンプレートとの特徴をユークリッド空間で比較し、ユークリッド空間での距離が閾値以下であるか否かを判定し(S13)、閾値以下である場合(S13:Yes)には、同じであると判定し、閾値以下でない場合(S13:No)には、異なると判定する。
【0050】
図4は、一実施形態に係るオブジェクト状態評価システムの一部の処理の具体例を説明する図である。
【0051】
例えば、画像41がピックアップトラックである場合において、このピックアップトラックの3Dモデルが利用可能でない場合(S11:No)には、メッシュ及びテクスチャ予測システム21は、姿勢、画像41等を使用して、メッシュ42と、テクスチャ43とを予測する。次いで、レンダリングシステム22は、生成されたメッシュ42及びテクスチャ43を入力として、3Dモデルを作成し、3Dモデルを用いて、所望の姿勢のピックアップトラックの画像44を生成し、テクスチャ43を適用することにより、テクスチャが反映された所定の姿勢のピックアップトラックの画像45を生成する。
【0052】
図5は、一実施形態に係るテンプレート生成器の処理を説明する図である。
【0053】
テンプレート生成器18は、ローカルルール規則記憶部51と、クラウドベースルールプロセッサ52と、テキストルール生成器53と、3Dモデル生成器54と、生成モデル55とを含む。
【0054】
ローカルルール規則記憶部51は、画像取得システム2のカメラが監視対象としている地域におけるルールや規則(地理的ルール、地域管理ルール、時間や時期依存ルール等)、これらに関係する情報等を記憶する。
【0055】
クラウドベースルールプロセッサ52は、ローカルルール規則記憶部51における情報を解析し、監視対象の地域のオブジェクトに対する制限に関わる情報(制限情報)を取得する。
【0056】
テキストルール生成器53は、クラウドベースルールプロセッサ52が取得した情報に基づいて、オブジェクトに対する制限を満たす状態を表すテキストルール(テキスト情報)を生成する。
【0057】
テンプレート生成器18は、テキストルールに対応するオブジェクトの3Dモデルが利用可能か否かを判定する(S51)。
【0058】
3Dモデルが利用可能である場合(S51:Yes)には、3Dモデル生成器54は、3Dモデルを使用して所定の姿勢のオブジェクトに対応するテンプレート(判定用テンプレート画像)を生成する。
【0059】
一方、3Dモデルが利用可能でない場合(S51:No)には、生成モデル55は、テキストルールを入力して、テキストルールに対応する所定の姿勢のオブジェクトに対応するテンプレート(判定用テンプレート画像)を生成する。
【0060】
次に、テンプレート生成器18の処理の具体例について説明する。
【0061】
図6は、一実施形態に係るテンプレート生成器の処理の一例を説明する図である。
【0062】
ここで、ローカルルール規則記憶部51には、監視対象の地域には積雪があり、この地域において車両はスノーチェーンの使用が要求されることが記憶されている。なお、具体的な情報としては、例えば、監視対象の地域に積雪があることと、積雪の場合には車両に対してスノーチェーンの使用が要求されることとは、別々に管理されていることもある。
【0063】
クラウドベースルールプロセッサ52は、ローカルルール規則記憶部51の情報から、監視対象の地域における現在において制限されるルールを解析する。具体的には、クラウドベースルールプロセッサ52は、監視対象の地域に積雪があることと、積雪の場合には車両にスノーチェーンの使用が要求されることとから、監視対象の地域には積雪があり、この地域において車両はスノーチェーンの使用が要求されることを解析する。
【0064】
テキストルール生成器53は、クラウドベースルールプロセッサ52による解析情報から、オブジェクトに必要な属性を意味するテキストルールを作成する。テキストルールの形式として、例えば、<車両タイプ>+with+<属性>である。テキストルール生成器53は、オブジェクトの車両タイプがピックアップトラックである場合には、「Pick up truck with chains on tyres」とのテキストルール61を生成する。
【0065】
生成モデル55は、条件付き画像(参考テンプレート画像)62と、テキストルール61とを入力して、テキストルール61に従うテンプレート63、すなわち、ピックアップトラックであってチェーンが使用されているテンプレートを生成する。
【0066】
図7は、一実施形態に係るテンプレート生成器の処理の他の例を説明する図である。
【0067】
ここで、ローカルルール規則記憶部51には、監視対象が森林地帯であり、不法な伐木積載を検出することが望まれていることが記憶されている。
【0068】
クラウドベースルールプロセッサ52は、ローカルルール規則記憶部51の情報から、監視対象の地域における現在において制限されるルールを解析する。具体的には、クラウドベースルールプロセッサ52は、監視対象が森林地帯であり、不法な伐木積載でないことを解析する。
【0069】
テキストルール生成器53は、クラウドベースルールプロセッサ52による解析情報から、オブジェクトに必要な属性を意味するテキストルールを作成する。テキストルールの形式として、例えば、<車両タイプ>+with+<属性>である。テキストルール生成器53は、オブジェクトの車両タイプがピックアップトラックである場合には、「Pick up truck with loaded logs」とのテキストルール71を生成する。
【0070】
生成モデル55は、条件付き画像62と、テキストルール71とを入力して、テキストルール71に従うテンプレート73、すなわち、ピックアップトラックであって伐木積載が適切であるテンプレートを生成する。
【0071】
図8は、一実施形態に係る生成モデルの一例を説明する図である。
【0072】
生成モデル55は、エンコーダ131と、前進拡散部132と、ニューラルネットワーク133と、ニューラルネットワーク134と、エンコーダデコーダモデル群135と、デコーダ136と、を含む。エンコーダ131は、画像Xを特徴Zにエンコードする。前進拡散部132は、特徴ZにTステップのノイズを追加し、ZTを生成する。
【0073】
ニューラルネットワーク133は、トークン化されたテキスト記述を入力としてテキスト埋め込みを生成する。ニューラルネットワーク134は、ヌルテキストをトークン化し、ヌルテキスト埋め込みを生成する。
【0074】
エンコーダデコーダモデル群135は、同じモデルであるエンコーダデコーダモデル135A,135Bを有する。エンコーダデコーダモデル135Aは、特徴Ztと、テキスト埋め込み、及びタイムステップを入力し、埋め込みのノイズを除去する。エンコーダデコーダモデル135Bは、特徴Ztと、ヌルテキスト埋め込み、及びタイムステップを入力し、埋め込みのノイズを除去する。エンコーダデコーダモデル135Aとエンコーダデコーダモデル135Bとの処理は、複数のタイムステップについて、並行して又は直列で実行することができる。最終ステップで生成された埋め込みは、再度重み付けされ、潜在空間において結合され、デコーダ136に入力される。デコーダ136は、結合された埋め込みを合成画像x^を生成する。
【0075】
図9は、一実施形態に係る生成モデルにおけるサンプリングプロセスを説明する図である。
【0076】
図9は、拡散ベースの生成モデル55の逆サンプリングプロセスのためのグラフィックモデルを示している。この逆サンプリングプロセスは、文献(Null-text Inversion for Editing Real Images using Guided Diffusion Models. Ron Mokady, Amir Hertz, Kfir Aberman, Yael Pritch, Daniel Cohen-Or:CoRR abs/2211.09794 (2022)(URL=https://dblp.org/db/journals/corr/corr2211.html#abs-2211-09794))に記載の逆拡散プロセスと同様である。
【0077】
サンプリングステップは、インデックスTで表される。インデックス0は、ノイズ除去されたサンプルを示し、インデックスTは、Tステップ後の負荷的なノイズを有するサンプルを表す。
【0078】
標準的な拡散反転処理を使用すると、Z*で表される埋め込みベクトルが生成される。上記文献に提示されたアプローチを使用すると、変数Z-
tで表される埋め込み軌道が生成される。本実施形態では、軌道Z--
t(図では、Zの上に-が2重)が生成される。
【0079】
ヌルテキスト反転では、オリジナルの拡散軌道Z*に近いまま維持しようとするが、本実施形態では、マスクで指定された領域が低い再構成ロスを有するトレードオフに対する要求を緩和する。ロスは、式(1)に示すように表される。
【0080】
【0081】
ここで、Φ
tは、ヌルテキスト=“”の埋め込みを示し、Z
tは、ノイズ除去拡散暗黙モデル(DDIM)の軌道がたどられるときのステップtで符号化されるにおけるノイズが含まれたサンプルを符号化したものを示し、Z
--
tは、ヌル埋め込みを生成するネットワークのパラメータに関して上述の最小化が行われたときの雑音符号化されたサンプルを示し、Cは、条件付けに使用される指定されたテキストの埋め込みを示し、f
γは、パラメータγを有する分類モデルを示し、pはデコーダモデルの出力を示し、I
(mask)は、編集対象のユーザが定義したマスク画像を示し、I
(initial)は、編集対象の画像を示し、αは、定数パラメータを示し、βは、定数パラメータを示す。
図8のニューラルネットワーク133と、ニューラルネットワーク134とは、式(1)のロス関数を用いて学習される。
【0082】
図10は、一実施形態に係るカメラ較正システムの処理を説明する図である。
【0083】
カメラ較正システム12は、ワールド座標系の3D座標をピンホールカメラによるカメラ画像81における2D座標にマップするカメラ行列を推定する。ワールド座標系では、平行線は交差しませんが、カメラ画像の座標系では、平行線は、点(消失点)に収束する。カメラ較正システム12は、平行であることが知られているオブジェクトの部位(例えば、車のトップループのコーナー等)に対応するキーポイントを画像から選択し、これらに基づく平行線のペアに基づいて消失点を認識する。カメラ較正システム12は、認識した消失点に基づいてカメラの校正(キャリブレーション)を行う。
【0084】
消失点を用いたキャリブレーションの方法としては、例えば、文献(Camera calibration with two or three vanishing points: Radu Orghidan, Joaquim Salvi, Mihaela Gordan, Bogdan Orza: FedCSIS 2012: 123-130 (URL=https://annals-csis.org/proceedings/2012/pliks/110.pdf))や文献(Using vanishing points for camera calibration. Int. J. Comput. Vis. 4(2): 127-139 (1990)(URL=https://dblp.org/db/journals/ijcv/ijcv4.html#CaprileT90))に記載されている。
【0085】
図11は、一実施形態に係るメッシュ及びテクスチャ予測システムの一部を説明する図である。
【0086】
文献(Differentiable Volumetric Rendering: Learning Implicit 3D Representations Without 3D Supervision. Michael Niemeyer, Lars M. Mescheder, Michael Oechsle, Andreas Geiger:CVPR 2020: 3501-3512, (URL=https://dblp.org/db/conf/cvpr/cvpr2020.html#NiemeyerMOG20))では、畳み込みニューラル ネットワークを使用してグローバルコンテキスト埋め込みを生成しているのに対して、本実施形態のメッシュ及びテクスチャ予測システム21は、画像91におけるパッチのため埋め込みベクトルを検出する機構をアテンションベースの構成としている。
【0087】
メッシュ及びテクスチャ予測システム21は、検出器92と、線形プロジェクトマトリックス96と、コンテキスト埋め込み生成部98とを含む。検出器92は、例えば、ニューラルネットワークモデルであり、画像91からオブジェクトのインスタンスのクラスを検出する。
【0088】
線形プロジェクトマトリックス96には、画像91が分割されたパッチ群94と、パッチに対応する位置埋め込み95が入力される。線形プロジェクトマトリックス96は、各パッチの特徴(パッチ特徴97)を出力する。
【0089】
コンテキスト埋め込み生成部98は、スケール化されたドット積アテンション99と、標準化部100と、MLP(多層パーセプトロン)101とを含み、検出器92で検出されたクラス埋め込み93と、パッチ特徴97とを入力として、コンテキスト埋め込みZを生成する。
【0090】
図12は、一実施形態に係るメッシュ及びテクスチャ予測システムの他の部分を説明する図である。
【0091】
メッシュ及びテクスチャ予測システム21は、レイキャスティング部111と、深度及びテクスチャ予測モデル112とを更に含む。
【0092】
レイキャスティング部111は、カメラ行列と画像110とを入力し、画像のピクセルuから光を投影し、光線に沿ったオブジェクトの体積領域に存在するワールド座標を計算する。
【0093】
深度及びテクスチャ予測モデル112は、レイキャスティング部111により計算されたワールド座標と、コンテキスト埋め込み生成部98で生成されたコンテキスト埋め込みとを用いて、インスタンス内部にある座標についての色及び確率を予測し、インスタンスの各入力ピクセルについてのタプル(d(depth),R(red),G(green),B(blue))を出力する。
【0094】
図13は、変形例に係るメッシュ及びテクスチャ予測システムのテクスチャ生成処理を説明する図である。
【0095】
上記実施形態では、
図12に示す構成によりテクスチャを予測するようにしていたが、テクスチャについては、
図13に示すテクスチャ生成モデル121により予測してもよい。
【0096】
テクスチャ生成モデル121は、多層ニューラルネットワークモデルであってもよく、マルチヘッドアテンションを含んでもよい。テクスチャ生成モデル121は、カメラ行列と、メッシュと、複数のビューの画像とを入力として、テクスチャフィールド122の複数のピクセル位置についてのRGBの値または強度値を予測する。
【0097】
図14は、一実施形態に係るオブジェクト状態評価システムのGUI画面を示す図である。
【0098】
GUI画面200は、デバイス選択領域201と、モード選択領域202と、ルール更新選択領域203と、マッチング方法選択領域204と、画像選択領域205と、テキストプロンプト206と、カスタムルール選択領域207と、推測済3Dモデル表示領域208と、3Dモデル編集ボタン209と、カスタム改良選択領域210と、場所選択領域211と、警報表示領域212と、属性表示領域213と、上位一致表示領域214と、を含む。
【0099】
デバイス選択領域201は、解析する対象とする画像取得システム2を選択するための領域である。モード選択領域202は、アクセス管理、トラッキング、検索等のアプリケーションケースを選択する領域である。この領域で選択又は許可されたケースに基づいて、GUI画面200の表示部品がアクティブ又は非アクティブに変更される。また、ケースに基づいて、処理のフローを追加又は迂回することにより、システムの処理を修正してもよい。システムの処理は、どのように出力が視覚化されて使用され、他のグラフィカルインターフェースを開くために使用されるように制御する。
【0100】
ルール更新選択領域203は、テンプレート生成器18におけるテンプレートの生成、精錬システム23の画像合成等におけるテキスト記述のソースを選択するための領域である。マッチング方法選択領域204は、特徴の類似度を選択し、画像マッチングシステム15の振る舞いを変更させるための領域である。画像選択領域205は、テンプレートを合成する際の条件付き画像を選択するための領域である。テキストプロンプト206は、テンプレートの画像の条件付き合成のためのテキストプロンプトを入力する領域である。
【0101】
カスタムルール選択領域207は、グラフィカルノードベースのテキストを生成するための領域である。この領域を使うことにより、グラフィカルノードの接続を使用して、条件付き合成のテキスト記述を生成するスクリプトを作成することができる。推測済3Dモデル表示領域208には、生成された3Dモデルが表示される。3Dモデル編集ボタン209は、合成された3Dモデルを編集、再生成するためのボタンである。なお、外部の3Dモデルを提供したり、既存又は合成されたモデルを編集したりするために使用することもできる。カスタム改良選択領域210は、精錬システム23にける、描画されたイメージについての精錬戦略を選択する領域である。場所選択領域211は、解析が行われる画像の取得場所を選択する領域である。
【0102】
警報表示領域212は、表示システム3において検出された警報が表示される領域である。属性表示領域213は、分析されたオブジェクトのユニークIDと、属性が表示される領域である。上位一致表示領域214は、検索されたオブジェクトにおける上位一致したオブジェクトとそのスコアを表示する領域である。
【0103】
図15は、一実施形態に係るオブジェクト状態評価システムを含むオブジェクトを追跡するためのオブジェクト追跡システムの構成図である。
【0104】
オブジェクト追跡システム300は、オブジェクトを追跡するためのシステムであり、複数の箇所に配置された監視装置301(301A,301B,301C等)と、受信機304と、データベース(DB)5と、アラート生成システム4と、オブジェクト状態評価システム10とを含む。
【0105】
監視装置301は、配置箇所の所定の領域を撮影するカメラ303(303A,303B,303C)と、カメラ303で撮影された画像を送信する送信機302(302A,302B,303C)とを含む。
【0106】
受信機304は、送信機302から送信されるオブジェクトの画像を受信し、画像をDB5に格納するとともに、オブジェクト状態評価システム10に渡す。
【0107】
オブジェクト状態評価システム10は、受信機304又はDB5から取得したオブジェクトの画像を用いて、対象となるオブジェクトについてのマッチングを行うことによりオブジェクトの位置を追跡し、その情報をアラート生成システム4に通知する。アラート生成システム4は、対象となるオブジェクトの位置を示す警報を通知先となっている所定の表示装置に表示させる。
【0108】
オブジェクト追跡システム300によると、異なる監視装置301のカメラ303で撮影されたオブジェクトの姿勢が異なっていても、オブジェクト状態評価システム10では、テンプレートに対応する姿勢のオブジェクトの合成画像を生成する。これにより、適切にオブジェクトのマッチングを行うことができ、適切にオブジェクトの位置を追跡することができる。
【0109】
図16は、一実施形態に係るオブジェクト状態間システムを含む基幹施設を管理するための基幹施設管理システムの構成図である。
図16の基幹施設管理システム400は、基幹施設の一例であるトンネルにオブジェクトの一例である車両がアクセス(進入)できるかを管理するシステムである。
【0110】
基幹施設管理システム400は、基幹施設401に設けられた受信機402と、警報装置403と、基幹施設401への経路を監視するように配置された監視装置404と、受信機407と、データベース(DB)5と、アラート生成システム6と、オブジェクト状態評価システム10と、を含む。
【0111】
監視装置404は、基幹施設への経路の所定の領域を撮影するカメラ406と、カメラ406で撮影された画像を送信する送信機405とを含む。
【0112】
受信機407は、送信機405から送信されるオブジェクトの画像を受信し、画像をDB5に格納するとともに、オブジェクト状態評価システム10に渡す。
【0113】
オブジェクト状態評価システム10は、受信機407又はDB5から取得したオブジェクトの画像からオブジェクトを特定し、オブジェクトについての基幹施設401にアクセスできる状態(ここでは、トンネルに進入できる高さ)のテンプレートを作成する。オブジェクト状態評価システム10は、テンプレートと、オブジェクトの画像とのマッチングを行うことによりオブジェクトが基幹施設401にアクセスできるか否かを評価し、結果をアラート生成システム6に通知する。アラート生成システム6は、オブジェクトが基幹施設401にアクセスできなとの結果の通知を受けた場合には、受信機402を介して、警報装置403にオブジェクトから確認できるようにアラートを表示させたり、警報音を発生させたりする。これにより、オブジェクトの利用者は、基幹施設401にアクセスできないことを適切に把握することができる。
【0114】
なお、本発明は、上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で、適宜変形して実施することが可能である。
【0115】
例えば、上記実施形態において、オブジェクト状態評価システム10のプロセッサがプログラムを実行することにより行っていた処理の一部又は全部を、ハードウェア回路で行うようにしてもよい。また、上記実施形態におけるプログラムは、プログラムソースからインストールされてよい。プログラムソースは、プログラム配布サーバ又は記録メディア(例えば可搬型の記録メディア)であってもよい。
【0116】
例えば、上記実施形態において、RGB画像又は熱画像を用いてオブジェクトの属性のマッチングを行っていたが、例えば、音響センサ、ガスセンサ、爆発物センサ、圧力センサ、圧電トランスデューサ等で検出される情報を用いてもよい。
【符号の説明】
【0117】
1…情報処理システム、2…画像取得システム、3…表示システム、10…オブジェクト状態評価システム、11…カメラ較正システム、12…オブジェクト検出及び分割システム、13…オブジェクト追跡システム、14…画像レンダリングシステム、15…マッチングシステム、16…データベース、17…テンプレート、18…テンプレート生成器。