(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2025-01-15
(54)【発明の名称】モーション増幅装置およびこれを用いる方法
(51)【国際特許分類】
G06T 7/254 20170101AFI20250107BHJP
G06T 7/00 20170101ALI20250107BHJP
G06V 10/82 20220101ALI20250107BHJP
G06T 5/60 20240101ALI20250107BHJP
【FI】
G06T7/254 A
G06T7/00 350C
G06V10/82
G06T7/00 610
G06T5/60
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024537495
(86)(22)【出願日】2022-12-16
(85)【翻訳文提出日】2024-06-20
(86)【国際出願番号】 KR2022020641
(87)【国際公開番号】W WO2023121161
(87)【国際公開日】2023-06-29
(31)【優先権主張番号】10-2021-0184021
(32)【優先日】2021-12-21
(33)【優先権主張国・地域又は機関】KR
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】522492576
【氏名又は名称】ポスコ カンパニー リミテッド
(71)【出願人】
【識別番号】592000705
【氏名又は名称】リサーチ インスティチュート オブ インダストリアル サイエンス アンド テクノロジー
(71)【出願人】
【識別番号】520337569
【氏名又は名称】ポステック リサーチ アンド ビジネス デベロップメント ファウンデーション
【氏名又は名称原語表記】POSTECH RESEARCH AND BUSINESS DEVELOPMENT FOUNDATION
【住所又は居所原語表記】(Jigok-dong) 77, Cheongam-ro, Nam-gu, Pohang-si, Gyeongsangbuk-do 37673 Republic of Korea
(74)【代理人】
【識別番号】100083806
【氏名又は名称】三好 秀和
(74)【代理人】
【識別番号】100111235
【氏名又は名称】原 裕子
(74)【代理人】
【識別番号】100195257
【氏名又は名称】大渕 一志
(72)【発明者】
【氏名】オー、 テ ヒョン
(72)【発明者】
【氏名】キム、 スンビン
(72)【発明者】
【氏名】パク、 サン ヒョク
(72)【発明者】
【氏名】イ、 レクヤン
(72)【発明者】
【氏名】ソ、 ジュン ヤン
【テーマコード(参考)】
5B057
5L096
【Fターム(参考)】
5B057CA08
5B057CA12
5B057CA16
5B057CB08
5B057CB12
5B057CB16
5B057DA03
5B057DB02
5B057DB09
5L096AA06
5L096BA03
5L096CA04
5L096DA01
5L096FA64
5L096GA51
5L096HA04
5L096HA11
5L096KA04
(57)【要約】
実施例によるモーション増幅装置は、映像内で任意の隣接する第1フレームおよび第2フレームを受信し、第1フレームを第1形状情報および第1テクスチャ情報に分解し、第2フレームを第2形状情報および第2テクスチャ情報に分解するエンコーダと、第1形状情報、第2形状情報、および第2テクスチャ情報に基づいて、物体のモーションが増幅されたフレームを生成する第1モジュールと、第1形状情報、第2形状情報、および第1テクスチャ情報に基づいて、モーションの大きさを分析する第2モジュールと、モーションが増幅されたフレーム上にモーションの大きさを表示する増幅映像データを生成する第3モジュールとを含む。
【特許請求の範囲】
【請求項1】
映像内で任意の隣接する第1フレームおよび第2フレームを受信し、前記第1フレームを第1形状情報および第1テクスチャ情報に分解し、前記第2フレームを第2形状情報および第2テクスチャ情報に分解するエンコーダと、
前記第1形状情報、前記第2形状情報、および前記第2テクスチャ情報に基づいて、物体のモーションが増幅されたフレームを生成する第1モジュールと、
前記第1形状情報、前記第2形状情報、および前記第1テクスチャ情報に基づいて、前記モーションの大きさを分析する第2モジュールと、
前記モーションが増幅されたフレーム上に前記モーションの大きさを表示する増幅映像データを生成する第3モジュールと
を含む、モーション増幅装置。
【請求項2】
前記第1モジュールは、前記第1形状情報と前記第2形状情報との差に予め設定された増幅係数を乗じて、新しい形状情報を生成し、生成した形状情報および前記第2テクスチャ情報を合成して、前記モーションが増幅されたフレームを生成する、
請求項1に記載のモーション増幅装置。
【請求項3】
前記第2モジュールは、前記第1形状情報および前記第2形状情報に基づいて、前記第1フレームおよび前記第2フレーム間のそれぞれのピクセルの変化を計算し、計算したそれぞれのピクセルの変化によって前記物体のモーションの大きさを分析するように構成される、
請求項2に記載のモーション増幅装置。
【請求項4】
前記第2モジュールは、入力された任意のフレームの形状情報からモーションの大きさを分析するように学習された畳み込みニューラルネットワーク(Convolutional Neural Network、CNN)を用いて前記物体のモーションの大きさを分析するように構成される、
請求項3に記載のモーション増幅装置。
【請求項5】
前記物体に対する振動閾値を格納しているメモリと、
前記増幅映像データを出力する出力部と
をさらに含み、
前記第3モジュールは、前記モーションの大きさが前記振動閾値を超えると、閾値を超えるモーションが検出された領域を確認が必要な危険領域と判断し、前記増幅映像データ上に前記危険領域を表示するように前記増幅映像データを生成する、
請求項3に記載のモーション増幅装置。
【請求項6】
映像内で任意の隣接する第1フレームおよび第2フレームを受信し、前記第1フレームを第1形状情報および第1テクスチャ情報に分解し、前記第2フレームを第2形状情報および第2テクスチャ情報に分解する段階と、
前記第1形状情報、前記第2形状情報、および前記第2テクスチャ情報に基づいて、物体のモーションが増幅されたフレームを生成する段階と、
前記第1形状情報、前記第2形状情報、および前記第1テクスチャ情報に基づいて、前記モーションの大きさを分析する段階と、
前記モーションが増幅されたフレーム上に前記モーションの大きさを表示する増幅映像データを生成する段階と
を含む、モーション増幅方法。
【請求項7】
前記モーションが増幅されたフレームを生成する段階は、
前記第1形状情報と前記第2形状情報との差に予め設定された増幅係数を乗じて、新しい形状情報を生成し、生成した形状情報および前記第2テクスチャ情報を合成して、前記モーションが増幅されたフレームを生成する段階を含む、
請求項6に記載のモーション増幅方法。
【請求項8】
前記モーションの大きさを分析する段階は、
前記第1形状情報および前記第2形状情報に基づいて、前記第1フレームおよび前記第2フレーム間のそれぞれのピクセルの変化を計算し、計算したそれぞれのピクセルの変化によって前記物体のモーションの大きさを分析する段階を含む、
請求項7に記載のモーション増幅方法。
【請求項9】
前記モーションの大きさを分析する段階は、
入力された任意のフレームの形状情報からモーションの大きさを分析するように学習された畳み込みニューラルネットワーク(Convolutional Neural Network、CNN)を用いて前記物体のモーションの大きさを分析する段階をさらに含む、
請求項8に記載のモーション増幅方法。
【請求項10】
前記モーションが増幅されたフレームを生成する段階は、
前記モーションの大きさが前記物体に対して予め格納された振動閾値を超えると、閾値を超えるモーションが検出された領域を確認が必要な危険領域と判断し、前記増幅映像データ上に前記危険領域を表示するように前記増幅映像データを生成する段階を含む、
請求項9に記載のモーション増幅方法。
【請求項11】
請求項6~10のいずれか1項に記載の方法を行うプログラムが格納されている、記録媒体。
【請求項12】
請求項6~10のいずれか1項に記載の方法を行うように記録媒体に格納される、プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、モーション増幅装置およびこれを用いる方法に関する。
【背景技術】
【0002】
産業現場で用いられる設備で問題が発生した場合に、異常振動あるいは挙動が発生する。例えば、老朽化された回転体設備の場合、回転方向ではない、回転軸方向への異常振動が発生しうる。普遍的に、検査者が肉眼で設備の欠陥をチェックする方法が用いられるが、これは振動周波数が高い場合、振動の大きさを確認しにくく、検査者の主観により判断が異なり、長期的なモニタリングが煩わしいという問題がある。
【0003】
これによって、設備の欠陥を視角化するために、微細モーションを増幅させて視角化するモーション増幅技術(motion magnification)が使用される。モーション増幅技術は、一般に空間上で固定されている各地点を通過する物体の物理量の変化から動きを推定するオイラーの方法(Eulerian)を使用する。
【発明の概要】
【発明が解決しようとする課題】
【0004】
モーション増幅技術は、設備の欠陥の有無を判断するための必須要素であるモーションの大きさに対する正確な数値的な値を提供しないという問題がある。
【0005】
また、従来のモーション増幅装置により増幅されたモーションの大きさが、予め設定した増幅係数と同一でないという問題がある。さらに、増幅された映像の品質が良くないというデメリットがある。
【0006】
本開示は、このような問題点を解決するためのものであって、設備のモーション増幅と共にモーションの数値的な値を提供することを目的とする。
【0007】
本開示は、物体のモーションを増幅して視覚的に示しつつ、同時にモーションを定量的に分析するものである。
【課題を解決するための手段】
【0008】
一実施例によるモーション増幅装置は、映像内で任意の隣接する第1フレームおよび第2フレームを受信し、第1フレームを第1形状情報および第1テクスチャ情報に分解し、第2フレームを第2形状情報および第2テクスチャ情報に分解するエンコーダと、第1形状情報、第2形状情報、および第2テクスチャ情報に基づいて、物体のモーションが増幅されたフレームを生成する第1モジュールと、第1形状情報、第2形状情報、および第1テクスチャ情報に基づいて、モーションの大きさを分析する第2モジュールと、モーションが増幅されたフレーム上にモーションの大きさを表示する増幅映像データを生成する第3モジュールとを含む。
【0009】
第1モジュールは、第1形状情報と第2形状情報との差に予め設定された増幅係数を乗じて、新しい形状情報を生成し、生成した形状情報、第1形状情報、および第2テクスチャ情報を合成して、モーションが増幅されたフレームを生成することができる。
【0010】
第2モジュールは、第1形状情報および第2形状情報に基づいて、第1フレームおよび第2フレーム間のそれぞれのピクセルの変化を計算し、計算したそれぞれのピクセルの変化によって物体のモーションの大きさを分析するように構成される。
【0011】
第2モジュールは、入力された任意のフレームの形状情報からモーションの大きさを分析するように学習された畳み込みニューラルネットワーク(Convolutional Neural Network、CNN)を用いて物体のモーションの大きさを分析するように構成される。
【0012】
物体に対する振動閾値を格納しているメモリと、増幅映像データを出力する出力部とをさらに含み、第3モジュールは、モーションの大きさが振動閾値を超えると、閾値を超えるモーションが検出された領域を確認が必要な危険領域と判断し、増幅映像データ上に危険領域を表示するように増幅映像データを生成することができる。
【0013】
一実施例によるモーション増幅方法は、映像内で任意の隣接する第1フレームおよび第2フレームを受信し、第1フレームを第1形状情報および第1テクスチャ情報に分解し、第2フレームを第2形状情報および第2テクスチャ情報に分解する段階と、第1形状情報、第2形状情報、および第2テクスチャ情報に基づいて、物体のモーションが増幅されたフレームを生成する段階と、第1形状情報、第2形状情報、および第1テクスチャ情報に基づいて、モーションの大きさを分析する段階と、モーションが増幅されたフレーム上にモーションの大きさを表示する増幅映像データを生成する段階とを含む。
【0014】
モーションが増幅されたフレームを生成する段階は、第1形状情報と第2形状情報との差に予め設定された増幅係数を乗じて、新しい形状情報を生成し、生成した形状情報、第1形状情報、および第2テクスチャ情報を合成して、モーションが増幅されたフレームを生成する段階を含むことができる。
【0015】
モーションの大きさを分析する段階は、第1形状情報および第2形状情報に基づいて、第1フレームおよび第2フレーム間のそれぞれのピクセルの変化を計算し、計算したそれぞれのピクセルの変化によって物体のモーションの大きさを分析する段階を含むことができる。
【0016】
モーションの大きさを分析する段階は、入力された任意のフレームの形状情報からモーションの大きさを分析するように学習された畳み込みニューラルネットワーク(Convolutional Neural Network、CNN)を用いて物体のモーションの大きさを分析する段階をさらに含むことができる。
【0017】
モーションが増幅されたフレームを生成する段階は、モーションの大きさが物体に対して予め格納された振動閾値を超えると、閾値を超えるモーションが検出された領域を確認が必要な危険領域と判断し、増幅映像データ上に危険領域を表示するように増幅映像データを生成する段階を含むことができる。
【0018】
一実施例による記録媒体は、モーション増幅方法を行うプログラムが格納されていてもよい。
【0019】
一実施例によるプログラムは、モーション増幅方法を行うように記録媒体に格納されてもよい。
【発明の効果】
【0020】
本開示による実施例の少なくとも1つによれば、より正確なモーション増幅結果を取得することができる。
【0021】
本開示による実施例の少なくとも1つによれば、物体のモーション分析が容易である。
【0022】
本開示による実施例の少なくとも1つによれば、物体で確認が必要な部分を視覚的に示すことができる。
【図面の簡単な説明】
【0023】
【
図1】本発明の一実施例によるモーション増幅システムのブロック図である。
【
図2】本発明のモーション増幅装置の制御部のブロック図である。
【
図3】本発明によるモーション増幅方法のフローチャートである。
【
図4】本発明によるモーション増幅装置の出力部に現れた画面の一例を示す図である。
【発明を実施するための形態】
【0024】
以下、添付した図面を参照して本明細書に開示された実施例を詳細に説明し、同一または類似の構成要素には同一、類似の図面符号を付し、これに関する重複した説明は省略する。以下の説明で使用される構成要素に対する接尾辞「モジュール」および「部」は、明細書作成の容易さだけが考慮されて付与または混用されるものであって、それ自体で互いに区別される意味または役割を有するものではない。また、本明細書に開示された実施例を説明するにあたり、かかる公知の技術に関する具体的な説明が本明細書に開示された実施例の要旨をあいまいにしうると判断された場合、その詳細な説明を省略する。また、添付した図面は本明細書に開示された実施例を容易に理解できるようにするものに過ぎず、添付した図面によって本明細書に開示された技術的思想が制限されず、本発明の思想および技術範囲に含まれるすべての変更、均等物乃至代替物を含むことが理解されなければならない。
【0025】
本願において、「含む」または「有する」などの用語は、明細書上に記載された特徴、数字、段階、動作、構成要素、部品、またはこれらを組み合わせたものが存在することを指定しようとするものであって、1つまたはそれ以上の他の特徴や、数字、段階、動作、構成要素、部品、またはこれらを組み合わせたものの存在または付加の可能性を予め排除しないことが理解されなければならない。
【0026】
以下、添付した図面を参照して本発明の実施例を詳細に説明する。
【0027】
図1は、本発明の一実施例によるモーション増幅システムのブロック図である。
【0028】
モーション増幅システム1は、カメラ10と、モーション増幅装置20とを含む。
【0029】
カメラ10およびモーション増幅装置20は、ネットワークを介して連結可能である。
【0030】
本発明において、ネットワークは、装置およびサーバのようなそれぞれのノード相互間に情報交換が可能な連結構造を意味するものであり、このようなネットワークの一例には、LAN(local area network)、WAN(wide area network)、BBN(broadband network)、WLAN(wireless LAN)、LTE(Long Term Evolution、LTE)、LTE-A(LTE Advanced)、CDMA(Code-Division Multiple Access、CDMA)、WCDMA(Wideband Code Division Multiplelex Access)(登録商標)、UMTS(Universal Mobile Telecommunication System)、WiBro(Wireless Broadband)、GSM(Global System for Mobile Communications)、BLE(Bluetooth Low Energy)、ブルートゥース(Bluetooth)(登録商標)、Zigbee、UWB(Ultra-WideBand)、ANT、Wi-fi、IrDA(infrared data association)、PAN(Personal Area Network)などが含まれるが、これに限定されない。
【0031】
カメラ10は、モーションを分析しようとする物体を撮影する装置で、CCD(Charge Coupled Device)、CMOS(Complementary Metal Oxide Semiconductoructor)などの多様な形状のイメージセンサを備えることができる。例えば、カメラ10は、操業現場では設備を撮影することができる。
【0032】
カメラ10は、物体に対する映像をリアルタイムに取得することができる。カメラ10により撮影した映像は、ネットワークを介してモーション増幅装置2に伝送される。
【0033】
モーション増幅装置20は、カメラ10から受信した映像を分析して、映像内に存在する微細モーションを検出し、検出した微細モーションを増幅および分析する装置である。
【0034】
モーション増幅装置20は、通信部210と、制御部230と、メモリ部250と、出力部270とを含む。
【0035】
通信部210は、ネットワークを介してカメラ10と通信するためのものである。通信部210は、カメラ10から受信される映像を制御部230に伝達することができる。
【0036】
制御部230は、メモリ部250に格納されているイメージを学習する人工ニューラルネットワークを含むことができる。
【0037】
人工ニューラルネットワークは、複数のレイヤを含み、複数のレイヤは、重みが適用される複数の演算により連結される。言い換えれば、人工ニューラルネットワークは、重みが適用される複数の演算を含む複数のレイヤを含む。ここで、複数の演算を含む複数のレイヤは、畳み込み演算を行う畳み込みレイヤ(convolution layer)、ダウンサンプリング演算を行うプーリングレイヤ(pooling layer)、アップサンプリング(Up Sampling)演算を行うアンプーリングレイヤ(UL:Unpooling Layer)、逆畳み込み演算を行う逆畳み込みレイヤ(DL:Deconvolution Layer)などを含むことができる。
【0038】
一方、人工ニューラルネットワークを学習させることは、予測された出力を生成するためにニューラルネットワークに知られた出力を有する入力を提供し、ニューラルネットワークを介して予測された出力と知られた出力とを比較して、その差が減少するように人工ニューラルネットワークのアルゴリズムを修正することを意味する。例えば、人工ニューラルネットワークは、最急降下法(Gradient decent)方式で学習される。これは、数回にわたって繰り返し可能であり、繰り返されながら人工ニューラルネットワークはさらに正確な出力を出すことができる。
【0039】
制御部230は、人工ニューラルネットワークを用いて複数のフレームを含む映像内に時間に応じた微細モーションを検出し、検出した微細モーションを増幅させることができる。制御部230は、増幅された微細モーションが含まれている増幅映像を生成することができる。増幅映像は、伝達された映像内で微細モーションが検出された領域が強調された映像である。つまり、増幅映像は、予め設定された増幅係数により微細モーションが増幅されて再構成された映像である。増幅映像は、複数の増幅された映像フレームで構成される。
【0040】
制御部230は、人工ニューラルネットワークを用いてピクセル毎の移動変位を分析することができる。また、制御部230は、分析したピクセル毎の移動変位により微細モーションの振動の大きさを導出することができる。以下、ピクセル毎の移動変位を微細モーションの大きさという。制御部230は、微細モーションの大きさが映像内に共に表示されるようにデータを生成することができる。さらに、制御部230は、微細モーションの大きさが増幅映像内に共に表示されるように増幅映像データを生成してもよい。増幅映像データは、分析した微細モーションの大きさが増幅映像に共に表示されているデータである。
【0041】
制御部230は、メモリ部250に格納されているイメージを学習する以外にも、生成した増幅映像および増幅映像データを追加的に学習する人工ニューラルネットワークを含んでもよい。
【0042】
制御部230は、分析した微細モーションの大きさが予め設定されている閾値を超えるか否かを判断することができる。万一、微細モーションの大きさが閾値を超えると、制御部230は、閾値を超える微細モーションが検出された領域を確認が必要な危険領域と判断することができる。
【0043】
制御部230は、増幅映像および増幅映像データを出力部300に伝達することができる。
【0044】
メモリ部250には、カメラ10から受信した映像、制御部230が生成した増幅映像、微細モーションの大きさを含む増幅映像データ、制御部230の人工ニューラルネットワークを学習させるのに必要な任意のデータセット、設備あたりの振動の閾値などが格納されている。ここで、メモリ部250は、モーション増幅装置20内に位置すると記述したが、モーション増幅装置20の外部に位置して、モーション増幅装置20と通信する別途のデータベースであってもよい。
【0045】
出力部270は、制御部230から伝達されたデータを出力するディスプレイであってもよい。例えば、出力部270は、増幅映像、増幅映像データを出力することができる。また、出力部270は、カメラ10から受信した映像内にモーションの大きさが表示された映像を出力してもよい。
【0046】
ユーザは、出力部270を介して、カメラ10が撮影している物体が確認を要するか否かを判断することができる。
【0047】
図2は、本発明のモーション増幅装置の制御部の構成を示す図である。
【0048】
制御部230は、エンコーダ(Encoder)231と、第1モジュール233と、第2モジュール235と、第3モジュール237とを含む。
【0049】
エンコーダ231は、入力されたフレームを形状情報(Shape)およびテクスチャ情報(Texture)に分解する構成である。具体的には、エンコーダ231は、入力された2つのフレームそれぞれに対して空間上分解(Spatial Decomposition)して、それぞれのフレームに対する形状情報(Shape n)およびテクスチャ情報(Texture n)を取得することができる。
【0050】
エンコーダ231は、メモリ部250から任意の隣接した2つのフレームと2つのフレームに関する形状情報とテクスチャ情報が入力される。エンコーダ231は、入力されたフレームを形状情報とテクスチャ情報に分解するように制約項(regularization term)を満足するように学習される。制約項は、例えば、形状情報を分解するために1つのフレーム内でテクスチャが変化しても形状情報は同一でなければならないという制約、テクスチャ情報を分解するために隣接した2つのフレーム内のテクスチャは同一でなければならないというなどの制約を含むことができる。エンコーダ231は、メモリ部250から伝達された2つのフレームに対して、すでに公知の形状情報とテクスチャ情報を出力するまで学習される。
【0051】
以後、学習されたエンコーダ231は、通信部210から伝達された映像内で任意の隣接した2つのフレーム(Frame n、Frame n+1)を受信することができる。エンコーダ231は、それぞれのフレームに対して分解した形状情報(Shape n、Shape n+1)およびテクスチャ情報(Texture n、Texture n+1)を第1モジュール233および第2モジュール235に伝達することができる。
【0052】
第1モジュール233は、エンコーダ231から受信したフレームに対する増幅フレームを生成する構成で、増幅器(Manipulator)2331と、デコーダ(Decoder)2333とを含む。
【0053】
増幅器2331は、形状情報(Shape n、Shape n+1)間の差、つまり、微細モーションを増幅させる構成である。具体的には、増幅器2331は、エンコーダ231から連続した2つのフレームに対してそれぞれ分解された形状情報(Shape n、Shape n+1)を受信した後、形状情報の差を求めることができる。以後、増幅器2331は、形状情報間の差に特定の増幅係数(α)を乗じて、増幅された微細モーションを含む新しい形状情報(Shape n+1’)を生成することができる。ここで、増幅係数(α)は、予め設定された係数であってもよい。
【0054】
増幅器2331は、新しい形状情報(Shape n+1’)をデコーダ2333に伝達することができる。
【0055】
デコーダ2333は、テクスチャ情報と形状情報とを1つのフレームに合成する構成である。
【0056】
具体的には、デコーダ2333は、エンコーダ231によって分解されたテクスチャ情報(Texture n+1)および増幅器2331によって増幅された形状情報(Shape n+1’)を1つのフレームに合成して、全域的に動きが増幅されたフレーム(Frame n+1’)を生成することができる。
【0057】
第2モジュール235は、エンコーダ231から受信したフレーム間の微細モーションの大きさを分析するための構成である。具体的には、第2モジュール235は、エンコーダ231に入力された連続した2つのフレームに対してオプティカルフロー(Optical Flow)技術を適用してすべてのピクセルでの動きを計算した結果を示したフローマップ(Flow map)を生成することによって、微細モーションの大きさを分析することができる。
【0058】
オプティカルフロー技術は、物体の空間および時間座標に対する偏導関数を計算することによって、フレーム内で空間的に移動する物体に関するモーション情報、例えば、瞬間速度を推定する技術である。具体的には、オプティカルフロー技術は、隣接したフレーム間のピクセルの変化と隣接したフレーム間の時間間隔を用いて、入力された2つのフレーム間の対応性を見つけて、2つのフレーム内の物体のモーションに関する情報、例えば、モーションの大きさ(motion intensity)を取得することができる。このようなオプティカルフロー技術は、ラグランジュの方法に属する。
【0059】
第2モジュール235は、学習された人工ニューラルネットワークを用いて物体のモーションの大きさを分析することができる。一方、
図2には、第2モジュール235が微細モーションの大きさを分析する場合に、畳み込みニューラルネットワーク(Convolutional Neural Network、CNN)2351モデルを用いることが示されているが、これに限定されるものではなく、第2モジュール235は、任意の人工ニューラルネットワークを用いることができる。
【0060】
CNN2351は、畳み込みレイヤで構成された人工ニューラルネットワークである。CNN2351は、メモリ部250から伝達された任意のデータセットによりモーションの大きさを分析するように学習される。CNN2351は、分析結果と正解との間の差である損失値が基準値以下となるまで学習される。
【0061】
第2モジュール235は、学習されたCNN2351を介してエンコーダ231から入力されたフレームの形状情報間のモーションの大きさ値を分析することができる。つまり、フローマップは、事前学習されたCNN2351にフレームを入力して取得した値であってもよい。
【0062】
まとめると、第2モジュール235には形状情報(Shape n、Shape n+1)、およびテクスチャ情報(Texture n)が入力されて、2つの形状情報(Shape n、Shape n+1)間のピクセルの変化を計算して、ピクセル毎の移動変位の定量分析が可能である。
【0063】
上述のように、第2モジュール235は、人工ニューラルネットワークを用いてカメラ10から通信部210を介して受信されたフレーム内の物体のモーションの大きさを分析することができる。
【0064】
結論として、モーション増幅装置20は、第1モジュール233を介して増幅映像を生成し、第2モジュール235を介して物体に対するモーションの大きさを分析してフローマップを生成することができる。
【0065】
第3モジュール237は、第1モジュール233によってモーションが増幅されたフレーム上に、第2モジュール235によって分析されたモーションの大きさを表示する増幅映像データを生成することができる。第3モジュール237はさらに、分析した物体の移動変位が特定の閾値を超える場合に、閾値を超える振動を有する部分に警告表示をさらに表示する増幅映像データを生成することができる。
【0066】
ただし、ディープラーニングを用いてモーションが増幅された増幅映像を生成する方法において、エンコーダに単純に制約項を追加して学習させるだけではフレームを完璧に形状情報とテクスチャ情報に分解しにくいことがある。フレームを形状情報とテクスチャ情報に完全に分解できなければ、微細モーションを有する物体の境界と背景が共に増幅されて不安定に揺れるウォブルエフェクト(Wobble effect)が発生しうる。この場合には、正確なモーションの大きさの測定が不可能なため、予め設定された増幅係数と一致しない増幅映像を出力することがある。
【0067】
これに対し、モーション増幅装置20は、エンコーダ231の出力である形状情報(Shape n、Shape n+1)とテクスチャ情報(Texture n、Texture n+1)をオイラーの方法に基づくモーション増幅モデルである第1モジュール233だけでなく、ラグランジュの方法に基づくオプティカルフローモデルである第2モジュール235に提供する。
【0068】
モーション増幅装置20は、1つのデータで第1モジュール233と第2モジュール235をすべて学習させることが可能なため、データ効率的である。
【0069】
以後、第1モジュール233に第2モジュール235の出力であるフローマップに関する情報を提供することによって、エンコーダ231は、入力されたフレームに対してフローマップにより形状情報とテクスチャ情報を完全に分解できるので、ウォブルエフェクトが発生する可能性が低い。また、第2モジュール235を介して物体のモーションに対する大きさを正確に分析可能で、第1モジュール233の増幅しようとする増幅係数の大きさと一致する増幅映像を取得することができる。
【0070】
図3は、本発明によるモーション増幅方法のフローチャートである。
【0071】
まず、エンコーダ231は、第nフレームおよび第n+1フレームを受信(S301)する。
【0072】
第nフレームと第n+1フレームは、隣接するフレームであってもよい。また、エンコーダ231は、メモリ部250に予め格納されている任意のデータセットを用いてエンコーダ231に入力されたフレームを形状情報およびテクスチャ情報に分解するように学習されていてもよい。
【0073】
その後、エンコーダ231は、第nフレームを第n形状情報および第nテクスチャ情報に分解し、第n+1フレームを第n+1形状情報および第n+1テクスチャ情報に分解(S303)する。エンコーダ231は、分解した第n形状情報および第nテクスチャ情報、および第n+1形状情報および第n+1テクスチャ情報を第1モジュール233および第2モジュール235に伝達することができる。
【0074】
第1モジュール233は、第n形状情報および第n+1形状情報間の差に増幅係数を乗じて、増幅された第n+1’形状情報を生成(S305)する。
【0075】
第1モジュール233は、増幅された第n+1’形状情報、第n形状情報、および第n+1テクスチャ情報を合成して、モーションが増幅された第n+1フレームを生成(S307)する。したがって、第1モジュール233は、モーションが強調された増幅映像を生成することができる。
【0076】
これと同時に、第2モジュール235は、第n形状情報および第n+1形状情報に基づいて、第nフレームおよび第n+1フレーム間のそれぞれのピクセルの変化を計算(S309)する。
【0077】
第2モジュール235は、計算したそれぞれのピクセルの変化によって移動変位を定量分析(S311)する。
【0078】
以後、第3モジュール237は、出力部270を介してモーションが増幅された第n+1フレーム上に数値化された移動変位を表示(S313)する。
【0079】
第3モジュール237は、出力部270を介して分析した物体の移動変位が特定の閾値を超える場合に、閾値を超える振動を有する部分に警告表示を共に表示する。この時、特定の閾値は、メモリ250に予め格納されている設備あたりの振動の閾値であってもよい。
【0080】
図4は、カメラが回転する設備を撮影する場合に、モーション増幅装置の出力部に現れた画面の一例を示す図である。
【0081】
図4の(a)は、カメラ10がy軸を基準に回転する設備を撮影する場合に、カメラ10が撮影した映像の1つのフレームを示す画面である。カメラ10は、観察が必要な設備の問題になる部分を撮影するように設けられていてもよい。この時、カメラ10は、リアルタイムに設備に対する映像を撮影して、ネットワークを介してモーション増幅装置20に伝送することができる。
【0082】
ここで、問題になる部分は、設備が回転軸と平行に、つまり、y軸方向に振動しうる部分である。軸方向に平行なモーションは、設備には望ましくない挙動であって、観察する必要性がある。
【0083】
モーション増幅装置20は、カメラ10から映像を受信して、第1モジュール233を介して軸方向に平行なモーションを増幅し、第2モジュール235を介してモーションを分析することができる。
【0084】
【0085】
図4の(b)には、第2モジュール235を介して分析した設備のモーションに対する移動変位が、第1モジュール233が生成した増幅映像に共に表示されている。例えば、y軸方向への設備の挙動が表示される。
【0086】
図4の(c)は、物体が閾値を超える振動を有する部分に警告表示が現れた増幅映像データの一例である。
【0087】
メモリ部250には、カメラ10が撮影している設備が安全に作動している場合に発生しうる振動の閾値が格納されていてもよい。設備が予め格納されている振動の閾値を超えて振動する場合に、安全でない状態でありうる。制御部230は、設備がy軸方向に特定の閾値を超えて振動する場合に、当該部分に警告表示を共に表示することができる。
【0088】
本開示によるモーション増幅装置によれば、設備の振動を増幅し、画面に視角化して肉眼で把握が可能である。
【0089】
また、本開示によるモーション増幅装置によれば、欠陥が疑われる設備のモーションの大きさを定量的に分析可能である。設備の振動の大きさを定量的に測定して、測定された結果に応じて欠陥の程度を把握することができる。
【0090】
また、本開示によるモーション増幅装置によれば、接触式センサを代替することで経済的な利点がある。高価な局部診断分析および計測のための接触式センサをGPUとカメラに代替することで費用を節減することができる。さらに、接触式とは異なって、単一移動型センサのカメラを用いるため、広域的な範囲に対して直観的な診断が可能であり、少ない数のセンサで多数の設備診断が可能である。これによって、各種産業現場で用いられる設備の欠陥を正確にモニタリングして安全な施設欠陥の早期診断が可能である。
【0091】
以上説明された実施例は、コンピュータ上で多様な構成要素により実行できるコンピュータプログラムの形状で実現可能であり、このようなコンピュータプログラムは、コンピュータ可読媒体に記録される。この時、媒体は、ハードディスク、フロッピーディスクおよび磁気テープのような磁気媒体、CD-ROMおよびDVDのような光記録媒体、フロプティカルディスク(floptical disk)のような磁気-光媒体(magneto-optical medium)、およびROM、RAM、フラッシュメモリ部などのような、プログラム命令語を格納し実行するように特別に構成されたハードウェア装置を含むことができる。
【0092】
実施例による方法を構成する段階について明白に順序を記載したり反する記載がなければ、前記段階は適当な順序で行われる。必ずしも前記段階の記載順序により本発明が限定されるものではない。本発明において、すべての例または例示的な用語(例えば、など)の使用は単に本発明を詳細に説明するためのものであって、これによって本発明の範囲が限定されるものではない。また、通常の技術者は特許請求の範囲またはその均等物の範疇内で多様な修正、組み合わせおよび変更が行われることが分かる。
【0093】
以上、本発明の実施例について詳細に説明したが、本発明の権利範囲がこれに限定されるものではなく、本発明の属する分野における通常の知識を有する者が多様に変形および改良した形状も本発明の権利範囲に属する。
【国際調査報告】