IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ディフェンス・エージェンシー・フォー・テクノロジー・アンド・クオリティの特許一覧

<>
  • 特許-映像合成方法 図1
  • 特許-映像合成方法 図2
  • 特許-映像合成方法 図3
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-04-18
(45)【発行日】2023-04-26
(54)【発明の名称】映像合成方法
(51)【国際特許分類】
   G06T 7/00 20170101AFI20230419BHJP
【FI】
G06T7/00 350C
【請求項の数】 7
(21)【出願番号】P 2021202734
(22)【出願日】2021-12-14
(65)【公開番号】P2022094349
(43)【公開日】2022-06-24
【審査請求日】2021-12-14
(31)【優先権主張番号】10-2020-0174471
(32)【優先日】2020-12-14
(33)【優先権主張国・地域又は機関】KR
(73)【特許権者】
【識別番号】521495699
【氏名又は名称】ディフェンス・エージェンシー・フォー・テクノロジー・アンド・クオリティ
【氏名又は名称原語表記】DEFENSE AGENCY FOR TECHNOLOGY AND QUALITY
(74)【代理人】
【識別番号】100145403
【弁理士】
【氏名又は名称】山尾 憲人
(74)【代理人】
【識別番号】100135703
【弁理士】
【氏名又は名称】岡部 英隆
(72)【発明者】
【氏名】ノ,サンウ
(72)【発明者】
【氏名】キム,テファン
(72)【発明者】
【氏名】アン,ジンウ
(72)【発明者】
【氏名】キム,ハンギュ
【審査官】真木 健彦
(56)【参考文献】
【文献】Aayush Bansal, Shugao Ma, Deva Ramanan, Yaser Sheikh,Recycle-GAN: Unsupervised Video Retargeting,ECCV 2018,2018年,P.1-17
【文献】Aliaksandr Siarohin, Stephane Lathuiliere, Sergey Tulyakov, Elisa Ricci, Nicu Sebe,Animating Arbitrary Objects via Deep Motion Transfer,2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR),IEEE,2019年,pp.2377-2386
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06T 5/50
(57)【特許請求の範囲】
【請求項1】
第1映像および前記第1映像と異なる第2映像を準備し、それぞれの映像に対する時間的情報と空間的情報を入力する段階;および
前記入力された情報に基づいて下記の一般式1で計算される再発損失(recurrent loss、L)および下記の一般式2で計算されるリサイクル損失(recycle loss、Lr)を計算し、計算された再発損失およびリサイクル損失を敵対的損失(adversarial loss)と結合して学習する段階を含む、映像合成方法:
[一般式1]
【数1】

[一般式2]
【数2】

前記一般式1および2で、xt-1は第1映像の特定t時点のフレームの前の時点のフレームであり、xt+1は第1映像の特定t時点のフレームの後の時点のフレームであり、xは第1映像の特定t時点のフレームであり、Pは映像の過去フレームから未来のモデルを予測するように訓練された予測関数であり、Gはイメージ生成関数であり、Xは第1映像のデータであり、Yは第2映像のデータである。
【請求項2】
前記再発損失は、第1映像および第2映像それぞれの特定t時点のフレームの前の時点のフレームおよび後の時点のフレームのみを活用して補間法で構成される、請求項1に記載の映像合成方法。
【請求項3】
前記リサイクル損失は、第1映像および第2映像それぞれの特定t時点のフレームの前の時点のフレームおよび後の時点のフレームのみを活用して補間法で構成される、請求項1に記載の映像合成方法。
【請求項4】
前記敵対的損失は下記の一般式3で計算される、請求項1に記載の映像合成方法:
[一般式3]
【数3】

前記一般式3で、Gはイメージ生成関数であり、Dは識別関数であり、yは第2映像の特定s時点のフレームであり、xは第1映像の特定t時点のフレームであり、Yは第2映像のデータである。
【請求項5】
第1映像および前記第1映像と異なる第2映像に対する時間的情報と空間的情報を入力するための入力部;および
前記入力された情報に基づいて下記の一般式1で計算される再発損失(recurrent loss、L)および下記の一般式2で計算されるリサイクル損失(recycle loss、Lr)を計算し、計算された再発損失およびリサイクル損失を敵対的損失(adversarial loss)と結合して学習するための制御部を含む、映像合成装置:
[一般式1]
【数4】

[一般式2]
【数5】

前記一般式1および2で、xt-1は第1映像の特定t時点のフレームの前の時点のフレームであり、xt+1は第1映像の特定t時点のフレームの後の時点のフレームであり、xは第1映像の特定t時点のフレームであり、Pは映像の過去フレームから未来のモデルを予測するように訓練された予測関数であり、Gはイメージ生成関数であり、Xは第1映像のデータであり、Yは第2映像のデータである。
【請求項6】
出力部をさらに含む、請求項5に記載の映像合成装置。
【請求項7】
前記敵対的損失は下記の一般式3で計算される、請求項5に記載の映像合成装置:
[一般式3]
【数6】
前記一般式3で、Gはイメージ生成関数であり、Dは識別関数であり、yは第2映像の特定s時点のフレームであり、xは第1映像の特定t時点のフレームであり、Yは第2映像のデータである。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は映像合成方法およびこれを利用した映像合成装置に関する。
【背景技術】
【0002】
従来映像合成方法としては、再発損失(recurrent loss)、リサイクル損失(recycle loss)および敵対的損失(adversarial loss)を結合して学習するリサイクル生成的敵対的生成ネットワーク(Recycle-GAN)アルゴリズムが利用されている。再発損失とリサイクル損失を求めるためには外挿法が利用されている。外挿法の活用によって、再発損失とリサイクル損失モデルが未来予測モデルになったのであり、第1映像または第2映像の特定t時点のフレームの映像を時間の流れに連続するように自然につながり得るようにするために1からt-1時点までの映像を活用して連係された。
【0003】
しかし、リサイクル生成的敵対的生成ネットワークアルゴリズムで両映像間の合成時、外挿法を利用することによって、アルゴリズムの歪み現象が激しいことを確認した。したがって、これを解決するために、再発損失とリサイクル損失を求める時に外挿法を活用せず、歪み現象を減少させ得る映像合成方法が要求されている。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本出願の課題は、アルゴリズムの歪み現象を減少させ、映像合成のために必要とされる計算量を減らして学習に所要する時間を減縮させ得る映像合成方法およびこれを利用した映像合成装置を提供することである。
【課題を解決するための手段】
【0005】
前記課題を解決するために、本出願の映像合成方法は第1映像および前記第1映像と異なる第2映像を準備し、それぞれの映像に対する時間的情報と空間的情報を入力する段階;および前記入力された情報に基づいて下記の一般式1で計算される再発損失(recurrent loss、LT)および下記の一般式2で計算されるリサイクル損失(recycle loss、Lr)を計算し、計算された再発損失およびリサイクル損失を敵対的損失(adversarial loss)と結合して学習する段階を含む。
【0006】
[一般式1]
【数1】
【0007】
[一般式2]
【数2】
【0008】
前記一般式1および2で、xt-1は第1映像の特定t時点のフレームの前の時点のフレームであり、xt+1は第1映像の特定t時点のフレームの後の時点のフレームであり、xは第1映像の特定t時点のフレームであり、Pは映像の過去フレームから未来のモデルを予測するように訓練された予測関数であり、Gはイメージ生成関数であり、Xは第1映像のデータであり、Yは第2映像のデータである。
【0009】
また、前記再発損失は第1映像および第2映像それぞれの特定t時点のフレームの前の時点のフレームおよび後の時点のフレームのみを活用して補間法で構成され得る。
【0010】
また、前記リサイクル損失は第1映像および第2映像それぞれの特定t時点のフレームの前の時点のフレームおよび後の時点のフレームのみを活用して補間法で構成され得る。
【0011】
また、前記敵対的損失は下記の一般式3で表示され得る。
【0012】
[一般式3]
【数3】
【0013】
前記一般式3で、Gはイメージ生成関数であり、Dは識別関数であり、yは第2映像の特定s時点のフレームであり、xは第1映像の特定t時点のフレームであり、Yは第2映像のデータである。
【0014】
また、本出願の映像合成装置は第1映像および前記第1映像と異なる第2映像に対する時間的情報と空間的情報を入力するための入力部;および前記入力された情報に基づいて下記の一般式1で計算される再発損失(recurrent loss、L)および下記の一般式2で計算されるリサイクル損失(recycle loss、Lr)を計算し、計算された再発損失およびリサイクル損失を敵対的損失(adversarial loss)と結合して学習するための制御部を含む。
【0015】
[一般式1]
【数4】
【0016】
[一般式2]
【数5】
【0017】
前記一般式1および2で、xt-1は第1映像の特定t時点のフレームの前の時点のフレームであり、xt+1は第1映像の特定t時点のフレームの後の時点のフレームであり、xは第1映像の特定t時点のフレームであり、Pは映像の過去フレームから未来のモデルを予測するように訓練された予測関数であり、Gはイメージ生成関数であり、Xは第1映像のデータであり、Yは第2映像のデータである。
【0018】
また、前記映像合成装置は出力部をさらに含むことができる。
【0019】
また、前記敵対的損失は下記の一般式3で表示され得る。
【0020】
[一般式3]
【数6】
【0021】
前記一般式3で、Gはイメージ生成関数であり、Dは識別関数であり、yは第2映像の特定s時点のフレームであり、xは第1映像の特定t時点のフレームであり、Yは第2映像のデータである。
【発明の効果】
【0022】
本出願の映像合成方法およびこれを利用した映像合成装置は、アルゴリズムの歪み現象を減少させ、映像合成のために必要とされる計算量を減らして学習に所要する時間を減縮させることができる。また、本出願の映像合成方法およびこれを利用した映像合成装置は、優れた性能およびディープラーニングアルゴリズムの学習時間の減縮などの特性に基づいて国防、IT、エンターテインメントなどの多様な分野で活用され得、心理戦または指揮体系の混乱を誘導するのに活用され得る。
【図面の簡単な説明】
【0023】
図1】本出願の一実施例に係る映像合成方法を説明するために第1映像の特定t時点のフレームの前の時点のフレーム(Xt-1)を示したイメージである。
図2】本出願の一実施例に係る映像合成方法を説明するために第1映像の特定t時点のフレームの後の時点のフレーム(Xt+1)を示したイメージである。
図3】本出願の一実施例に係る映像合成方法を説明するために第1映像の合成された映像(X’)を示したイメージである。
【発明を実施するための形態】
【0024】
本出願は映像合成方法に関する。前記映像合成方法は例えば、補間法を利用することによって、アルゴリズムの歪み現象を減少させ、映像合成のために必要とされる計算量を減らして学習に所要する時間を減縮させ得る方法であり得る。また、本出願の映像合成方法は、優れた性能およびディープラーニングアルゴリズムの学習時間の減縮などの特性に基づいて国防、IT、エンターテインメントなどの多様な分野で活用され得、心理戦または指揮体系の混乱を誘導するのに活用され得る。本明細書で補間法は、具体的な関数が未定である状態で2個以上の変数値に対する関数値F(x)を知っている場合、それぞれの変数の間に存在する特定x値に対する関数値を推定する方法を意味する。
【0025】
例示的な本出願の映像合成方法は入力する段階および学習する段階を含む。
【0026】
前記入力する段階はそれぞれの映像に対する時間的情報と空間的情報を入力する段階であって、第1映像および前記第1映像と異なる第2映像を準備して遂行される。前記映像に対する時間的情報は特定の時点での時間情報を意味する。また、前記映像に対する空間的情報は特定の時点で分布するある場所や地域の位置と形態情報を意味する。また、前記第2映像は第1映像と異なる対象物体、背景または動きなどの情報が内在されたデータを意味する。
【0027】
図1は、本出願の一実施例に係る映像合成方法を説明するために第1映像の特定t時点のフレームの前の時点のフレーム(Xt-1)を示したイメージである。図1に示した通り、前記第1映像はt-1時点のフレームであり得る。前記第1映像を通じてt-1時点のフレームに対する時間的情報と空間的情報を獲得することができる。
【0028】
図2は、本出願の一実施例に係る映像合成方法を説明するために第1映像の特定t時点のフレームの後の時点のフレーム(Xt+1)を示したイメージである。図2に示した通り、前記第1映像はt+1時点のフレームであり得る。前記第1映像を通じてt+1時点のフレームに対する時間的情報と空間的情報を獲得することができる。
【0029】
前記学習する段階は補間法を利用して再発損失(recurrent loss、L)およびリサイクル損失(recycle loss、Lr)を敵対的損失(adversarial loss)と結合して遂行する段階であって、前記入力された情報に基づいて下記の一般式1で計算される再発損失および下記の一般式2で計算されるリサイクル損失を計算し、計算された再発損失およびリサイクル損失を敵対的損失と結合して学習する。
【0030】
[一般式1]
【数7】
【0031】
[一般式2]
【数8】
【0032】
前記一般式1および2で、xt-1は第1映像の特定t時点のフレームの前の時点のフレームであり、xt+1は第1映像の特定t時点のフレームの後の時点のフレームであり、xは第1映像の特定t時点のフレームであり、Pは映像の過去フレームから未来のモデルを予測するように訓練された予測関数であり、Gはイメージ生成関数であり、Xは第1映像のデータであり、Yは第2映像のデータである。
【0033】
図3は、本出願の一実施例に係る映像合成方法を説明するために合成された映像(X’)を示したイメージである。図3に示した通り、前記学習する段階を遂行すればアルゴリズムの歪み現象を減少させ、映像合成のために必要とされる計算量を減らして学習に所要する時間を減縮させることができる。
【0034】
前記再発損失は予測関数によって生成された誤差値を意味し、前記第1映像および第2映像それぞれの特定t時点のフレームの前の時点のフレームおよび後の時点のフレーム、具体的には、第1映像の特定t時点のフレームの前の時点のフレームおよび後の時点のフレーム、および第2映像の特定t時点のフレームの前の時点のフレームおよび後の時点のフレーム、すなわち、前記第1映像および第2映像それぞれの二つのフレームのみを活用して補間法で構成され得る。前記再発損失は前記補間法で構成されることによって、外挿法に比べてアルゴリズムの歪み現象を減少させ、映像合成のために必要とされる計算量を減らして学習に所要する時間を減縮させることができる。
【0035】
また、前記リサイクル損失は第1映像ドメインと第2映像ドメインを両方向に連結し、時間の流れに沿って連続的に見えるようにイメージ生成関数と予測関数そして本来のドメインに戻る生成関数の誤差値を意味し、前記第1映像および第2映像それぞれの特定t時点のフレームの前の時点のフレームおよび後の時点のフレーム、具体的には、第1映像の特定t時点のフレームの前の時点のフレームおよび後の時点のフレーム、および第2映像の特定t時点のフレームの前の時点のフレームおよび後の時点のフレーム、すなわち、前記第1映像および第2映像それぞれの二つのフレームのみを活用して補間法で構成され得る。前記再発損失は前記補間法で構成されることによって、外挿法に比べてアルゴリズムの歪み現象を減少させ、映像合成のために必要とされる計算量を減らして学習に所要する時間を減縮させることができる。
【0036】
前記敵対的損失は生成したフレームと原本映像のフレームが互いに区分不可能であるようにする損失であり、下記の一般式3で計算され得る。
【0037】
[一般式3]
【数9】
【0038】
前記一般式3で、Gはイメージ生成関数であり、Dは識別関数であり、yは第2映像の特定s時点のフレームであり、xは第1映像の特定t時点のフレームであり、Yは第2映像のデータである。
【0039】
前記敵対的損失は前記補間法で構成されることによって、外挿法に比べてアルゴリズムの歪み現象を減少させ、映像合成のために必要とされる計算量を減らして学習に所要する時間を減縮させることができる。
【0040】
本出願はまた、映像合成装置に関する。前記映像合成装置は前述した映像合成方法を利用した映像合成装置に関するものであり、後述する映像合成装置に対する具体的な事項は前記映像合成方法で記述した内容が同一に適用され得るため、これを省略することにする。
【0041】
前記映像合成装置は入力部および制御部を含む。
【0042】
前記入力部は第1映像および前記第1映像と異なる第2映像に対する時間的情報と空間的情報を入力するための部分である。前記入力部に対する具体的な説明は前記入力する段階で記述したものと同一であるため、これを省略することにする。
【0043】
また、前記制御部は前記入力された情報に基づいて下記の一般式1で計算される再発損失(recurrent loss、L)および下記の一般式2で計算されるリサイクル損失(recycle loss、Lr)を計算し、計算された再発損失およびリサイクル損失を敵対的損失(adversarial loss)と結合して学習するための部分である。
【0044】
[一般式1]
【数10】
【0045】
[一般式2]
【数11】
【0046】
前記一般式1および2で、xt-1は第1映像の特定t時点のフレームの前の時点のフレームであり、xt+1は第1映像の特定t時点のフレームの後の時点のフレームであり、xは第1映像の特定t時点のフレームであり、Pは映像の過去フレームから未来のモデルを予測するように訓練された予測関数であり、Gはイメージ生成関数であり、Xは第1映像のデータであり、Yは第2映像のデータである。
【0047】
前記制御部に対する具体的な説明は前記学習する段階で記述したものと同一であるため、これを省略することにする。
【0048】
前記映像合成装置は出力部をさらに含むことができる。前記出力部は前記制御部を通じて結合、すなわち、学習されて合成された映像を表示装置に出力するための部分である。前記映像合成装置は出力部をさらに含むことによって、前記第1映像および前記第2映像が合成された映像を視角化することができる。前記表示装置の種類としては当業界で公知になっている種類をすべて使用できるため、特に制限されるものではない。例えば、前記表示装置としては、液晶表示装置(LCD)、発光ダイオード(LED)および有機発光ダイオード(OLED)等を使うことができる。
【0049】
前記敵対的損失は生成したフレームと原本映像のフレームが互いに区分不可能であるようにする損失であり、下記の一般式3で計算され得る。
【0050】
[一般式3]
【数12】
【0051】
前記一般式3で、Gはイメージ生成関数であり、Dは識別関数であり、yは第2映像の特定s時点のフレームであり、xは第1映像の特定t時点のフレームであり、Yは第2映像のデータである。
【0052】
前記敵対的損失に対する具体的な説明は前記映像合成方法で記述したものと同一であるため、これを省略することにする。
図1
図2
図3