(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024096678
(43)【公開日】2024-07-17
(54)【発明の名称】ビデオ表現学習装置および方法
(51)【国際特許分類】
G06V 10/82 20220101AFI20240709BHJP
G06N 3/091 20230101ALI20240709BHJP
G06N 3/096 20230101ALI20240709BHJP
G06N 3/0464 20230101ALI20240709BHJP
G06T 7/00 20170101ALI20240709BHJP
【FI】
G06V10/82
G06N3/091
G06N3/096
G06N3/0464
G06T7/00 350C
【審査請求】有
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2023220975
(22)【出願日】2023-12-27
(11)【特許番号】
(45)【特許公報発行日】2024-06-06
(31)【優先権主張番号】10-2023-0001241
(32)【優先日】2023-01-04
(33)【優先権主張国・地域又は機関】KR
(71)【出願人】
【識別番号】509344010
【氏名又は名称】チュンアン・ユニヴァーシティ・インダストリー・アカデミック・コーペレーション・ファウンデーション
(74)【代理人】
【識別番号】100107364
【弁理士】
【氏名又は名称】斉藤 達也
(72)【発明者】
【氏名】ジョン ウォン チョイ
(72)【発明者】
【氏名】ソー ヒュン パーク
(72)【発明者】
【氏名】ジョン ス ヨウン
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA02
5L096AA06
5L096CA04
5L096DA02
5L096HA02
5L096HA11
5L096KA04
(57)【要約】 (修正有)
【課題】ビデオ表現学習装置及び方法を提供する。
【解決手段】ビデオ表現学習装置100は、ビデオデータからビデオ特徴を抽出してビデオエンベッディングを生成する学生ネットワーク、ビデオデータから抽出されたイメージ特性を抽出してイメージエンベッディングを生成する第1教師ネットワーク及びビデオデータから抽出されたオーディオ特性を抽出してオーディオエンベッディングを生成する第2教師ネットワークを含む特徴抽出部、第1、第2構成ニューラルネットワークを含む構成エンベッディングネットワーク部、イメージ及びオーディオエンベッディング間の関連関係を推定するために学習されたシャムニューラルネットワークを用いて陽性、陰性サンプルを生成するサンプル生成部及びビデオエンベッディング、第1、第2構成エンベッディング、陽性サンプルおよび陰性サンプルを用いて学生ネットワークを学習させる損失関数を生成する対照学習部を含む。
【選択図】
図1
【特許請求の範囲】
【請求項1】
ビデオデータからビデオ特徴を抽出してビデオエンベッディング(Embedding)を生成する学生ネットワーク(Student Network)、前記ビデオデータから抽出されたイメージデータからイメージ特性を抽出してイメージエンベッディングを生成する第1教師ネットワーク(Teacher Network)および前記ビデオデータから抽出されたオーディオデータからオーディオ特性を抽出してオーディオエンベッディングを生成する第2教師ネットワークを含む特徴抽出部と、
前記ビデオエンベッディングおよび前記イメージエンベッディングに基づく第1構成エンベッディング(Compositional Embedding)を生成する第1構成ニューラルネットワークおよび前記ビデオエンベッディングおよび前記オーディオエンベッディングに基づく第2構成エンベッディングを生成する第2構成ニューラルネットワークを含む構成エンベッディングネットワーク部と、
前記イメージエンベッディングおよび前記オーディオエンベッディング間の関連関係を推定するために学習されたシャムニューラルネットワーク(Siamese Neural Network)を用いて前記イメージエンベッディングおよび前記オーディオエンベッディングに基づいて陽性サンプル(Positive Samples)および陰性サンプル(Negative Samples)を生成するサンプル生成部と、
前記ビデオエンベッディング、前記第1構成エンベッディング、前記第2構成エンベッディング、前記陽性サンプルおよび陰性サンプルを用いて前記学生ネットワークを学習させるための1つ以上の損失関数を生成する対照学習部と、を含むビデオ表現学習装置。
【請求項2】
前記学生ネットワークは、空間(Spatial)情報を抽出するための2次元畳み込みニューラルネットワーク(2D-CNN)と時間(Temporal)情報を抽出するための1次元畳み込みニューラルネットワーク(1D-CNN)が結合された3次元畳み込みニューラルネットワーク(3D-CNN)で構成される請求項1に記載のビデオ表現学習装置。
【請求項3】
前記第1教師ネットワークは、2次元畳み込みニューラルネットワーク(2D-CNN)モデルで構成され、前記イメージデータから空間視覚(Spatial Visual)情報を抽出してイメージエンベッディングを生成し、
前記第2教師ネットワークは、1次元畳み込みニューラルネットワーク(1D-CNN)モデルで構成され、前記オーディオデータから時間音響(Temporal Acoustic)情報を抽出してオーディオエンベッディングを生成する請求項1に記載のビデオ表現学習装置。
【請求項4】
前記第1構成エンベッディングは、前記イメージエンベッディングと前記ビデオエンベッディングをそれぞれ正規化(Normalization)後に連結(Concatenation)したイメージ残余(Residual)エンベッディングに前記イメージエンベッディングを合わせて計算され、
前記第2構成エンベッディングは、前記オーディオエンベッディングと前記ビデオエンベッディングをそれぞれ正規化(Normalization)後に連結(Concatenation)したオーディオ残余(Residual)エンベッディングに前記オーディオエンベッディングを合わせて計算される請求項1に記載のビデオ表現学習装置。
【請求項5】
前記シャムニューラルネットワークは、関連関係による距離が一定距離以下のイメージエンベッディングおよびオーディオエンベッディングを連結(Concatenation)して陽性サンプルとして生成し、関連関係による距離が一定距離を超過するイメージエンベッディングおよびオーディオエンベッディングを連結して陰性サンプルとして生成する請求項1に記載のビデオ表現学習装置。
【請求項6】
前記シャムニューラルネットワークは、イメージエンベッディングおよびオーディオエンベッディングのうち、エンベッディング距離が第1距離以下のイメージエンベッディングおよびオーディオエンベッディングを連結して構成された陽性学習サンプルと、第2距離以上のイメージエンベッディングおよびオーディオエンベッディングを連結して構成された陰性学習サンプルで1次学習され、
学習次数が増加するほど、第1距離を減少させ、第2距離を増加させる請求項5に記載のビデオ表現学習装置。
【請求項7】
前記対照学習部は、前記ビデオエンベッディングおよび前記陽性サンプルのコサイン類似度および前記ビデオエンベッディングおよび前記陰性サンプルのコサイン類似度に基づく損失関数を生成する請求項1に記載のビデオ表現学習装置。
【請求項8】
1つ以上のプロセッサ、および前記1つ以上のプロセッサによって実行される1つ以上のプログラムを格納するメモリを備えるコンピューティング装置で実行される方法であって、
学生ネットワーク(Student Network)を用いてビデオデータからビデオ特徴を抽出してビデオエンベッディング(Embedding)を生成するステップと、
第1教師ネットワーク(Teacher Network)を用いて前記ビデオデータから抽出されたイメージデータからイメージ特性を抽出してイメージエンベッディングを生成するステップと、
第2教師ネットワークを用いて前記ビデオデータから抽出されたオーディオデータからオーディオ特性を抽出してオーディオエンベッディングを生成するステップと、
前記ビデオエンベッディングおよび前記イメージエンベッディングに基づく第1構成エンベッディング(Compositional Embedding)を生成し、前記ビデオエンベッディングおよび前記オーディオエンベッディングに基づく第2構成エンベッディングを生成するステップと、
前記イメージエンベッディングおよび前記オーディオエンベッディング間の関連関係を推定するために学習されたシャムニューラルネットワーク(Siamese Neural Network)を用いて前記イメージエンベッディングおよび前記オーディオエンベッディングに基づいて陽性サンプル(Positive Samples)および陰性サンプル(Negative Samples)を生成するステップと、
前記ビデオエンベッディング、前記第1構成エンベッディング、前記第2構成エンベッディング、前記陽性サンプルおよび前記陰性サンプルを用いて前記学生ネットワークを学習させるための1つ以上の損失関数を生成するステップと、を含む方法。
【請求項9】
非一時的コンピューター読み取り可能な格納媒体(Non-Transitory Computer Readable Storage Medium)に格納されたコンピュータープログラムであって、
前記コンピュータープログラムは、1つ以上の命令を含み、前記命令は、1つ以上のプロセッサを有するコンピューティング装置によって実行されるとき、前記コンピューティング装置をして、
学生ネットワーク(Student Network)を用いてビデオデータからビデオ特徴を抽出してビデオエンベッディング(Embedding)を生成するステップと、
第1教師ネットワーク(Teacher Network)を用いて前記ビデオデータから抽出されたイメージデータからイメージ特性を抽出してイメージエンベッディングを生成するステップと、
第2教師ネットワークを用いて前記ビデオデータから抽出されたオーディオデータからオーディオ特性を抽出してオーディオエンベッディングを生成するステップと、
前記ビデオエンベッディングおよび前記イメージエンベッディングに基づく第1構成エンベッディング(Compositional Embedding)を生成し、前記ビデオエンベッディングおよび前記オーディオエンベッディングに基づく第2構成エンベッディングを生成するステップと、
前記イメージエンベッディングおよび前記オーディオエンベッディング間の関連関係を推定するために学習されたシャムニューラルネットワーク(Siamese Neural Network)を用いて前記イメージエンベッディングおよび前記オーディオエンベッディングに基づいて陽性サンプル(Positive Samples)および陰性サンプル(Negative Samples)を生成するステップと、
前記ビデオエンベッディング、前記第1構成エンベッディング、前記第2構成エンベッディング、前記陽性サンプルおよび前記陰性サンプルを用いて前記学生ネットワークを学習させるための1つ以上の損失関数を生成するステップと、を実行させるコンピュータープログラム。
【発明の詳細な説明】
【技術分野】
【0001】
映像および音声の相互依存情報ベースのマルチモーダル蒸留および対照学習を行うビデオ表現学習装置および方法に関する。
【背景技術】
【0002】
従来のビデオ検索技術は、選択的に提供されるテキストデータまたはオーディオデータに依存することが多く、ネットワーク学習のためのビデオデータの数とコストがかかるという問題があった。
【0003】
韓国公開特許第10-2015-0091053号は、ユーザが検索されるビデオに関連するテキストクエリを入力し、入力されたテキストクエリに基づいてテキストベースのイメージ検索を行う特徴を公開している。しかし、これらのテキストベースの方法は、入力されたコメントの質が通常良くないし、ほとんどのコメントは、ビデオの簡単な一部のみの説明を提供する問題がある。
【先行技術文献】
【特許文献】
【0004】
(特許文献1)公開特許第10-2015-0091053号(2015.08.07)
【発明の概要】
【発明が解決しようとする課題】
【0005】
映像および音声の相互依存情報ベースのマルチモーダル蒸留および対照学習を行うビデオ表現学習装置および方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
一態様によると、ビデオ表現学習装置は、ビデオデータからビデオ特徴を抽出してビデオエンベッディング(Embedding)を生成する学生ネットワーク(Student Network)、ビデオデータから抽出されたイメージデータからイメージ特性を抽出してイメージエンベッディングを生成する第1教師ネットワーク(Teacher Network)およびビデオデータから抽出されたオーディオデータからオーディオ特性を抽出してオーディオエンベッディングを生成する第2教師ネットワークを含む特徴抽出部と、ビデオエンベッディングおよびイメージエンベッディングに基づく第1構成エンベッディング(Compositional Embedding)を生成する第1構成ニューラルネットワークおよびビデオエンベッディングおよびオーディオエンベッディングに基づく第2構成エンベッディングを生成する第2構成ニューラルネットワークを含む構成エンベッディングネットワーク部と、イメージエンベッディングおよびオーディオエンベッディング間の関連関係を推定するために学習されたシャムニューラルネットワーク(Siamese Neural Network)を用いてイメージエンベッディングおよびオーディオエンベッディングに基づいて陽性サンプル(Positive Samples)および陰性サンプル(Negative Samples)を生成するサンプル生成部と、ビデオエンベッディング、第1構成エンベッディング、第2構成エンベッディング、陽性サンプルおよび陰性サンプルを用いて学生ネットワークを学習させるための1つ以上の損失関数を生成する対照学習部と、を含み得る。
【0007】
学生ネットワークは、空間(Spatial)情報を抽出するための2次元畳み込みニューラルネットワーク(2D-CNN)と時間(Temporal)情報を抽出するための1次元畳み込みニューラルネットワーク(1D-CNN)が結合された3次元畳み込みニューラルネットワーク(3D-CNN)で構成され得る。
【0008】
第1教師ネットワークは、2次元畳み込みニューラルネットワーク(2D-CNN)モデルで構成され、イメージデータから空間視覚情報を抽出してイメージエンベッディングを生成し、第2教師ネットワークは、1次元畳み込みニューラルネットワーク(1D-CNN)モデルで構成され、オーディオデータから時間音響(Temporal Acoustic)情報を抽出してオーディオエンベッディングを生成し得る。
【0009】
第1構成エンベッディングは、イメージエンベッディングとビデオエンベッディングをそれぞれ正規化(Normalization)後に連結(Concatenation)したイメージ残余(Residual)エンベッディングにイメージエンベッディングを合わせて計算され、第2構成エンベッディングは、オーディオエンベッディングとビデオエンベッディングをそれぞれ正規化(Normalization)後に連結(Concatenation)したオーディオ残余(Residual)エンベッディングにオーディオエンベッディングを合わせて計算できる。
【0010】
シャムニューラルネットワークは、同じフレームのビデオデータから出たイメージエンベッディングとオーディオエンベッディングは、互いに近くなり、残りは互いに遠くなるように学習され、入力されたイメージエンベッディングおよびオーディオエンベッディングのうち、関連関係が高いイメージエンベッディングとオーディオエンベッディングは、互いに近くなり、関連関係が低いイメージエンベッディングとオーディオエンベッディングは、互いに遠くなるように構成され得る。
【0011】
シャムニューラルネットワークは、イメージエンベッディングおよびオーディオエンベッディングのうち、エンベッディング距離が第1距離以下のイメージエンベッディングおよびオーディオエンベッディングを連結して構成された陽性学習サンプルと、第2距離以上のイメージエンベッディングおよびオーディオエンベッディングを連結して構成された陰性学習サンプルで1次学習され、学習次数が増加するほど、第1距離を減少させ、第2距離を増加させることができる。
【0012】
サンプル生成部は、関連関係が高くて互いに近づくように生成されたイメージエンベッディングおよびオーディオエンベッディングを連結(Concatenation)して陽性サンプルとして生成し、関連関係が低くて互いに遠くなるように生成されたイメージエンベッディングおよびオーディオエンベッディングを連結して陰性サンプルとして生成し得る。
【0013】
対照学習部は、ビデオエンベッディングおよび陽性サンプルのコサイン類似度およびビデオエンベッディングおよび陰性サンプルのコサイン類似度に基づく損失関数を生成し得る。
【0014】
一態様によると、1つ以上のプロセッサ、および1つ以上のプロセッサによって実行される1つ以上のプログラムを格納するメモリを備えるコンピューティング装置で実行される方法は、学生ネットワーク(Student Network)を用いてビデオデータからビデオ特徴を抽出してビデオエンベッディング(Embedding)を生成するステップと、第1教師ネットワーク(Teacher Network)を用いてビデオデータから抽出されたイメージデータからイメージ特性を抽出してイメージエンベッディングを生成するステップと、第2教師ネットワークを用いてビデオデータから抽出されたオーディオデータからオーディオ特性を抽出してオーディオエンベッディングを生成するステップと、ビデオエンベッディングおよびイメージエンベッディングに基づく第1構成エンベッディング(Compositional Embedding)を生成し、ビデオエンベッディングおよびオーディオエンベッディングに基づく第2構成エンベッディングを生成するステップと、イメージエンベッディングおよびオーディオエンベッディング間の関連関係を推定するために学習されたシャムニューラルネットワーク(Siamese Neural Network)を用いてイメージエンベッディングおよびオーディオエンベッディングに基づいて陽性サンプル(Positive Samples)および陰性サンプル(Negative Samples)を生成するステップと、ビデオエンベッディング、第1構成エンベッディング、第2構成エンベッディング、陽性サンプルおよび陰性サンプルを用いて学生ネットワークを学習させるための1つ以上の損失関数を生成するステップと、を含み得る。
【0015】
一態様によると、非一時的コンピューター読み取り可能な格納媒体(Non-Transitory Computer Readable Storage Medium)に格納されたコンピュータープログラムは、1つ以上の命令を含み、命令は、1つ以上のプロセッサを有するコンピューティング装置によって実行されるとき、コンピューティング装置が、学生ネットワークを用いてビデオデータからビデオ特徴を抽出してビデオエンベッディング(Embedding)を生成するステップと、第1教師ネットワークを用いてビデオデータから抽出されたイメージデータからイメージ特性を抽出してイメージエンベッディングを生成するステップと、第2教師ネットワークを用いてビデオデータから抽出されたオーディオデータからオーディオ特性を抽出してオーディオエンベッディングを生成するステップと、ビデオエンベッディングおよびイメージエンベッディングに基づく第1構成エンベッディング(Compositional Embedding)を生成し、ビデオエンベッディングおよびオーディオエンベッディングに基づく第2構成エンベッディングを生成するステップと、 イメージエンベッディングおよびオーディオエンベッディング間の関連関係を推定するために学習されたシャムニューラルネットワーク(Siamese Neural Network)を用いてイメージエンベッディングおよびオーディオエンベッディングに基づいて陽性サンプル(Positive Samples)および陰性サンプル(Negative Samples)を生成するステップと、ビデオエンベッディング、第1構成エンベッディング、第2構成エンベッディング、陽性サンプルおよび陰性サンプルを用いて学生ネットワークを学習させるための1つ以上の損失関数を生成するステップと、を実行させることができる。
【発明の効果】
【0016】
映像および音声の相互依存情報ベースのマルチモーダル蒸留および対照学習を行うビデオ表現学習装置を提供する。
【図面の簡単な説明】
【0017】
【
図1】一実施形態によるビデオ表現学習装置の構成図である。
【
図2】一実施形態によるビデオ表現学習装置の構成を説明するための例示図である。
【
図3】一実施形態によるビデオ表現学習方法を示すフローチャートである。
【
図4】例示的な実施形態で使用するのに適したコンピューティング装置を含むコンピューティング環境を例示して説明するためのブロック図である。
【発明を実施するための形態】
【0018】
以下、図面を参照して本発明の具体的な実施形態を説明する。以下の詳細な説明は、本明細書で記述された方法、装置および/またはシステムについての包括的な理解を助けるために提供される。しかし、これは例示に過ぎず、本発明はこれに限定されない。
【0019】
本発明の実施形態を説明するにおいて、本発明と係る公知技術についての具体的な説明が本発明の要旨を不必要に曖昧にし得ると判断される場合には、その詳細な説明を省略する。そして、後述される用語は、本発明での機能を考慮して定義された用語として、これは使用者、運用者の意図または慣例などによって変わることができる。したがって、その定義は、本明細書の全般にわたる内容に基づいてなされるべきである。詳細な説明で使用される用語は、単に本発明の実施形態を記述するためのものであり、決して限定的であってはならない。明確に別の方法で使用されていない限り、単数形態の表現は、複数形態の意味を含む。本説明において、「含み」または「備え」のような表現は、ある特性、数字、ステップ、動作、要素、これらの一部または組み合わせを示すためのものであり、記述されたもの以外に、1つまたはそれ以上の他の特性、数字、ステップ、動作、要素、これらの一部または組み合わせの存在または可能性を排除するように解釈されてはならない。
【0020】
また、第1、第2などの用語は、様々な構成要素を説明するために使用できるが、構成要素は、用語によって限定されるべきではない。用語は、ある構成要素を他の構成要素から区別する目的で使用できる。例えば、本発明の権利の範囲から逸脱することなく、第1構成要素を第2構成要素と命名することができ、同様に第2構成要素も第1構成要素と命名することができる。
【0021】
図1は、一実施形態によるビデオ表現学習装置の構成図である。
【0022】
一実施形態によると、ビデオ表現学習(Video Representation Learning)装置100は、特徴抽出部110、構成エンベッディングネットワーク部120、サンプル生成部130、および対照学習部140を含み得る。
【0023】
一実施形態によると、特徴抽出部110は、ビデオデータからビデオ特徴を抽出してビデオエンベッディング(Embedding)を生成する学生ネットワーク(Student Network)と、ビデオデータから抽出されたイメージデータからイメージ特性を抽出してイメージエンベッディングを生成する第1教師ネットワーク(Teacher Network)と、ビデオデータから抽出されたオーディオデータからオーディオ特性を抽出してオーディオエンベッディングを生成する第2教師ネットワークと、を含み得る。
【0024】
一例として、2つの教師ネットワークモデル(Visual、Audio)は、既に学習が完了した状態であり、別の追加の学習を行わない。すなわち、2つの教師ネットワークは、事前学習モデルとして有意味なイメージ、オーディオ特徴情報を抽出するために使用できる。
一方、学生ネットワークは、教師ネットワークを介して取得されたデータに基づいて、対照学習および知識蒸留によって学習が進行できる。
【0025】
一実施形態によると、学生ネットワークは、空間(Spatial)情報を抽出するための2次元畳み込みニューラルネットワーク(2D-CNN)と時間(Temporal)情報を抽出するための1次元畳み込みニューラルネットワーク(1D-CNN)とを組み合わせた3次元畳み込みニューラルネットワーク(3D-CNN)で構成され得る。例えば、学生ネットワークは、2D空間畳み込みと1D時間畳み込みを交互に時空間的ビジュアルコンテンツをエンコードする(2+1)D畳み込みを有する残余ブロック(Residual Blocks)を含み得る。ここで、学生ネットワークは、イメージおよびオーディオ特徴を抽出する2つの教師ネットワークと比較して相対的に少ないパラメータを有するネットワークであり得る。
図2を参照すると、学生ネットワークは、ビデオエンベッディング(x
V)を生成して構成エンベッディングネットワーク部120、サンプル生成部130、および対照学習部140に伝達し得る。
【0026】
一実施形態によると、第1教師ネットワークは、2次元畳み込みニューラルネットワーク(2D-CNN)モデルで構成され、イメージデータから空間視覚(Spatial Visual)情報を抽出してイメージエンベッディングを生成し得る。
図2を参照すると、第1教師ネットワークは、イメージエンベッディング(x
i)を生成して構成エンベッディングネットワーク部120およびサンプル生成部130に伝達し得る。
【0027】
一例として、第1教師ネットワークは、イメージネット(ImageNet)データセットで事前学習されたモデルであり得、イメージ特徴を抽出することができる。第1教師ネットワークは、2D-CNNベースのモデルで空間視覚情報を抽出することができる。例えば、各ビデオクリップは、イメージフレームセットを含むため、第1教師ネットワークは、一度に1つのイメージフレームのみをランダムに選択して空間視覚コンテンツを表すことができる。ビデオからイメージフレームを取り出し、大きなデータセットで学習された第1教師ネットワークを使用してイメージの主な情報を抽出することによって、学生ネットワークは、学習ステップで小さなパラメータモデルでイメージの重要な情報を含むイメージエンベッディングを生成し得る。
【0028】
一実施形態によると、第2教師ネットワークは、1次元畳み込みニューラルネットワーク(1D-CNN)モデルで構成され、オーディオデータから時間音響(Temporal Acoustic)情報を抽出してオーディオエンベッディングを生成し得る。
図2を参照すると、第2教師ネットワークは、オーディオエンベッディングx
aを生成して構成エンベッディングネットワーク部120およびサンプル生成部130に伝達し得る。
【0029】
一例として、ビデオのイメージとオーディオコンテンツは、意味論的に関連がないこともあるが、オーディオ知識は、豊富な情報を提供する時間的(Temporal)情報を含む。例えば、ビデオのオーディオレコーディングが与えられると、ログメルスペクトログラム(Log Mel Spectrogram)が抽出され、第2教師ネットワークを介してオーディオエンベッディングが得られる。1D-CNNで構成された第2教師ネットワークは、時間音響(Temporal Acoustic)情報をキャプチャーするためにオーディオセット(AudioSet)データセットで事前学習されたネットワークである。
【0030】
図2を参照すると、構成エンベッディングネットワーク部120は、ビデオエンベッディングおよびイメージエンベッディングに基づく第1構成エンベッディング(Compositional Embedding)(x
iv)を生成する第1構成ニューラルネットワークおよびビデオエンベッディングおよびオーディオエンベッディングに基づく第2構成エンベッディング(x
av)を生成する第2構成ニューラルネットワークを含み得る。
【0031】
一例として、構成エンベッディングネットワーク部120は、マルチモーダル蒸留(Multi-Modal Distillation)を対照学習に適用するために教師ネットワークと学生ネットワーク間の意味的格差とドメイン格差を減らす必要があり、このために簡単な多層パーセプトロン(Multi-Layer Perceptron、MLP)ネットワークを介して構成エンベッディング(Compositional Embedding)で対照学習のためのxiv(Video+Image)およびxav(Video+Audio)を生成する。
【0032】
一実施形態によると、第1構成エンベッディングは、イメージエンベッディングとビデオエンベッディングをそれぞれ正規化(Normalization)後に連結(Concatenation)したイメージ残余(Residual)エンベッディングにイメージエンベッディングを合わせて計算され、第2構成エンベッディングは、オーディオエンベッディングとビデオエンベッディングをそれぞれ正規化後に連結したオーディオ残余(Residual)エンベッディングにオーディオエンベッディングを合わせて計算できる。
【0033】
一例として、2つの構成ニューラルネットワークは、対照学習とマルチモーダル知識蒸留のために教師ネットワークと学生ネットワーク間の意味的格差とドメイン格差を解消するためのネットワークである。例えば、ビデオデータを分析すると、ビデオとイメージ、ビデオとオーディオ間の関連があるビデオもあるが、そうでないビデオも存在する。これらの問題を解決するために、下記の式のように構成関数(Composition Function)であるF()を定義することができる。
【0034】
【0035】
ここで、構成関数は、正規化(Normalization)と連結(Concatenation)で2つのエンベッディングを合わせた残余(Residual)fθavを加える方式で線形投影(Linear Projection)で構成されている。この関数は、ラベル情報を活用した交差エントロピー(Cross-Entropy)ベースの分類損失(Classification Loss)学習によって最適化できる。
【0036】
一実施形態によると、サンプル生成部130は、イメージエンベッディングおよびオーディオエンベッディング間の関連関係を推定するために学習されたシャムニューラルネットワーク(Siamese Neural Network)を用いてイメージエンベッディングおよびオーディオエンベッディングに基づいて陽性サンプル(Positive Samples)および陰性サンプル(Negative Samples)を生成し得る。
図2を参照すると、生成された陽性および陰性サンプル(x
ia)は、対照学習部140に伝達され得る。
【0037】
一例として、サンプル生成部130は、事前学習モデルから抽出したイメージおよびオーディオ特徴(Feature)情報の入力を受けることができる。例えば、サンプル生成部130は、MLPベースのシャムニューラルネットワーク(Siamese Neural Networks)で構成され得る。サンプル生成部130は、クラスラベル(Class Label)情報を活用して同じクラスビデオから出たイメージおよびオーディオは陽性(Positive)、残りは陰性(Negative)と定義したトリプレット損失(Triplet Loss)を用いて学習できる。これにより、サンプル生成部130は、特徴エンベッディング(Feature Embedding)距離に基づいてイメージ-オーディオ相互情報関係に基づいて対照学習のための陽性サンプルおよび陰性サンプルを追加的に生成し得る。
【0038】
一実施形態によると、シャムニューラルネットワークは、同じフレームのビデオデータから出たイメージエンベッディングとオーディオエンベッディングは、互いに近くなり、残りは、互いに遠くなるように学習され、入力されたイメージエンベッディングおよびオーディオエンベッディングのうち、関連関係が高いイメージエンベッディングとオーディオエンベッディングは、互いに近くなり、関連関係が低いイメージエンベッディングとオーディオエンベッディングは、互いに遠くなるように構成され得る。
【0039】
一般に、対照学習は、陽性サンプルと陰性サンプルの品質が良く、データ数が多いほど性能が良く現れる傾向がある。ほとんどの従来の対照学習方法は、これを膨大に多くのビデオデータを学習するか、またはメモリバンク(Memory Bank)方式で解決する。この場合、学習データのサイズが大きくなり、モデルが複雑になるため、コストと効率の面で短所がある。
【0040】
従来方式の場合、陰性サンプルからランダムにサンプルを抽出して使用して陰性と判断したサンプルが実際には似ている場合があり、学習を通じて性能が低下する問題も発生する可能性がある。さらに、陰性サンプルと比較して陽性サンプルは、相対的にサンプル数が少ない傾向があり、これは対照学習の性能に大きな影響を与える。一方、サンプル生成部130は、ニューラルネットワークを介してビデオを効果的に表すことができる新しい陽性サンプルと陰性サンプルを生成し得る。
【0041】
一例によると、サンプル生成部130は、2つの教師ネットワークから生成されたエンベッディングベクトルの入力を受けることができる。イメージエンベッディングとオーディオエンベッディングは、異なる分布を有しており、これをすぐに活用すれば性能に良くない影響を与える。サンプル生成部130は、この問題を解決するためにMLPモデルベースのシャムニューラルネットワークを含み得る。
【0042】
一例として、シャムニューラルネットワークは、データのクラスラベル情報を活用して同じビデオから出たイメージエンベッディングとオーディオエンベッディングは互いに近くなり、残りは遠くなるように学習される。このためのトリプレット損失は、以下の式のように表すことができる。
【0043】
【0044】
ここで、
【数3】
と
【数4】
は、エンベッディング空間上に近づくように学習され、
【数5】
と
【数6】
は、遠くなるように学習できる。ここで、aは陰性サンプルの距離をより遠くに送るためのハイパーパラメータである。
【0045】
一実施形態によると、サンプル生成部130は、関連関係が高くて互いに近づくように生成されたイメージエンベッディングおよびオーディオエンベッディングを連結(Concatenation)して陽性サンプルとして生成し、関連関係が低くて互いに遠くなるように生成されたイメージエンベッディングおよびオーディオエンベッディングを連結して陰性サンプルとして生成し得る。例えば、サンプル生成部130は、シャムニューラルネットワークを介して得られた新しい特徴を用いて少ないビデオデータでイメージとオーディオとの関連関係が高い追加の陽性サンプルを生成し、別の増強(Augmentation)なしにより多くの陰性サンプルを生成し得る。
【0046】
一実施形態によると、シャムニューラルネットワークは、イメージエンベッディングおよびオーディオエンベッディングのうち、エンベッディング距離の第1距離以下であるイメージエンベッディングおよびオーディオエンベッディングを連結して構成された陽性学習サンプルと、第2距離以上であるイメージエンベッディングおよびオーディオエンベッディングを連結して構成された陰性学習サンプルで1次学習され、学習次数が増加するほど第1距離を減少させ、第2距離を増加させることができる。
【0047】
一例によると、サンプル生成部130は、陽性サンプルおよび陰性サンプルをカリキュラム学習方式で生成し得る。例えば、サンプル生成部130は、イメージエンベッディングおよびオーディオエンベッディング距離に応じて最も近いK個を陽性サンプルとしてサンプリングし、残りは陰性サンプルとしてサンプリングすることができる。その後、サンプル生成部130は、一次的にオーディオおよびイメージ相互依存情報の差が大きい陰性サンプルおよび小さな陽性サンプルを生成し得る。一般に、対照学習時の初期学習に相互依存情報の差が大きい簡単な(Easy)陰性サンプルのみを使用してネットワークを初期最適化し、その後、相互依存情報の差が小さい難しい(Hard)陰性サンプルを適用すれば、ビデオ検索のようなダウンストリームタスク(Downstream Task)で性能を向上させることができる。
【0048】
このために、サンプル生成部130は、簡単なサンプルを用いて学習し、その後、次第に難しいサンプルを用いて学習させるカリキュラム学習方式過程を適用してシャムニューラルネットワークを学習させることができる。
【0049】
例えば、シャムニューラルネットワークは、トリプレット損失を用いて学習しながら、イメージとオーディオとの間の陽性サンプルはますます近くなり、陰性サンプルは遠くなるため、漸進的に高難易度の陽性サンプルおよび陰性サンプルを生成する。このように新しく作成されたサンプルは、対照学習に使用できる。
【0050】
一実施形態によると、対照学習部140は、ビデオエンベッディング、第1構成エンベッディング、第2構成エンベッディング、陽性サンプルおよび陰性サンプルを用いて学生ネットワークを学習させるための1つ以上の損失関数を生成し得る。
【0051】
一実施形態によるビデオ表現学習装置の最終目標は、ビデオ検索のための学生ニューラルネットワークを学習することである。このために、マルチモーダル共有潜在空間(Multi-Modal Shared Latent Space)で定義した空間で、先に定義したエンベッディング情報を活用して学生ネットワークを学習することができる。
【0052】
例えば、構成エンベッディングネットワーク部120で得られたエンベッディングベクトルと2つの教師ネットワークの知識蒸留のために得られたベクトルとのマルチクラスNCE損失、サンプル生成部130を介して新たに得られた陽性サンプルおよび陰性サンプルを適用した対照学習損失であるマルチインスタンス(Multi-Instance)InfoNCE損失、新たに得られたサンプルと学生ネットワーク間の特徴分布を減らすJSD損失など、その損失を用いて対照学習および知識蒸留を行い得る。
【0053】
一実施形態によると、対照学習部140は、ビデオエンベッディングおよび陽性サンプルのコサイン類似度と、ビデオエンベッディングおよび陰性サンプルのコサイン類似度に基づく損失関数を生成し得る。
【0054】
一例として、対照学習部140は、特徴抽出部110で生成されたサンプルと、サンプル生成部130で生成された新しい陽性サンプルおよび陰性サンプルを用いて対照学習を行い得る。例えば、従来のビデオの順序を用いて学生ネットワークから出た特徴に該当する新しい陽性サンプルおよび陰性サンプルを構成した後、学生ネットワークが以前の方法である同じクラス(ラベル)で定義された陽性サンプルを使用するのではなく、教師ネットワークから抽出された優れた特徴と高いビデオおよびオーディオの相互情報を有する陽性サンプルに近づくように対照学習を行い得る。
【0055】
これは、教師ネットワークの知識蒸留を通じて学生ネットワークの性能を高める効果を示すことができる。例えば、対照学習のための対照損失は、以下の式のように表すことができる。
【0056】
【0057】
ここで、PiとNiは、新しい陽性サンプルおよび陰性サンプルを表し、Φは、コサイン類似度スコア関数(Cosine Similarity Score Function)、τは、テンペラチャ(Temperature)を意味する。
【0058】
一例によると、学生ネットワークは、マルチモーダル蒸留(Multi-modal Distillation)を介して学習できる。例えば、データセットのクラスラベル情報を用いて陽性および陰性を定義し、マルチクラスNCE損失を使用できる。学生ネットワークの特徴が教師ネットワークのイメージおよびオーディオの特徴と陽性では、より高い確率を割り当て、陰性では、より低い確率を割り当てるために対照学習損失であるNCE損失を用い得る。例えば、マルチクラスNCE損失(Multi-Class NCE Loss)は、以下の式のように表すことができる。
【0059】
【0060】
一例によると、特徴抽出部110から出た特徴エンベッディング値とサンプル生成部130で新たに生成されたエンベッディング値は、2つの分布間の意味論的(Semantic)差が存在する可能性がある。
これにより、以下の式のように、2つのデータ分布間の差を減らすJSダイバージェンス(Jensen-Shannon Divergence)を用いて確率分布間の差を減らす損失を適用できる。
【0061】
【0062】
一例によると、学生ネットワークを学習するための最終損失関数は、構成エンベッディングと教師ネットワークから得られたエンベッディングを用いてマルチモーダル蒸留(Multi-Modal Distillation)のためのLdistill、サンプル生成部130から得られた新しい陽性および陰性サンプルを用いたマルチクラスインスタンスNCE損失であるLCS、2つの分布間の差を減らすLJSD、サンプル生成部130に存在するシャムニューラルネットワーク学習のためのLtriplet損失を合わせて以下の式のように定義することができる。
【0063】
【0064】
ここで、Ldistillは、LaとLiを合わせた損失を表し、Ltripletは、式2のトリプレット損失を表し、LJSDは、式5のPavとPivに対するLJSD損失を合わせたものを表す。
【0065】
図3は、一実施形態によるビデオ表現学習方法を示すフローチャートである。
【0066】
一実施形態によると、ビデオ表現学習装置は、学生ネットワークを用いてビデオデータからビデオ特徴を抽出してビデオエンベッディングを生成し310、第1教師ネットワークを用いてビデオデータから抽出されたイメージデータからイメージ特性を抽出してイメージエンベッディングを生成し320、第2教師ネットワークを用いてビデオデータから抽出されたオーディオデータからオーディオ特性を抽出してオーディオエンベッディングを生成し得る330。
【0067】
一例として、2つの教師ネットワークモデル(Visual、Audio)は、既に学習が完了しており、別の追加の学習を行わない。つまり、2つの教師ネットワークは、事前学習モデルとして有意味なイメージ、オーディオ特徴情報を抽出するために使用できる。一方、学生ネットワークは、教師ネットワークを介して取得されたデータに基づいて、対照学習および知識蒸留によって学習が進行できる。
【0068】
一実施形態によると、ビデオ表現学習装置は、ビデオエンベッディングおよびイメージエンベッディングに基づく第1構成エンベッディング(Compositional Embedding)を生成し、ビデオエンベッディングおよびオーディオエンベッディングに基づく第2構成エンベッディングを生成し得る340。
【0069】
一例として、ビデオ表現学習装置は、マルチモーダル蒸留(Multi-Modal Distillation)を対照学習に適用するために、教師ネットワークと学生ネットワーク間の意味的格差とドメイン格差を減らす必要があり、このために簡単な多層パーセプトロン(Multi-Layer Perceptron、MLP)ネットワークを介して構成エンベッディング(Compositional Embedding)で対照学習のためのxiv(Video+Image)およびxav(Video+Audio)を生成し得る。
【0070】
一実施形態によると、ビデオ表現学習装置は、イメージエンベッディングおよびオーディオエンベッディング間の関連関係を推定するために学習されたシャムニューラルネットワーク(Siamese Neural Network)を用いてイメージエンベッディングおよびオーディオエンベッディングに基づいて陽性サンプルおよび陰性サンプルを生成し得る350。
【0071】
一例として、ビデオ表現学習装置は、MLPベースのシャムニューラルネットワーク(Siamese Neural Networks)を含み得る。これを用いてビデオ表現学習装置は、特徴エンベッディング(Feature Embedding)距離に基づいてイメージ-オーディオ相互情報関係に基づいて対照学習のための陽性サンプルおよび陰性サンプルをさらに生成し得る。
【0072】
一実施形態によると、ビデオ表現学習装置は、ビデオエンベッディング、第1構成エンベッディング、第2構成エンベッディング、陽性サンプルおよび陰性サンプルを用いて学生ネットワークを学習させるための1つ以上の損失関数を生成し得る360。
【0073】
図3の実施形態のうち、
図1~
図2を参照して説明と重複する内容は省略する。
【0074】
図4は、例示的な実施形態で使用するのに適したコンピューティング装置を含むコンピューティング環境10を例示して説明するためのブロック図である。図示された実施形態において、各コンポーネントは、以下に記述されたものに加えて、異なる機能および能力を有し得、以下に記載されないものに加えて、追加のコンポーネントを含み得る。
【0075】
図示されたコンピューティング環境10は、コンピューティング装置12を含む。一実施形態において、コンピューティング装置12は、ビデオ表現学習装置であり得る。
【0076】
コンピューティング装置12は、少なくとも1つのプロセッサ14、コンピューター読み取り可能な格納媒体16および通信バス18を含む。プロセッサ14は、コンピューティング装置12をして前述した例示的な実施形態によって動作させることができる。例えば、プロセッサ14は、コンピューター読み取り可能な格納媒体16に格納された1つ以上のプログラムを行い得る。前記1つ以上のプログラムは、1つ以上のコンピューター実行可能な命令語を含み得、前記コンピューター実行可能な命令語は、プロセッサ14によって実行される場合、コンピューティング装置12をして例示的な実施形態による動作を実行させるように構成できる。
【0077】
コンピューター読み取り可能な格納媒体16は、コンピューター実行可能な命令語ないしプログラムコード、プログラムデータおよび/または他の適した形態の情報を格納するように構成される。コンピューター読み取り可能な格納媒体16に格納されたプログラム20は、プロセッサ14によって実行可能な命令語の集合を含む。一実施形態において、コンピューター読み取り可能な格納媒体16は、メモリ(ランダムアクセスメモリのような揮発性メモリ、不揮発性メモリ、またはこれらの適切な組み合わせ)、1つ以上の磁気ディスク格納デバイス、光学ディスク格納デバイス、フラッシュメモリデバイス、その他、コンピューティング装置12によってアクセスされ、望む情報を格納できる他の形態の格納媒体、またはこれらの適した組み合わせであり得る。
【0078】
通信バス18は、プロセッサ14、コンピューター読み取り可能な格納媒体16を含み、コンピューティング装置12の他の様々なコンポーネントを相互接続する。
【0079】
コンピューティング装置12は、また1つ以上の入出力装置24のためのインターフェースを提供する1つ以上の入出力インターフェース22および1つ以上のネットワーク通信インターフェース26を含み得る。入出力インターフェース22およびネットワーク通信インターフェース26は、通信バス18に接続される。入出力装置24は、入出力インターフェース22を介してコンピューティング装置12の他のコンポーネントに接続され得る。例示的な入出力装置24は、ポインティング装置(マウスまたはトラックパッドなど)、キーボード、タッチ入力装置(タッチパッドまたはタッチスクリーンなど)、音声または音入力装置、様々な種類のセンサー装置および/または撮影装置のような入力装置、および/またはディスプレイ装置、プリンター、スピーカーおよび/またはネットワークカードのような出力装置を含み得る。例示的な入出力装置24は、コンピューティング装置12を構成する一コンポーネントとしてコンピューティング装置12の内部に含まれ得、コンピューティング装置12とは区別される別の装置としてコンピューティング装置12と接続され得る。
【0080】
以上、本発明の代表的な実施形態について具体的に説明したが、本発明が属する技術分野における通常の知識を有する者は、前述した実施形態について本発明の範疇から逸脱しない範囲内で様々な変形が可能であることを理解するであろう。したがって、本発明の権利の範囲は、説明された実施形態に限定されて定められてはならず、後述する特許請求の範囲だけでなく、この特許請求の範囲と均等なものなどによって定められるべきである。
【符号の説明】
【0081】
100:ビデオ表現学習装置
110:特徴抽出部
120:構成エンベッディングネットワーク部
130:サンプル生成部
140:対照学習部