特許7496172 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ チュンアン・ユニヴァーシティ・インダストリー・アカデミック・コーペレーション・ファウンデーションの特許一覧

特許7496172ビデオ表現学習装置および方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B1)

(11)【特許番号】

(24)【登録日】2024-05-29

(45)【発行日】2024-06-06

(54)【発明の名称】ビデオ表現学習装置および方法

(51)【国際特許分類】

G06N 3/0895 20230101AFI20240530BHJP

G06N 3/045 20230101ALI20240530BHJP

G06N 3/0464 20230101ALI20240530BHJP

G06N 3/096 20230101ALI20240530BHJP

G06F 18/213 20230101ALI20240530BHJP

G06F 18/25 20230101ALI20240530BHJP

G06V 10/40 20220101ALI20240530BHJP

G06V 10/80 20220101ALI20240530BHJP

G06V 10/82 20220101ALI20240530BHJP

G06F 123/02 20230101ALN20240530BHJP

【ＦＩ】

G06N3/0895

G06N3/045

G06N3/0464

G06N3/096

G06F18/213

G06F18/25

G06V10/40

G06V10/80

G06V10/82

G06F123:02

【請求項の数】 9

(21)【出願番号】P 2023220975

(22)【出願日】2023-12-27

【審査請求日】2023-12-27

(31)【優先権主張番号】10-2023-0001241

(32)【優先日】2023-01-04

(33)【優先権主張国・地域又は機関】KR

【早期審査対象出願】

(73)【特許権者】

【識別番号】509344010

【氏名又は名称】チュンアン・ユニヴァーシティ・インダストリー・アカデミック・コーペレーション・ファウンデーション

(74)【代理人】

【識別番号】100107364

【弁理士】

【氏名又は名称】斉藤達也

(72)【発明者】

【氏名】ジョンウォンチョイ

(72)【発明者】

【氏名】ソーヒュンパーク

(72)【発明者】

【氏名】ジョンスヨウン

【審査官】多賀実

(56)【参考文献】

【文献】中国特許出願公開第１１５１４７６４１（ＣＮ，Ａ）

【文献】Bruno Korbar et al.，"Cooperative Learning of Audio and Video Models from Self-Supervised Synchronization"，arXiv.org [online]，arXiv:1807.00230v2，米国，Cornell University，2018年11月，pp.1-14，[検索日 2024.04.22], インターネット:<URL: https://arxiv.org/abs/1807.00230v2>

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ３／００－９９／００

Ｇ０６Ｆ１６／００－１６／９５８

Ｇ０６Ｆ１８／００－１８／４０

Ｇ０６Ｖ１０／４０－１０／８６

Ｇ０６Ｆ１２３／０２

(57)【特許請求の範囲】

【請求項1】

ビデオデータからビデオ特徴を抽出してビデオエンベッディング（Ｅｍｂｅｄｄｉｎｇ）を生成する学生ネットワーク（ＳｔｕｄｅｎｔＮｅｔｗｏｒｋ）、前記ビデオデータから抽出されたイメージデータからイメージ特性を抽出してイメージエンベッディングを生成する第１教師ネットワーク（ＴｅａｃｈｅｒＮｅｔｗｏｒｋ）および前記ビデオデータから抽出されたオーディオデータからオーディオ特性を抽出してオーディオエンベッディングを生成する第２教師ネットワークを含む特徴抽出部と、
前記ビデオエンベッディングおよび前記イメージエンベッディングに基づく第１構成エンベッディング（ＣｏｍｐｏｓｉｔｉｏｎａｌＥｍｂｅｄｄｉｎｇ）を生成する第１構成ニューラルネットワークおよび前記ビデオエンベッディングおよび前記オーディオエンベッディングに基づく第２構成エンベッディングを生成する第２構成ニューラルネットワークを含む構成エンベッディングネットワーク部と、
前記イメージエンベッディングおよび前記オーディオエンベッディング間の関連関係を推定するために学習されたシャムニューラルネットワーク（ＳｉａｍｅｓｅＮｅｕｒａｌＮｅｔｗｏｒｋ）を用いて前記イメージエンベッディングおよび前記オーディオエンベッディングに基づいて陽性サンプル（ＰｏｓｉｔｉｖｅＳａｍｐｌｅｓ）および陰性サンプル（ＮｅｇａｔｉｖｅＳａｍｐｌｅｓ）を生成するサンプル生成部と、
前記ビデオエンベッディング、前記第１構成エンベッディング、前記第２構成エンベッディング、前記陽性サンプルおよび陰性サンプルを用いて前記学生ネットワークを学習させるための１つ以上の損失関数を生成する対照学習部と、を含むビデオ表現学習装置。

【請求項2】

前記学生ネットワークは、空間（Ｓｐａｔｉａｌ）情報を抽出するための２次元畳み込みニューラルネットワーク（２Ｄ－ＣＮＮ）と時間（Ｔｅｍｐｏｒａｌ）情報を抽出するための１次元畳み込みニューラルネットワーク（１Ｄ－ＣＮＮ）が結合された３次元畳み込みニューラルネットワーク（３Ｄ－ＣＮＮ）で構成される請求項１に記載のビデオ表現学習装置。

【請求項3】

前記第１教師ネットワークは、２次元畳み込みニューラルネットワーク（２Ｄ－ＣＮＮ）モデルで構成され、前記イメージデータから空間視覚（ＳｐａｔｉａｌＶｉｓｕａｌ）情報を抽出してイメージエンベッディングを生成し、
前記第２教師ネットワークは、１次元畳み込みニューラルネットワーク（１Ｄ－ＣＮＮ）モデルで構成され、前記オーディオデータから時間音響（ＴｅｍｐｏｒａｌＡｃｏｕｓｔｉｃ）情報を抽出してオーディオエンベッディングを生成する請求項１に記載のビデオ表現学習装置。

【請求項4】

前記第１構成エンベッディングは、前記イメージエンベッディングと前記ビデオエンベッディングをそれぞれ正規化（Ｎｏｒｍａｌｉｚａｔｉｏｎ）後に連結（Ｃｏｎｃａｔｅｎａｔｉｏｎ）したイメージ残余（Ｒｅｓｉｄｕａｌ）エンベッディングに前記イメージエンベッディングを合わせて計算され、
前記第２構成エンベッディングは、前記オーディオエンベッディングと前記ビデオエンベッディングをそれぞれ正規化（Ｎｏｒｍａｌｉｚａｔｉｏｎ）後に連結（Ｃｏｎｃａｔｅｎａｔｉｏｎ）したオーディオ残余（Ｒｅｓｉｄｕａｌ）エンベッディングに前記オーディオエンベッディングを合わせて計算される請求項１に記載のビデオ表現学習装置。

【請求項5】

前記シャムニューラルネットワークは、関連関係による距離が一定距離以下のイメージエンベッディングおよびオーディオエンベッディングを連結（Ｃｏｎｃａｔｅｎａｔｉｏｎ）して陽性サンプルとして生成し、関連関係による距離が一定距離を超過するイメージエンベッディングおよびオーディオエンベッディングを連結して陰性サンプルとして生成する請求項１に記載のビデオ表現学習装置。

【請求項6】

前記シャムニューラルネットワークは、イメージエンベッディングおよびオーディオエンベッディングのうち、エンベッディング距離が第１距離以下のイメージエンベッディングおよびオーディオエンベッディングを連結して構成された陽性学習サンプルと、第２距離以上のイメージエンベッディングおよびオーディオエンベッディングを連結して構成された陰性学習サンプルで１次学習され、
学習次数が増加するほど、第１距離を減少させ、第２距離を増加させる請求項５に記載のビデオ表現学習装置。

【請求項7】

前記対照学習部は、前記ビデオエンベッディングおよび前記陽性サンプルのコサイン類似度および前記ビデオエンベッディングおよび前記陰性サンプルのコサイン類似度に基づく損失関数を生成する請求項１に記載のビデオ表現学習装置。

【請求項8】

１つ以上のプロセッサ、および前記１つ以上のプロセッサによって実行される１つ以上のプログラムを格納するメモリを備えるコンピューティング装置で実行される方法であって、
学生ネットワーク（ＳｔｕｄｅｎｔＮｅｔｗｏｒｋ）を用いてビデオデータからビデオ特徴を抽出してビデオエンベッディング（Ｅｍｂｅｄｄｉｎｇ）を生成するステップと、
第１教師ネットワーク（ＴｅａｃｈｅｒＮｅｔｗｏｒｋ）を用いて前記ビデオデータから抽出されたイメージデータからイメージ特性を抽出してイメージエンベッディングを生成するステップと、
第２教師ネットワークを用いて前記ビデオデータから抽出されたオーディオデータからオーディオ特性を抽出してオーディオエンベッディングを生成するステップと、
前記ビデオエンベッディングおよび前記イメージエンベッディングに基づく第１構成エンベッディング（ＣｏｍｐｏｓｉｔｉｏｎａｌＥｍｂｅｄｄｉｎｇ）を生成し、前記ビデオエンベッディングおよび前記オーディオエンベッディングに基づく第２構成エンベッディングを生成するステップと、
前記イメージエンベッディングおよび前記オーディオエンベッディング間の関連関係を推定するために学習されたシャムニューラルネットワーク（ＳｉａｍｅｓｅＮｅｕｒａｌＮｅｔｗｏｒｋ）を用いて前記イメージエンベッディングおよび前記オーディオエンベッディングに基づいて陽性サンプル（ＰｏｓｉｔｉｖｅＳａｍｐｌｅｓ）および陰性サンプル（ＮｅｇａｔｉｖｅＳａｍｐｌｅｓ）を生成するステップと、
前記ビデオエンベッディング、前記第１構成エンベッディング、前記第２構成エンベッディング、前記陽性サンプルおよび前記陰性サンプルを用いて前記学生ネットワークを学習させるための１つ以上の損失関数を生成するステップと、を含む方法。

【請求項9】

非一時的コンピューター読み取り可能な格納媒体（Ｎｏｎ－ＴｒａｎｓｉｔｏｒｙＣｏｍｐｕｔｅｒＲｅａｄａｂｌｅＳｔｏｒａｇｅＭｅｄｉｕｍ）に格納されたコンピュータープログラムであって、
前記コンピュータープログラムは、１つ以上の命令を含み、前記命令は、１つ以上のプロセッサを有するコンピューティング装置によって実行されるとき、前記コンピューティング装置をして、
学生ネットワーク（ＳｔｕｄｅｎｔＮｅｔｗｏｒｋ）を用いてビデオデータからビデオ特徴を抽出してビデオエンベッディング（Ｅｍｂｅｄｄｉｎｇ）を生成するステップと、
第１教師ネットワーク（ＴｅａｃｈｅｒＮｅｔｗｏｒｋ）を用いて前記ビデオデータから抽出されたイメージデータからイメージ特性を抽出してイメージエンベッディングを生成するステップと、
第２教師ネットワークを用いて前記ビデオデータから抽出されたオーディオデータからオーディオ特性を抽出してオーディオエンベッディングを生成するステップと、
前記ビデオエンベッディングおよび前記イメージエンベッディングに基づく第１構成エンベッディング（ＣｏｍｐｏｓｉｔｉｏｎａｌＥｍｂｅｄｄｉｎｇ）を生成し、前記ビデオエンベッディングおよび前記オーディオエンベッディングに基づく第２構成エンベッディングを生成するステップと、
前記イメージエンベッディングおよび前記オーディオエンベッディング間の関連関係を推定するために学習されたシャムニューラルネットワーク（ＳｉａｍｅｓｅＮｅｕｒａｌＮｅｔｗｏｒｋ）を用いて前記イメージエンベッディングおよび前記オーディオエンベッディングに基づいて陽性サンプル（ＰｏｓｉｔｉｖｅＳａｍｐｌｅｓ）および陰性サンプル（ＮｅｇａｔｉｖｅＳａｍｐｌｅｓ）を生成するステップと、
前記ビデオエンベッディング、前記第１構成エンベッディング、前記第２構成エンベッディング、前記陽性サンプルおよび前記陰性サンプルを用いて前記学生ネットワークを学習させるための１つ以上の損失関数を生成するステップと、を実行させるコンピュータープログラム。

【発明の詳細な説明】

【技術分野】

【0001】

映像および音声の相互依存情報ベースのマルチモーダル蒸留および対照学習を行うビデオ表現学習装置および方法に関する。

【背景技術】

【0002】

従来のビデオ検索技術は、選択的に提供されるテキストデータまたはオーディオデータに依存することが多く、ネットワーク学習のためのビデオデータの数とコストがかかるという問題があった。

【0003】

韓国公開特許第１０－２０１５－００９１０５３号は、ユーザが検索されるビデオに関連するテキストクエリを入力し、入力されたテキストクエリに基づいてテキストベースのイメージ検索を行う特徴を公開している。しかし、これらのテキストベースの方法は、入力されたコメントの質が通常良くないし、ほとんどのコメントは、ビデオの簡単な一部のみの説明を提供する問題がある。

【先行技術文献】

【特許文献】

【0004】

（特許文献１）公開特許第１０－２０１５－００９１０５３号（２０１５.０８.０７）

【発明の概要】

【発明が解決しようとする課題】

【0005】

映像および音声の相互依存情報ベースのマルチモーダル蒸留および対照学習を行うビデオ表現学習装置および方法を提供することを目的とする。

【課題を解決するための手段】

【0006】

一態様によると、ビデオ表現学習装置は、ビデオデータからビデオ特徴を抽出してビデオエンベッディング（Ｅｍｂｅｄｄｉｎｇ）を生成する学生ネットワーク（ＳｔｕｄｅｎｔＮｅｔｗｏｒｋ）、ビデオデータから抽出されたイメージデータからイメージ特性を抽出してイメージエンベッディングを生成する第１教師ネットワーク（ＴｅａｃｈｅｒＮｅｔｗｏｒｋ）およびビデオデータから抽出されたオーディオデータからオーディオ特性を抽出してオーディオエンベッディングを生成する第２教師ネットワークを含む特徴抽出部と、ビデオエンベッディングおよびイメージエンベッディングに基づく第１構成エンベッディング（ＣｏｍｐｏｓｉｔｉｏｎａｌＥｍｂｅｄｄｉｎｇ）を生成する第１構成ニューラルネットワークおよびビデオエンベッディングおよびオーディオエンベッディングに基づく第２構成エンベッディングを生成する第２構成ニューラルネットワークを含む構成エンベッディングネットワーク部と、イメージエンベッディングおよびオーディオエンベッディング間の関連関係を推定するために学習されたシャムニューラルネットワーク（ＳｉａｍｅｓｅＮｅｕｒａｌＮｅｔｗｏｒｋ）を用いてイメージエンベッディングおよびオーディオエンベッディングに基づいて陽性サンプル（ＰｏｓｉｔｉｖｅＳａｍｐｌｅｓ）および陰性サンプル（ＮｅｇａｔｉｖｅＳａｍｐｌｅｓ）を生成するサンプル生成部と、ビデオエンベッディング、第１構成エンベッディング、第２構成エンベッディング、陽性サンプルおよび陰性サンプルを用いて学生ネットワークを学習させるための１つ以上の損失関数を生成する対照学習部と、を含み得る。

【0007】

学生ネットワークは、空間（Ｓｐａｔｉａｌ）情報を抽出するための２次元畳み込みニューラルネットワーク（２Ｄ－ＣＮＮ）と時間（Ｔｅｍｐｏｒａｌ）情報を抽出するための１次元畳み込みニューラルネットワーク（１Ｄ－ＣＮＮ）が結合された３次元畳み込みニューラルネットワーク（３Ｄ－ＣＮＮ）で構成され得る。

【0008】

第１教師ネットワークは、２次元畳み込みニューラルネットワーク（２Ｄ－ＣＮＮ）モデルで構成され、イメージデータから空間視覚情報を抽出してイメージエンベッディングを生成し、第２教師ネットワークは、１次元畳み込みニューラルネットワーク（１Ｄ－ＣＮＮ）モデルで構成され、オーディオデータから時間音響（ＴｅｍｐｏｒａｌＡｃｏｕｓｔｉｃ）情報を抽出してオーディオエンベッディングを生成し得る。

【0009】

第１構成エンベッディングは、イメージエンベッディングとビデオエンベッディングをそれぞれ正規化（Ｎｏｒｍａｌｉｚａｔｉｏｎ）後に連結（Ｃｏｎｃａｔｅｎａｔｉｏｎ）したイメージ残余（Ｒｅｓｉｄｕａｌ）エンベッディングにイメージエンベッディングを合わせて計算され、第２構成エンベッディングは、オーディオエンベッディングとビデオエンベッディングをそれぞれ正規化（Ｎｏｒｍａｌｉｚａｔｉｏｎ）後に連結（Ｃｏｎｃａｔｅｎａｔｉｏｎ）したオーディオ残余（Ｒｅｓｉｄｕａｌ）エンベッディングにオーディオエンベッディングを合わせて計算できる。

【0010】

シャムニューラルネットワークは、同じフレームのビデオデータから出たイメージエンベッディングとオーディオエンベッディングは、互いに近くなり、残りは互いに遠くなるように学習され、入力されたイメージエンベッディングおよびオーディオエンベッディングのうち、関連関係が高いイメージエンベッディングとオーディオエンベッディングは、互いに近くなり、関連関係が低いイメージエンベッディングとオーディオエンベッディングは、互いに遠くなるように構成され得る。

【0011】

シャムニューラルネットワークは、イメージエンベッディングおよびオーディオエンベッディングのうち、エンベッディング距離が第１距離以下のイメージエンベッディングおよびオーディオエンベッディングを連結して構成された陽性学習サンプルと、第２距離以上のイメージエンベッディングおよびオーディオエンベッディングを連結して構成された陰性学習サンプルで１次学習され、学習次数が増加するほど、第１距離を減少させ、第２距離を増加させることができる。

【0012】

サンプル生成部は、関連関係が高くて互いに近づくように生成されたイメージエンベッディングおよびオーディオエンベッディングを連結（Ｃｏｎｃａｔｅｎａｔｉｏｎ）して陽性サンプルとして生成し、関連関係が低くて互いに遠くなるように生成されたイメージエンベッディングおよびオーディオエンベッディングを連結して陰性サンプルとして生成し得る。

【0013】

対照学習部は、ビデオエンベッディングおよび陽性サンプルのコサイン類似度およびビデオエンベッディングおよび陰性サンプルのコサイン類似度に基づく損失関数を生成し得る。

【0014】

一態様によると、１つ以上のプロセッサ、および１つ以上のプロセッサによって実行される１つ以上のプログラムを格納するメモリを備えるコンピューティング装置で実行される方法は、学生ネットワーク（ＳｔｕｄｅｎｔＮｅｔｗｏｒｋ）を用いてビデオデータからビデオ特徴を抽出してビデオエンベッディング（Ｅｍｂｅｄｄｉｎｇ）を生成するステップと、第１教師ネットワーク（ＴｅａｃｈｅｒＮｅｔｗｏｒｋ）を用いてビデオデータから抽出されたイメージデータからイメージ特性を抽出してイメージエンベッディングを生成するステップと、第２教師ネットワークを用いてビデオデータから抽出されたオーディオデータからオーディオ特性を抽出してオーディオエンベッディングを生成するステップと、ビデオエンベッディングおよびイメージエンベッディングに基づく第１構成エンベッディング（ＣｏｍｐｏｓｉｔｉｏｎａｌＥｍｂｅｄｄｉｎｇ）を生成し、ビデオエンベッディングおよびオーディオエンベッディングに基づく第２構成エンベッディングを生成するステップと、イメージエンベッディングおよびオーディオエンベッディング間の関連関係を推定するために学習されたシャムニューラルネットワーク（ＳｉａｍｅｓｅＮｅｕｒａｌＮｅｔｗｏｒｋ）を用いてイメージエンベッディングおよびオーディオエンベッディングに基づいて陽性サンプル（ＰｏｓｉｔｉｖｅＳａｍｐｌｅｓ）および陰性サンプル（ＮｅｇａｔｉｖｅＳａｍｐｌｅｓ）を生成するステップと、ビデオエンベッディング、第１構成エンベッディング、第２構成エンベッディング、陽性サンプルおよび陰性サンプルを用いて学生ネットワークを学習させるための１つ以上の損失関数を生成するステップと、を含み得る。

【0015】

一態様によると、非一時的コンピューター読み取り可能な格納媒体（Ｎｏｎ－ＴｒａｎｓｉｔｏｒｙＣｏｍｐｕｔｅｒＲｅａｄａｂｌｅＳｔｏｒａｇｅＭｅｄｉｕｍ）に格納されたコンピュータープログラムは、１つ以上の命令を含み、命令は、１つ以上のプロセッサを有するコンピューティング装置によって実行されるとき、コンピューティング装置が、学生ネットワークを用いてビデオデータからビデオ特徴を抽出してビデオエンベッディング（Ｅｍｂｅｄｄｉｎｇ）を生成するステップと、第１教師ネットワークを用いてビデオデータから抽出されたイメージデータからイメージ特性を抽出してイメージエンベッディングを生成するステップと、第２教師ネットワークを用いてビデオデータから抽出されたオーディオデータからオーディオ特性を抽出してオーディオエンベッディングを生成するステップと、ビデオエンベッディングおよびイメージエンベッディングに基づく第１構成エンベッディング（ＣｏｍｐｏｓｉｔｉｏｎａｌＥｍｂｅｄｄｉｎｇ）を生成し、ビデオエンベッディングおよびオーディオエンベッディングに基づく第２構成エンベッディングを生成するステップと、イメージエンベッディングおよびオーディオエンベッディング間の関連関係を推定するために学習されたシャムニューラルネットワーク（ＳｉａｍｅｓｅＮｅｕｒａｌＮｅｔｗｏｒｋ）を用いてイメージエンベッディングおよびオーディオエンベッディングに基づいて陽性サンプル（ＰｏｓｉｔｉｖｅＳａｍｐｌｅｓ）および陰性サンプル（ＮｅｇａｔｉｖｅＳａｍｐｌｅｓ）を生成するステップと、ビデオエンベッディング、第１構成エンベッディング、第２構成エンベッディング、陽性サンプルおよび陰性サンプルを用いて学生ネットワークを学習させるための１つ以上の損失関数を生成するステップと、を実行させることができる。

【発明の効果】

【0016】

映像および音声の相互依存情報ベースのマルチモーダル蒸留および対照学習を行うビデオ表現学習装置を提供する。

【図面の簡単な説明】

【0017】

【図1】一実施形態によるビデオ表現学習装置の構成図である。

【図2】一実施形態によるビデオ表現学習装置の構成を説明するための例示図である。

【図3】一実施形態によるビデオ表現学習方法を示すフローチャートである。

【図4】例示的な実施形態で使用するのに適したコンピューティング装置を含むコンピューティング環境を例示して説明するためのブロック図である。

【発明を実施するための形態】

【0018】

以下、図面を参照して本発明の具体的な実施形態を説明する。以下の詳細な説明は、本明細書で記述された方法、装置および／またはシステムについての包括的な理解を助けるために提供される。しかし、これは例示に過ぎず、本発明はこれに限定されない。

【0019】

本発明の実施形態を説明するにおいて、本発明と係る公知技術についての具体的な説明が本発明の要旨を不必要に曖昧にし得ると判断される場合には、その詳細な説明を省略する。そして、後述される用語は、本発明での機能を考慮して定義された用語として、これは使用者、運用者の意図または慣例などによって変わることができる。したがって、その定義は、本明細書の全般にわたる内容に基づいてなされるべきである。詳細な説明で使用される用語は、単に本発明の実施形態を記述するためのものであり、決して限定的であってはならない。明確に別の方法で使用されていない限り、単数形態の表現は、複数形態の意味を含む。本説明において、「含み」または「備え」のような表現は、ある特性、数字、ステップ、動作、要素、これらの一部または組み合わせを示すためのものであり、記述されたもの以外に、１つまたはそれ以上の他の特性、数字、ステップ、動作、要素、これらの一部または組み合わせの存在または可能性を排除するように解釈されてはならない。

【0020】

また、第１、第２などの用語は、様々な構成要素を説明するために使用できるが、構成要素は、用語によって限定されるべきではない。用語は、ある構成要素を他の構成要素から区別する目的で使用できる。例えば、本発明の権利の範囲から逸脱することなく、第１構成要素を第２構成要素と命名することができ、同様に第２構成要素も第１構成要素と命名することができる。

【0021】

図１は、一実施形態によるビデオ表現学習装置の構成図である。

【0022】

一実施形態によると、ビデオ表現学習（ＶｉｄｅｏＲｅｐｒｅｓｅｎｔａｔｉｏｎＬｅａｒｎｉｎｇ）装置１００は、特徴抽出部１１０、構成エンベッディングネットワーク部１２０、サンプル生成部１３０、および対照学習部１４０を含み得る。

【0023】

一実施形態によると、特徴抽出部１１０は、ビデオデータからビデオ特徴を抽出してビデオエンベッディング（Ｅｍｂｅｄｄｉｎｇ）を生成する学生ネットワーク（ＳｔｕｄｅｎｔＮｅｔｗｏｒｋ）と、ビデオデータから抽出されたイメージデータからイメージ特性を抽出してイメージエンベッディングを生成する第１教師ネットワーク（ＴｅａｃｈｅｒＮｅｔｗｏｒｋ）と、ビデオデータから抽出されたオーディオデータからオーディオ特性を抽出してオーディオエンベッディングを生成する第２教師ネットワークと、を含み得る。

【0024】

一例として、２つの教師ネットワークモデル（Ｖｉｓｕａｌ、Ａｕｄｉｏ）は、既に学習が完了した状態であり、別の追加の学習を行わない。すなわち、２つの教師ネットワークは、事前学習モデルとして有意味なイメージ、オーディオ特徴情報を抽出するために使用できる。
一方、学生ネットワークは、教師ネットワークを介して取得されたデータに基づいて、対照学習および知識蒸留によって学習が進行できる。

【0025】

一実施形態によると、学生ネットワークは、空間（Ｓｐａｔｉａｌ）情報を抽出するための２次元畳み込みニューラルネットワーク（２Ｄ－ＣＮＮ）と時間（Ｔｅｍｐｏｒａｌ）情報を抽出するための１次元畳み込みニューラルネットワーク（１Ｄ－ＣＮＮ）とを組み合わせた３次元畳み込みニューラルネットワーク（３Ｄ－ＣＮＮ）で構成され得る。例えば、学生ネットワークは、２Ｄ空間畳み込みと１Ｄ時間畳み込みを交互に時空間的ビジュアルコンテンツをエンコードする（２＋１）Ｄ畳み込みを有する残余ブロック（ＲｅｓｉｄｕａｌＢｌｏｃｋｓ）を含み得る。ここで、学生ネットワークは、イメージおよびオーディオ特徴を抽出する２つの教師ネットワークと比較して相対的に少ないパラメータを有するネットワークであり得る。図２を参照すると、学生ネットワークは、ビデオエンベッディング（ｘ_Ｖ）を生成して構成エンベッディングネットワーク部１２０、サンプル生成部１３０、および対照学習部１４０に伝達し得る。

【0026】

一実施形態によると、第１教師ネットワークは、２次元畳み込みニューラルネットワーク（２Ｄ－ＣＮＮ）モデルで構成され、イメージデータから空間視覚（ＳｐａｔｉａｌＶｉｓｕａｌ）情報を抽出してイメージエンベッディングを生成し得る。図２を参照すると、第１教師ネットワークは、イメージエンベッディング（ｘ_ｉ）を生成して構成エンベッディングネットワーク部１２０およびサンプル生成部１３０に伝達し得る。

【0027】

一例として、第１教師ネットワークは、イメージネット（ＩｍａｇｅＮｅｔ）データセットで事前学習されたモデルであり得、イメージ特徴を抽出することができる。第１教師ネットワークは、２Ｄ－ＣＮＮベースのモデルで空間視覚情報を抽出することができる。例えば、各ビデオクリップは、イメージフレームセットを含むため、第１教師ネットワークは、一度に１つのイメージフレームのみをランダムに選択して空間視覚コンテンツを表すことができる。ビデオからイメージフレームを取り出し、大きなデータセットで学習された第１教師ネットワークを使用してイメージの主な情報を抽出することによって、学生ネットワークは、学習ステップで小さなパラメータモデルでイメージの重要な情報を含むイメージエンベッディングを生成し得る。

【0028】

一実施形態によると、第２教師ネットワークは、１次元畳み込みニューラルネットワーク（１Ｄ－ＣＮＮ）モデルで構成され、オーディオデータから時間音響（ＴｅｍｐｏｒａｌＡｃｏｕｓｔｉｃ）情報を抽出してオーディオエンベッディングを生成し得る。図２を参照すると、第２教師ネットワークは、オーディオエンベッディングｘ_ａを生成して構成エンベッディングネットワーク部１２０およびサンプル生成部１３０に伝達し得る。

【0029】

一例として、ビデオのイメージとオーディオコンテンツは、意味論的に関連がないこともあるが、オーディオ知識は、豊富な情報を提供する時間的（Ｔｅｍｐｏｒａｌ）情報を含む。例えば、ビデオのオーディオレコーディングが与えられると、ログメルスペクトログラム（ＬｏｇＭｅｌＳｐｅｃｔｒｏｇｒａｍ）が抽出され、第２教師ネットワークを介してオーディオエンベッディングが得られる。１Ｄ－ＣＮＮで構成された第２教師ネットワークは、時間音響（ＴｅｍｐｏｒａｌＡｃｏｕｓｔｉｃ）情報をキャプチャーするためにオーディオセット（ＡｕｄｉｏＳｅｔ）データセットで事前学習されたネットワークである。

【0030】

図２を参照すると、構成エンベッディングネットワーク部１２０は、ビデオエンベッディングおよびイメージエンベッディングに基づく第１構成エンベッディング（ＣｏｍｐｏｓｉｔｉｏｎａｌＥｍｂｅｄｄｉｎｇ）（ｘ_ｉｖ）を生成する第１構成ニューラルネットワークおよびビデオエンベッディングおよびオーディオエンベッディングに基づく第２構成エンベッディング（ｘ_ａｖ）を生成する第２構成ニューラルネットワークを含み得る。

【0031】

一例として、構成エンベッディングネットワーク部１２０は、マルチモーダル蒸留（Ｍｕｌｔｉ－ＭｏｄａｌＤｉｓｔｉｌｌａｔｉｏｎ）を対照学習に適用するために教師ネットワークと学生ネットワーク間の意味的格差とドメイン格差を減らす必要があり、このために簡単な多層パーセプトロン（Ｍｕｌｔｉ－ＬａｙｅｒＰｅｒｃｅｐｔｒｏｎ、ＭＬＰ）ネットワークを介して構成エンベッディング（ＣｏｍｐｏｓｉｔｉｏｎａｌＥｍｂｅｄｄｉｎｇ）で対照学習のためのｘ_ｉｖ（Ｖｉｄｅｏ＋Ｉｍａｇｅ）およびｘ_ａｖ（Ｖｉｄｅｏ＋Ａｕｄｉｏ）を生成する。

【0032】

一実施形態によると、第１構成エンベッディングは、イメージエンベッディングとビデオエンベッディングをそれぞれ正規化（Ｎｏｒｍａｌｉｚａｔｉｏｎ）後に連結（Ｃｏｎｃａｔｅｎａｔｉｏｎ）したイメージ残余（Ｒｅｓｉｄｕａｌ）エンベッディングにイメージエンベッディングを合わせて計算され、第２構成エンベッディングは、オーディオエンベッディングとビデオエンベッディングをそれぞれ正規化後に連結したオーディオ残余（Ｒｅｓｉｄｕａｌ）エンベッディングにオーディオエンベッディングを合わせて計算できる。

【0033】

一例として、２つの構成ニューラルネットワークは、対照学習とマルチモーダル知識蒸留のために教師ネットワークと学生ネットワーク間の意味的格差とドメイン格差を解消するためのネットワークである。例えば、ビデオデータを分析すると、ビデオとイメージ、ビデオとオーディオ間の関連があるビデオもあるが、そうでないビデオも存在する。これらの問題を解決するために、下記の式のように構成関数（ＣｏｍｐｏｓｉｔｉｏｎＦｕｎｃｔｉｏｎ）であるＦ（）を定義することができる。

【0034】

式１

【数1】

【0035】

ここで、構成関数は、正規化（Ｎｏｒｍａｌｉｚａｔｉｏｎ）と連結（Ｃｏｎｃａｔｅｎａｔｉｏｎ）で２つのエンベッディングを合わせた残余（Ｒｅｓｉｄｕａｌ）ｆ_θａvを加える方式で線形投影（ＬｉｎｅａｒＰｒｏｊｅｃｔｉｏｎ）で構成されている。この関数は、ラベル情報を活用した交差エントロピー（Ｃｒｏｓｓ－Ｅｎｔｒｏｐｙ）ベースの分類損失（ＣｌａｓｓｉｆｉｃａｔｉｏｎＬｏｓｓ）学習によって最適化できる。

【0036】

一実施形態によると、サンプル生成部１３０は、イメージエンベッディングおよびオーディオエンベッディング間の関連関係を推定するために学習されたシャムニューラルネットワーク（ＳｉａｍｅｓｅＮｅｕｒａｌＮｅｔｗｏｒｋ）を用いてイメージエンベッディングおよびオーディオエンベッディングに基づいて陽性サンプル（ＰｏｓｉｔｉｖｅＳａｍｐｌｅｓ）および陰性サンプル（ＮｅｇａｔｉｖｅＳａｍｐｌｅｓ）を生成し得る。図２を参照すると、生成された陽性および陰性サンプル（ｘ_ｉａ）は、対照学習部１４０に伝達され得る。

【0037】

一例として、サンプル生成部１３０は、事前学習モデルから抽出したイメージおよびオーディオ特徴（Ｆｅａｔｕｒｅ）情報の入力を受けることができる。例えば、サンプル生成部１３０は、ＭＬＰベースのシャムニューラルネットワーク（ＳｉａｍｅｓｅＮｅｕｒａｌＮｅｔｗｏｒｋｓ）で構成され得る。サンプル生成部１３０は、クラスラベル（ＣｌａｓｓＬａｂｅｌ）情報を活用して同じクラスビデオから出たイメージおよびオーディオは陽性（Ｐｏｓｉｔｉｖｅ）、残りは陰性（Ｎｅｇａｔｉｖｅ）と定義したトリプレット損失（ＴｒｉｐｌｅｔＬｏｓｓ）を用いて学習できる。これにより、サンプル生成部１３０は、特徴エンベッディング（ＦｅａｔｕｒｅＥｍｂｅｄｄｉｎｇ）距離に基づいてイメージ－オーディオ相互情報関係に基づいて対照学習のための陽性サンプルおよび陰性サンプルを追加的に生成し得る。

【0038】

一実施形態によると、シャムニューラルネットワークは、同じフレームのビデオデータから出たイメージエンベッディングとオーディオエンベッディングは、互いに近くなり、残りは、互いに遠くなるように学習され、入力されたイメージエンベッディングおよびオーディオエンベッディングのうち、関連関係が高いイメージエンベッディングとオーディオエンベッディングは、互いに近くなり、関連関係が低いイメージエンベッディングとオーディオエンベッディングは、互いに遠くなるように構成され得る。

【0039】

一般に、対照学習は、陽性サンプルと陰性サンプルの品質が良く、データ数が多いほど性能が良く現れる傾向がある。ほとんどの従来の対照学習方法は、これを膨大に多くのビデオデータを学習するか、またはメモリバンク（ＭｅｍｏｒｙＢａｎｋ）方式で解決する。この場合、学習データのサイズが大きくなり、モデルが複雑になるため、コストと効率の面で短所がある。

【0040】

従来方式の場合、陰性サンプルからランダムにサンプルを抽出して使用して陰性と判断したサンプルが実際には似ている場合があり、学習を通じて性能が低下する問題も発生する可能性がある。さらに、陰性サンプルと比較して陽性サンプルは、相対的にサンプル数が少ない傾向があり、これは対照学習の性能に大きな影響を与える。一方、サンプル生成部１３０は、ニューラルネットワークを介してビデオを効果的に表すことができる新しい陽性サンプルと陰性サンプルを生成し得る。

【0041】

一例によると、サンプル生成部１３０は、２つの教師ネットワークから生成されたエンベッディングベクトルの入力を受けることができる。イメージエンベッディングとオーディオエンベッディングは、異なる分布を有しており、これをすぐに活用すれば性能に良くない影響を与える。サンプル生成部１３０は、この問題を解決するためにＭＬＰモデルベースのシャムニューラルネットワークを含み得る。

【0042】

一例として、シャムニューラルネットワークは、データのクラスラベル情報を活用して同じビデオから出たイメージエンベッディングとオーディオエンベッディングは互いに近くなり、残りは遠くなるように学習される。このためのトリプレット損失は、以下の式のように表すことができる。

【0043】

式２

【数2】

【0044】

ここで、

【数3】

と

【数4】

は、エンベッディング空間上に近づくように学習され、

【数5】

と

【数6】

は、遠くなるように学習できる。ここで、ａは陰性サンプルの距離をより遠くに送るためのハイパーパラメータである。

【0045】

一実施形態によると、サンプル生成部１３０は、関連関係が高くて互いに近づくように生成されたイメージエンベッディングおよびオーディオエンベッディングを連結（Ｃｏｎｃａｔｅｎａｔｉｏｎ）して陽性サンプルとして生成し、関連関係が低くて互いに遠くなるように生成されたイメージエンベッディングおよびオーディオエンベッディングを連結して陰性サンプルとして生成し得る。例えば、サンプル生成部１３０は、シャムニューラルネットワークを介して得られた新しい特徴を用いて少ないビデオデータでイメージとオーディオとの関連関係が高い追加の陽性サンプルを生成し、別の増強（Ａｕｇｍｅｎｔａｔｉｏｎ）なしにより多くの陰性サンプルを生成し得る。

【0046】

一実施形態によると、シャムニューラルネットワークは、イメージエンベッディングおよびオーディオエンベッディングのうち、エンベッディング距離の第１距離以下であるイメージエンベッディングおよびオーディオエンベッディングを連結して構成された陽性学習サンプルと、第２距離以上であるイメージエンベッディングおよびオーディオエンベッディングを連結して構成された陰性学習サンプルで１次学習され、学習次数が増加するほど第１距離を減少させ、第２距離を増加させることができる。

【0047】

一例によると、サンプル生成部１３０は、陽性サンプルおよび陰性サンプルをカリキュラム学習方式で生成し得る。例えば、サンプル生成部１３０は、イメージエンベッディングおよびオーディオエンベッディング距離に応じて最も近いＫ個を陽性サンプルとしてサンプリングし、残りは陰性サンプルとしてサンプリングすることができる。その後、サンプル生成部１３０は、一次的にオーディオおよびイメージ相互依存情報の差が大きい陰性サンプルおよび小さな陽性サンプルを生成し得る。一般に、対照学習時の初期学習に相互依存情報の差が大きい簡単な（Ｅａｓｙ）陰性サンプルのみを使用してネットワークを初期最適化し、その後、相互依存情報の差が小さい難しい（Ｈａｒｄ）陰性サンプルを適用すれば、ビデオ検索のようなダウンストリームタスク（ＤｏｗｎｓｔｒｅａｍＴａｓｋ）で性能を向上させることができる。

【0048】

このために、サンプル生成部１３０は、簡単なサンプルを用いて学習し、その後、次第に難しいサンプルを用いて学習させるカリキュラム学習方式過程を適用してシャムニューラルネットワークを学習させることができる。

【0049】

例えば、シャムニューラルネットワークは、トリプレット損失を用いて学習しながら、イメージとオーディオとの間の陽性サンプルはますます近くなり、陰性サンプルは遠くなるため、漸進的に高難易度の陽性サンプルおよび陰性サンプルを生成する。このように新しく作成されたサンプルは、対照学習に使用できる。

【0050】

一実施形態によると、対照学習部１４０は、ビデオエンベッディング、第１構成エンベッディング、第２構成エンベッディング、陽性サンプルおよび陰性サンプルを用いて学生ネットワークを学習させるための１つ以上の損失関数を生成し得る。

【0051】

一実施形態によるビデオ表現学習装置の最終目標は、ビデオ検索のための学生ニューラルネットワークを学習することである。このために、マルチモーダル共有潜在空間（Ｍｕｌｔｉ－ＭｏｄａｌＳｈａｒｅｄＬａｔｅｎｔＳｐａｃｅ）で定義した空間で、先に定義したエンベッディング情報を活用して学生ネットワークを学習することができる。

【0052】

例えば、構成エンベッディングネットワーク部１２０で得られたエンベッディングベクトルと２つの教師ネットワークの知識蒸留のために得られたベクトルとのマルチクラスＮＣＥ損失、サンプル生成部１３０を介して新たに得られた陽性サンプルおよび陰性サンプルを適用した対照学習損失であるマルチインスタンス（Ｍｕｌｔｉ－Ｉｎｓｔａｎｃｅ）ＩｎｆｏＮＣＥ損失、新たに得られたサンプルと学生ネットワーク間の特徴分布を減らすＪＳＤ損失など、その損失を用いて対照学習および知識蒸留を行い得る。

【0053】

一実施形態によると、対照学習部１４０は、ビデオエンベッディングおよび陽性サンプルのコサイン類似度と、ビデオエンベッディングおよび陰性サンプルのコサイン類似度に基づく損失関数を生成し得る。

【0054】

一例として、対照学習部１４０は、特徴抽出部１１０で生成されたサンプルと、サンプル生成部１３０で生成された新しい陽性サンプルおよび陰性サンプルを用いて対照学習を行い得る。例えば、従来のビデオの順序を用いて学生ネットワークから出た特徴に該当する新しい陽性サンプルおよび陰性サンプルを構成した後、学生ネットワークが以前の方法である同じクラス（ラベル）で定義された陽性サンプルを使用するのではなく、教師ネットワークから抽出された優れた特徴と高いビデオおよびオーディオの相互情報を有する陽性サンプルに近づくように対照学習を行い得る。

【0055】

これは、教師ネットワークの知識蒸留を通じて学生ネットワークの性能を高める効果を示すことができる。例えば、対照学習のための対照損失は、以下の式のように表すことができる。

【0056】

式３

【数7】

【0057】

ここで、Ｐ_ｉとＮ_ｉは、新しい陽性サンプルおよび陰性サンプルを表し、Φは、コサイン類似度スコア関数（ＣｏｓｉｎｅＳｉｍｉｌａｒｉｔｙＳｃｏｒｅＦｕｎｃｔｉｏｎ）、τは、テンペラチャ（Ｔｅｍｐｅｒａｔｕｒｅ）を意味する。

【0058】

一例によると、学生ネットワークは、マルチモーダル蒸留（Ｍｕｌｔｉ－ｍｏｄａｌＤｉｓｔｉｌｌａｔｉｏｎ）を介して学習できる。例えば、データセットのクラスラベル情報を用いて陽性および陰性を定義し、マルチクラスＮＣＥ損失を使用できる。学生ネットワークの特徴が教師ネットワークのイメージおよびオーディオの特徴と陽性では、より高い確率を割り当て、陰性では、より低い確率を割り当てるために対照学習損失であるＮＣＥ損失を用い得る。例えば、マルチクラスＮＣＥ損失（Ｍｕｌｔｉ－ＣｌａｓｓＮＣＥＬｏｓｓ）は、以下の式のように表すことができる。

【0059】

式４

【数8】

【0060】

一例によると、特徴抽出部１１０から出た特徴エンベッディング値とサンプル生成部１３０で新たに生成されたエンベッディング値は、２つの分布間の意味論的（Ｓｅｍａｎｔｉｃ）差が存在する可能性がある。
これにより、以下の式のように、２つのデータ分布間の差を減らすＪＳダイバージェンス（Ｊｅｎｓｅｎ－ＳｈａｎｎｏｎＤｉｖｅｒｇｅｎｃｅ）を用いて確率分布間の差を減らす損失を適用できる。

【0061】

式５

【数9】

【0062】

一例によると、学生ネットワークを学習するための最終損失関数は、構成エンベッディングと教師ネットワークから得られたエンベッディングを用いてマルチモーダル蒸留（Ｍｕｌｔｉ－ＭｏｄａｌＤｉｓｔｉｌｌａｔｉｏｎ）のためのＬ_{ｄｉｓｔｉｌｌ}、サンプル生成部１３０から得られた新しい陽性および陰性サンプルを用いたマルチクラスインスタンスＮＣＥ損失であるＬ_ＣＳ、２つの分布間の差を減らすＬ_ＪＳＤ、サンプル生成部１３０に存在するシャムニューラルネットワーク学習のためのＬ_{ｔｒｉｐｌｅｔ}損失を合わせて以下の式のように定義することができる。

【0063】

式６

【数10】

【0064】

ここで、Ｌ_{ｄｉｓｔｉｌｌ}は、Ｌ_ａとＬ_ｉを合わせた損失を表し、Ｌ_{ｔｒｉｐｌｅｔ}は、式２のトリプレット損失を表し、Ｌ_ＪＳＤは、式５のＰ_ａｖとＰ_ｉｖに対するＬ_ＪＳＤ損失を合わせたものを表す。

【0065】

図３は、一実施形態によるビデオ表現学習方法を示すフローチャートである。

【0066】

一実施形態によると、ビデオ表現学習装置は、学生ネットワークを用いてビデオデータからビデオ特徴を抽出してビデオエンベッディングを生成し３１０、第１教師ネットワークを用いてビデオデータから抽出されたイメージデータからイメージ特性を抽出してイメージエンベッディングを生成し３２０、第２教師ネットワークを用いてビデオデータから抽出されたオーディオデータからオーディオ特性を抽出してオーディオエンベッディングを生成し得る３３０。

【0067】

一例として、２つの教師ネットワークモデル（Ｖｉｓｕａｌ、Ａｕｄｉｏ）は、既に学習が完了しており、別の追加の学習を行わない。つまり、２つの教師ネットワークは、事前学習モデルとして有意味なイメージ、オーディオ特徴情報を抽出するために使用できる。一方、学生ネットワークは、教師ネットワークを介して取得されたデータに基づいて、対照学習および知識蒸留によって学習が進行できる。

【0068】

一実施形態によると、ビデオ表現学習装置は、ビデオエンベッディングおよびイメージエンベッディングに基づく第１構成エンベッディング（ＣｏｍｐｏｓｉｔｉｏｎａｌＥｍｂｅｄｄｉｎｇ）を生成し、ビデオエンベッディングおよびオーディオエンベッディングに基づく第２構成エンベッディングを生成し得る３４０。

【0069】

一例として、ビデオ表現学習装置は、マルチモーダル蒸留（Ｍｕｌｔｉ－ＭｏｄａｌＤｉｓｔｉｌｌａｔｉｏｎ）を対照学習に適用するために、教師ネットワークと学生ネットワーク間の意味的格差とドメイン格差を減らす必要があり、このために簡単な多層パーセプトロン（Ｍｕｌｔｉ－ＬａｙｅｒＰｅｒｃｅｐｔｒｏｎ、ＭＬＰ）ネットワークを介して構成エンベッディング（ＣｏｍｐｏｓｉｔｉｏｎａｌＥｍｂｅｄｄｉｎｇ）で対照学習のためのｘ_ｉｖ（Ｖｉｄｅｏ＋Ｉｍａｇｅ）およびｘ_ａｖ（Ｖｉｄｅｏ＋Ａｕｄｉｏ）を生成し得る。

【0070】

一実施形態によると、ビデオ表現学習装置は、イメージエンベッディングおよびオーディオエンベッディング間の関連関係を推定するために学習されたシャムニューラルネットワーク（ＳｉａｍｅｓｅＮｅｕｒａｌＮｅｔｗｏｒｋ）を用いてイメージエンベッディングおよびオーディオエンベッディングに基づいて陽性サンプルおよび陰性サンプルを生成し得る３５０。

【0071】

一例として、ビデオ表現学習装置は、ＭＬＰベースのシャムニューラルネットワーク（ＳｉａｍｅｓｅＮｅｕｒａｌＮｅｔｗｏｒｋｓ）を含み得る。これを用いてビデオ表現学習装置は、特徴エンベッディング（ＦｅａｔｕｒｅＥｍｂｅｄｄｉｎｇ）距離に基づいてイメージ－オーディオ相互情報関係に基づいて対照学習のための陽性サンプルおよび陰性サンプルをさらに生成し得る。

【0072】

一実施形態によると、ビデオ表現学習装置は、ビデオエンベッディング、第１構成エンベッディング、第２構成エンベッディング、陽性サンプルおよび陰性サンプルを用いて学生ネットワークを学習させるための１つ以上の損失関数を生成し得る３６０。

【0073】

図３の実施形態のうち、図１～図２を参照して説明と重複する内容は省略する。

【0074】

図４は、例示的な実施形態で使用するのに適したコンピューティング装置を含むコンピューティング環境１０を例示して説明するためのブロック図である。図示された実施形態において、各コンポーネントは、以下に記述されたものに加えて、異なる機能および能力を有し得、以下に記載されないものに加えて、追加のコンポーネントを含み得る。

【0075】

図示されたコンピューティング環境１０は、コンピューティング装置１２を含む。一実施形態において、コンピューティング装置１２は、ビデオ表現学習装置であり得る。

【0076】

コンピューティング装置１２は、少なくとも１つのプロセッサ１４、コンピューター読み取り可能な格納媒体１６および通信バス１８を含む。プロセッサ１４は、コンピューティング装置１２をして前述した例示的な実施形態によって動作させることができる。例えば、プロセッサ１４は、コンピューター読み取り可能な格納媒体１６に格納された１つ以上のプログラムを行い得る。前記１つ以上のプログラムは、１つ以上のコンピューター実行可能な命令語を含み得、前記コンピューター実行可能な命令語は、プロセッサ１４によって実行される場合、コンピューティング装置１２をして例示的な実施形態による動作を実行させるように構成できる。

【0077】

コンピューター読み取り可能な格納媒体１６は、コンピューター実行可能な命令語ないしプログラムコード、プログラムデータおよび／または他の適した形態の情報を格納するように構成される。コンピューター読み取り可能な格納媒体１６に格納されたプログラム２０は、プロセッサ１４によって実行可能な命令語の集合を含む。一実施形態において、コンピューター読み取り可能な格納媒体１６は、メモリ（ランダムアクセスメモリのような揮発性メモリ、不揮発性メモリ、またはこれらの適切な組み合わせ）、１つ以上の磁気ディスク格納デバイス、光学ディスク格納デバイス、フラッシュメモリデバイス、その他、コンピューティング装置１２によってアクセスされ、望む情報を格納できる他の形態の格納媒体、またはこれらの適した組み合わせであり得る。

【0078】

通信バス１８は、プロセッサ１４、コンピューター読み取り可能な格納媒体１６を含み、コンピューティング装置１２の他の様々なコンポーネントを相互接続する。

【0079】

コンピューティング装置１２は、また１つ以上の入出力装置２４のためのインターフェースを提供する１つ以上の入出力インターフェース２２および１つ以上のネットワーク通信インターフェース２６を含み得る。入出力インターフェース２２およびネットワーク通信インターフェース２６は、通信バス１８に接続される。入出力装置２４は、入出力インターフェース２２を介してコンピューティング装置１２の他のコンポーネントに接続され得る。例示的な入出力装置２４は、ポインティング装置（マウスまたはトラックパッドなど）、キーボード、タッチ入力装置（タッチパッドまたはタッチスクリーンなど）、音声または音入力装置、様々な種類のセンサー装置および／または撮影装置のような入力装置、および／またはディスプレイ装置、プリンター、スピーカーおよび／またはネットワークカードのような出力装置を含み得る。例示的な入出力装置２４は、コンピューティング装置１２を構成する一コンポーネントとしてコンピューティング装置１２の内部に含まれ得、コンピューティング装置１２とは区別される別の装置としてコンピューティング装置１２と接続され得る。

【0080】

以上、本発明の代表的な実施形態について具体的に説明したが、本発明が属する技術分野における通常の知識を有する者は、前述した実施形態について本発明の範疇から逸脱しない範囲内で様々な変形が可能であることを理解するであろう。したがって、本発明の権利の範囲は、説明された実施形態に限定されて定められてはならず、後述する特許請求の範囲だけでなく、この特許請求の範囲と均等なものなどによって定められるべきである。

【符号の説明】

【0081】

１００：ビデオ表現学習装置
１１０：特徴抽出部
１２０：構成エンベッディングネットワーク部
１３０：サンプル生成部
１４０：対照学習部

【要約】（修正有）

【課題】ビデオ表現学習装置及び方法を提供する。
【解決手段】ビデオ表現学習装置１００は、ビデオデータからビデオ特徴を抽出してビデオエンベッディングを生成する学生ネットワーク、ビデオデータから抽出されたイメージ特性を抽出してイメージエンベッディングを生成する第１教師ネットワーク及びビデオデータから抽出されたオーディオ特性を抽出してオーディオエンベッディングを生成する第２教師ネットワークを含む特徴抽出部、第１、第２構成ニューラルネットワークを含む構成エンベッディングネットワーク部、イメージ及びオーディオエンベッディング間の関連関係を推定するために学習されたシャムニューラルネットワークを用いて陽性、陰性サンプルを生成するサンプル生成部及びビデオエンベッディング、第１、第２構成エンベッディング、陽性サンプルおよび陰性サンプルを用いて学生ネットワークを学習させる損失関数を生成する対照学習部を含む。
【選択図】図１

【図1】

【図2】

【図3】

【図4】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版