(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023017910
(43)【公開日】2023-02-07
(54)【発明の名称】セマンティック表現モデルの事前トレーニング方法、装置及び電子機器
(51)【国際特許分類】
G06T 7/00 20170101AFI20230131BHJP
G06V 10/778 20220101ALI20230131BHJP
G06N 20/00 20190101ALI20230131BHJP
【FI】
G06T7/00 350B
G06V10/778
G06N20/00
【審査請求】有
【請求項の数】17
【出願形態】OL
【公開請求】
(21)【出願番号】P 2022176901
(22)【出願日】2022-11-04
(31)【優先権主張番号】202111307885.6
(32)【優先日】2021-11-05
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100118913
【弁理士】
【氏名又は名称】上田 邦生
(74)【代理人】
【識別番号】100142789
【弁理士】
【氏名又は名称】柳 順一郎
(74)【代理人】
【識別番号】100201466
【弁理士】
【氏名又は名称】竹内 邦彦
(72)【発明者】
【氏名】ヘ, ドンリャン
(72)【発明者】
【氏名】ディン, エルイ
(57)【要約】 (修正有)
【課題】ビデオと対応するテキストとの間の相関性を学習させることにより、セマンティック表現モデルの精度を向上させる事前トレーニング方法、装置及び電子機器を提供する。
【解決手段】方法は、事前トレーニングデータにおける各ビデオテキストペアに対して、ビデオテキストペアのマスク画像シーケンス、マスク文字シーケンス及びマスク画像文字シーケンスを決定し、上記の3つのシーケンスを初期のセマンティック表現モデルにそれぞれ入力し、複数の特徴シーケンス及び各特徴シーケンスに対応するマスク位置予測の結果を決定し、複数の特徴シーケンス、各特徴シーケンスに対応するマスク位置予測の結果及びマスク位置実際の結果に基づいて、損失関数を構築し、セマンティック表現モデルの係数を調整してトレーニングを実現する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
事前トレーニングデータにおける各ビデオテキストペアに対して、前記ビデオテキストペアのマスク画像シーケンス、マスク文字シーケンス及びマスク画像文字シーケンスを決定するステップと、
前記マスク画像シーケンス、前記マスク文字シーケンス及び前記マスク画像文字シーケンスを初期のセマンティック表現モデルにそれぞれ入力し、複数の特徴シーケンス及び各特徴シーケンスに対応するマスク位置予測の結果を決定するステップと、
前記複数の特徴シーケンス、各特徴シーケンスに対応するマスク位置予測の結果、及びマスク位置実際の結果に基づいて、損失関数を構築し、前記セマンティック表現モデルの係数を調整し、トレーニングを実現するステップと、
を含む、セマンティック表現モデルの事前トレーニング方法。
【請求項2】
前記事前トレーニングデータにおける各ビデオテキストペアに対して、前記ビデオテキストペアのマスク画像シーケンス、マスク文字シーケンス及びマスク画像文字シーケンスを決定するステップが、
事前トレーニングデータにおける各ビデオテキストペアに対して、前記ビデオテキストペアにおけるビデオ及び対応するテキストを決定するステップと、
前記ビデオのマスク画像シーケンスを決定し、前記テキストのマスク文字シーケンスを決定するステップと、
前記マスク画像シーケンス及び前記マスク文字シーケンスをスプライスして、前記マスク画像文字シーケンスを取得するステップと、
を含む請求項1に記載の方法。
【請求項3】
前記ビデオのマスク画像シーケンスを決定し、前記テキストのマスク文字シーケンスを決定するステップが、
前記ビデオに対して画像サンプリングを行い、サンプリング画像シーケンスを取得するステップと、
前記サンプリング画像シーケンスに対してベクトル処理及びマスク処理を行い、前記マスク画像シーケンスを取得するステップと、
前記テキストに対してベクトル処理及びマスク処理を行い、前記マスク文字シーケンスを取得するステップと、
を含む請求項2に記載の方法。
【請求項4】
前記複数の特徴シーケンスは、画像特徴シーケンス、文字特徴シーケンス及び画像文字特徴シーケンスを含み、前記複数の特徴シーケンス、各特徴シーケンスに対応するマスク位置予測の結果、及びマスク位置実際の結果に基づいて、損失関数を構築し、前記セマンティック表現モデルの係数を調整し、トレーニングを実現するステップが、
前記画像特徴シーケンスに対応するマスク位置予測の結果及びマスク位置実際の結果に基づいて、第1のサブ損失関数を構築するステップと、
前記文字特徴シーケンスに対応するマスク位置予測の結果及びマスク位置実際の結果に基づいて、第2のサブ損失関数を構築するステップと、
前記画像文字特徴シーケンスに対応するマスク位置予測の結果及びマスク位置実際の結果に基づいて、第3のサブ損失関数を構築するステップと、
前記画像特徴シーケンス、前記文字特徴シーケンス及び前記画像文字特徴シーケンスに基づいて、第4のサブ損失関数を構築するステップと、
前記第1のサブ損失関数、前記第2のサブ損失関数、前記第3のサブ損失関数及び前記第4のサブ損失関数に基づいて、前記損失関数を構築するステップと、
前記損失関数の値に基づいて前記セマンティック表現モデルの係数を調整し、トレーニングを実現するステップと、
を含む請求項1に記載の方法。
【請求項5】
前記画像特徴シーケンスが、前記マスク画像シーケンスの第1の画像グローバル特徴を含み、前記文字特徴シーケンスが、前記マスク文字シーケンスの第1の文字グローバル特徴を含み、前記画像文字特徴シーケンスが、前記マスク画像文字シーケンスの第2の画像グローバル特徴と第2の文字グローバル特徴を含み、前記画像特徴シーケンス、前記文字特徴シーケンス及び前記画像文字特徴シーケンスに基づいて、第4のサブ損失関数を構築するステップが、
前記第1の画像グローバル特徴、前記第1の文字グローバル特徴及びその他のビデオテキストペアの第1の画像グローバル特徴に基づいて、第1部分のサブ損失関数を構築するステップと、
前記第1の画像グローバル特徴、前記第2の画像グローバル特徴及びその他のビデオテキストペアの第1の画像グローバル特徴に基づいて、第2部分のサブ損失関数を構築するステップと、
前記第1のテキストグローバル特徴、前記第1の画像グローバル特徴及びその他のビデオテキストペアの第1のテキストグローバル特徴に基づいて、第3部分のサブ損失関数を構築するステップと、
前記第1のテキストグローバル特徴、前記第2のテキストグローバル特徴及びその他のビデオテキストペアの第1のテキストグローバル特徴に基づいて、第4部分のサブ損失関数を構築するステップと、
前記第1部分のサブ損失関数、前記第2部分のサブ損失関数、前記第3部分のサブ損失関数及び前記第4部分のサブ損失関数に基づいて、前記第4のサブ損失関数を構築するステップと、
を含む請求項4に記載の方法。
【請求項6】
前記事前トレーニングデータに第1の予め設定された数のシングルビデオ、及び第2の予め設定された数のシングルテキストが含まれ、
各シングルビデオに対して、前記シングルビデオのマスク画像シーケンスを前記セマンティック表現モデルの入力とし、前記シングルビデオのマスク位置実際の結果を前記セマンティック表現モデルの出力とし、前記セマンティック表現モデルの係数を調整し、トレーニングを実現するステップと、
各シングルテキストに対して、前記シングルテキストのマスク文字シーケンスを前記セマンティック表現モデルの入力とし、前記シングルテキストのマスク位置実際の結果を前記セマンティック表現モデルの出力とし、前記セマンティック表現モデルの係数を調整し、トレーニングを実現するステップと、
を含む請求項1に記載の方法。
【請求項7】
前記ビデオに対応するテキストは、前記ビデオのタイトル、前記ビデオの要約のうちの少なくともの1つである請求項1に記載の方法。
【請求項8】
事前トレーニングデータにおける各ビデオテキストペアに対して、前記ビデオテキストペアのマスク画像シーケンス、マスク文字シーケンス及びマスク画像文字シーケンスを決定する決定モジュールと、
前記マスク画像シーケンス、前記マスク文字シーケンス及び前記マスク画像文字シーケンスを初期のセマンティック表現モデルにそれぞれ入力し、複数の特徴シーケンス及び各特徴シーケンスに対応するマスク位置予測の結果を決定する入力モジュールと、
前記複数の特徴シーケンス、各特徴シーケンスに対応するマスク位置予測の結果、及びマスク位置実際の結果に基づいて、損失関数を構築し、前記セマンティック表現モデルの係数を調整し、トレーニングを実現する調整モジュールと、
を備える、セマンティック表現モデルの事前トレーニング装置。
【請求項9】
前記決定モジュールが、
事前トレーニングデータにおける各ビデオテキストペアに対して、前記ビデオテキストペアにおけるビデオ及び対応するテキストを決定し、
前記ビデオのマスク画像シーケンスを決定し、前記テキストのマスク文字シーケンスを決定し、
前記マスク画像シーケンス及び前記マスク文字シーケンスをスプライスして、前記マスク画像文字シーケンスを取得する請求項8に記載の装置。
【請求項10】
前記決定モジュールが、
前記ビデオに対して画像サンプリングを行い、サンプリング画像シーケンスを取得し、
前記サンプリング画像シーケンスに対してベクトル処理及びマスク処理を行い、前記マスク画像シーケンスを取得し、
前記テキストに対してベクトル処理及びマスク処理を行い、前記マスク文字シーケンスを取得する請求項9に記載の装置。
【請求項11】
前記複数の特徴シーケンスが、画像特徴シーケンス、文字特徴シーケンス及び画像文字特徴シーケンスを含み、前記調整モジュールが、第1の構築ユニット、第2の構築ユニット、第3の構築ユニット、第4の構築ユニット、第5の構築ユニット及び調整ユニットを含み、
前記第1の構築ユニットが、前記画像特徴シーケンスに対応するマスク位置予測の結果及びマスク位置実際の結果に基づいて、第1のサブ損失関数を構築し、
前記第2の構築ユニットが、前記文字特徴シーケンスに対応するマスク位置予測の結果及びマスク位置実際の結果に基づいて、第2のサブ損失関数を構築し、
前記第3の構築ユニットが、前記画像文字特徴シーケンスに対応するマスク位置予測の結果及びマスク位置実際の結果に基づいて、第3のサブ損失関数を構築し、
前記第4の構築ユニットが、前記画像特徴シーケンス、前記文字特徴シーケンス及び前記画像文字特徴シーケンスに基づいて、第4のサブ損失関数を構築し、
前記第5の構築ユニットが、前記第1のサブ損失関数、前記第2のサブ損失関数、前記第3のサブ損失関数及び前記第4のサブ損失関数に基づいて、前記損失関数を構築し、
前記調整ユニットが、前記損失関数の値に基づいて前記セマンティック表現モデルの係数を調整し、トレーニングを実現する請求項8に記載の装置。
【請求項12】
前記画像特徴シーケンスが、前記マスク画像シーケンスの第1の画像グローバル特徴を含み、前記文字特徴シーケンスが、前記マスク文字シーケンスの第1の文字グローバル特徴を含み、前記画像文字特徴シーケンスが、前記マスク画像文字シーケンスの第2の画像グローバル特徴と第2の文字グローバル特徴を含み、前記第4の構築ユニットが、
前記第1の画像グローバル特徴、前記第1の文字グローバル特徴及びその他のビデオテキストペアの第1の画像グローバル特徴に基づいて、第1部分のサブ損失関数を構築し、
前記第1の画像グローバル特徴、前記第2の画像グローバル特徴及びその他のビデオテキストペアの第1の画像グローバル特徴に基づいて、第2部分のサブ損失関数を構築し、
前記第1のテキストグローバル特徴、前記第1の画像グローバル特徴及びその他のビデオテキストペアの第1のテキストグローバル特徴に基づいて、第3部分のサブ損失関数を構築し、
前記第1のテキストグローバル特徴、前記第2のテキストグローバル特徴及びその他のビデオテキストペアの第1のテキストグローバル特徴に基づいて、第4部分のサブ損失関数を構築し、
前記第1部分のサブ損失関数、前記第2部分のサブ損失関数、前記第3部分のサブ損失関数及び前記第4部分のサブ損失関数に基づいて、前記第4のサブ損失関数を構築する請求項11に記載の装置。
【請求項13】
前記事前トレーニングデータに第1の予め設定された数のシングルビデオ、及び第2の予め設定された数のシングルテキストが含まれ、前記調整モジュールが、
各シングルビデオに対して、前記シングルビデオのマスク画像シーケンスを前記セマンティック表現モデルの入力とし、前記シングルビデオのマスク位置実際の結果を前記セマンティック表現モデルの出力とし、前記セマンティック表現モデルの係数を調整し、トレーニングを実現し、
各シングルテキストに対して、前記シングルテキストのマスク文字シーケンスを前記セマンティック表現モデルの入力とし、前記シングルテキストのマスク位置実際の結果を前記セマンティック表現モデルの出力とし、前記セマンティック表現モデルの係数を調整し、トレーニングを実現する請求項8に記載の装置。
【請求項14】
前記ビデオに対応するテキストは、前記ビデオのタイトル、前記ビデオの要約のうちの少なくともの1つである請求項8または9に記載の装置。
【請求項15】
少なくとも1つのプロセッサと、
該少なくとも1つのプロセッサと通信可能に接続されるメモリと、
を備え、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令が、前記少なくとも1つのプロセッサが請求項1から7のいずれか一項に記載の方法を実行できるように、前記少なくとも1つのプロセッサによって実行される電子機器。
【請求項16】
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令が、コンピュータに請求項1から7のいずれか一項に記載の方法を実行させる非一時的なコンピュータ読み取り可能な記憶媒体。
【請求項17】
プロセッサによって実行される場合、請求項1から7のいずれか一項に記載の方法を実現するコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、人工知能技術の分野に関し、特に自然言語処理、コンピュータビジョン、深層学習技術の分野に関し、特にセマンティック表現モデルの事前トレーニング方法、装置及び電子機器に関する。
【背景技術】
【0002】
現在、業界内のクロスモダリティ事前トレーニング技術は、主に1つの視覚特徴モデル+1つのテキスト特徴モデルというツインタワー構造を使用し、視覚特徴モデルの入力はビデオの視覚モダリティであり、テキスト特徴モデルの入力はビデオ周辺テキストのテキストモダリティであり、視覚特徴モデルの出力及びテキスト特徴モデルの出力に基づいて、モデル事前トレーニングを実現する。事前トレーニング中に、ビデオ特徴モデルとテキスト特徴モデルとは相互に関連していない。
【発明の概要】
【0003】
本開示は、セマンティック表現モデルの事前トレーニング方法、装置及び電子機器を提供する。
【0004】
本開示の一態様によれば、事前トレーニングデータにおける各ビデオテキストペアに対して、前記ビデオテキストペアのマスク画像シーケンス、マスク文字シーケンス及びマスク画像文字シーケンスを決定するステップと、前記マスク画像シーケンス、前記マスク文字シーケンス及び前記マスク画像文字シーケンスを初期のセマンティック表現モデルにそれぞれ入力し、複数の特徴シーケンス及び各特徴シーケンスに対応するマスク位置予測の結果を決定するステップと、前記複数の特徴シーケンス、各特徴シーケンスに対応するマスク位置予測の結果、及びマスク位置実際の結果に基づいて、損失関数を構築し、前記セマンティック表現モデルの係数を調整し、トレーニングを実現するステップと、を含むセマンティック表現モデルの事前トレーニング方法を提供する。
【0005】
本開示の別の態様によれば、事前トレーニングデータにおける各ビデオテキストペアに対して、前記ビデオテキストペアのマスク画像シーケンス、マスク文字シーケンス及びマスク画像文字シーケンスを決定する決定モジュールと、前記マスク画像シーケンス、前記マスク文字シーケンス及び前記マスク画像文字シーケンスを初期のセマンティック表現モデルにそれぞれ入力し、複数の特徴シーケンス及び各特徴シーケンスに対応するマスク位置予測の結果を決定する入力モジュールと、前記複数の特徴シーケンス、各特徴シーケンスに対応するマスク位置予測の結果、及びマスク位置実際の結果に基づいて、損失関数を構築し、前記セマンティック表現モデルの係数を調整し、トレーニングを実現する調整モジュールと、を備える、セマンティック表現モデルの事前トレーニング装置を提供する。
【0006】
本開示の別の態様によれば、電子機器を提供し、少なくとも1つのプロセッサと、該少なくとも1つのプロセッサと通信可能に接続されるメモリと、を備え、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが本開示の上記の一態様によって提出されたセマンティック表現モデルの事前トレーニング方法を実行できるように、前記少なくとも1つのプロセッサによって実行される。
【0007】
本開示の別の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに本開示の上記の一態様によって提出されたセマンティック表現モデルの事前トレーニング方法を実行させる。
【0008】
本開示の別の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムはプロセッサによって実行される場合、本開示の上記の一態様によって提出されたセマンティック表現モデルの事前トレーニング方法を実現する。
【0009】
なお、この部分に記載の内容は、本開示の実施例の肝心または重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していないことを理解されたい。本開示の他の特徴は、以下の説明を通して容易に理解される。
【図面の簡単な説明】
【0010】
図面は、本技術案をよりよく理解するために使用され、本開示を限定するものではない。
【
図3】セマンティック表現モデルの事前トレーニングの概略図である。
【
図5】本開示の実施例に係るセマンティック表現モデルの事前トレーニング方法を実現するための電子機器のブロック図である。
【発明を実施するための形態】
【0011】
以下、図面と併せて本開示の例示的な実施例を説明し、理解を容易にするためにその中には本開示の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものとして見なされるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、明確及び簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
【0012】
現在、業界内のクロスモダリティ事前トレーニング技術は、主に1つの視覚特徴モデル+1つのテキスト特徴モデルというツインタワー構造を使用し、視覚特徴モデルの入力はビデオの視覚モダリティであり、テキスト特徴モデルの入力はビデオ周辺テキストのテキストモダリティであり、視覚特徴モデルの出力及びテキスト特徴モデルの出力に基づいて、モデル事前トレーニングを実現する。事前トレーニング中に、ビデオ特徴モデルとテキスト特徴モデルとは相互に関連せず、ビデオとテキストとの相関特徴を抽出することが難しくて、トレーニングによって取得されたモデルの精度が悪い。
【0013】
上記の課題に対して、本開示は、セマンティック表現モデルの事前トレーニング方法、装置及び電子機器を提案する。
【0014】
図1は、本開示の第1の実施例に係る概略図であり、なお、本開示の実施例のセマンティック表現モデルの事前トレーニング方法は、セマンティック表現モデルの事前トレーニング装置に適用することができ、電子機器がセマンティック表現モデルの事前トレーニング機能を実行できるように、当該装置は電子機器に構成されることができる。
【0015】
コンピューティング能力を有する機器は、パーソナルコンピューター(Personal Computer、PCと省略する)、モバイル端末、サーバなどであってもよく、モバイル端末は、例えば、車載機器、携帯電話機、タブレットコンピュータ、パーソナルデジタルアシスタント、ウェアラブルデバイスなどの各種のオペレーティングシステム、タッチスクリーン及び/又はディスプレイを備えるハードウェアデバイスであってもよい。
【0016】
図1に示すように、当該セマンティック表現モデルの事前トレーニング方法は以下のステップ101~103を含むことができる。
【0017】
ステップ101、事前トレーニングデータにおける各ビデオテキストペアに対して、ビデオテキストペアのマスク画像シーケンス、マスク文字シーケンス及びマスク画像文字シーケンスを決定する。
【0018】
本開示の実施例では、ビデオテキストペアにはビデオ及び対応するテキストが含まれる。ビデオに対応するテキストは、ビデオのタイトル、ビデオの要約などのうちの少なくとも1種類であってもよく、実際の必要に応じて補足することができ、ここでは具体的に限定しない。
【0019】
本開示の実施例では、事前トレーニングデータには、一定数のビデオテキストペアが含まれることができ、一定数のシングルビデオ、及び一定数のシングルテキストがさらに含まれることができる。シングルビデオとは、対応するテキストがなくて、個別のビデオを指す。シングルテキストとは、対応するビデオがなくて、個別のテキストを指す。
【0020】
本開示の実施例では、セマンティック表現モデルの事前トレーニング装置がステップ101を実行するプロセスは以下通りであってもよい。事前トレーニングデータにおける各ビデオテキストペアに対して、ビデオテキストペアにおけるビデオ及び対応するテキストを決定し、ビデオのマスク画像シーケンスを決定し、テキストのマスク文字シーケンスを決定し、マスク画像シーケンス及びマスク文字シーケンスをスプライスして、マスク画像文字シーケンスを取得する。マスク画像文字シーケンスは、マスク画像シーケンス及びマスク文字シーケンスをスプライスして取得されたものであり、マスク画像文字シーケンスにおけるマスク位置と、マスク画像シーケンス及びマスク文字シーケンスにおけるマスク位置との一致性を確保することができ、損失関数の構築を容易にし、トレーニングによって取得されたセマンティック表現モデルの精度をさらに向上させる。
【0021】
本開示の実施例では、ビデオのマスク画像シーケンスの決定プロセスは、例えば、ビデオに対して画像サンプリングを行って、サンプリング画像シーケンスを取得し、サンプリング画像シーケンスに対してベクトル処理及びマスク処理を行って、マスク画像シーケンスを取得する。ビデオに対して画像サンプリングを行うことにより、ビデオにおけるキーフレーム画像をサンプリングし、データ処理量を減らすことができる。
【0022】
サンプリング画像シーケンスのベクトル処理は、例えば、サンプリング画像シーケンスにおける各画像に対して、予め設定された解像度で前記画像を調整して、調整後の画像を取得し、前記調整後の画像に対してストレッチ処理を行って、予め設定された次元のベクトルを取得し、前記画像に対応するベクトルとする。マスク処理は、例えば、サンプリングされた画像シーケンスに対してベクトル処理を行って取得されたベクトルシーケンスにおけるベクトルの一部を、マスクマークで切り替え、前記マスク画像シーケンスを取得する。
【0023】
マスク画像シーケンスをセマンティック表現モデルに入力した後、マスク画像シーケンスの第1の画像グローバル特徴を取得できることを確保するために、マスク画像シーケンスの一番前にフラグビットを追加して、フラグビットが携帯されるマスク画像シーケンスを取得することができる。当該マスク画像シーケンスをセマンティック表現モデルに入力した後、出力された特徴シーケンスにおけるフラグビットに対応位置の特徴は、すなわち第1の画像グローバル特徴である。出力された特徴シーケンスにおけるその他の位置の特徴は、対応する位置の画像の特徴である。
【0024】
本開示の実施例では、テキストのマスク文字シーケンスの決定プロセスは例えば、以下通りであってもよい。テキストにおける各文字に対してベクトル処理を行い、例えば、単語ベクトル(word2vector)処理、テキストを生成するベクトルシーケンスである。ベクトルシーケンスにおける一部のベクトルをマスクマークで代替して、前記マスク文字シーケンスを取得する。
【0025】
マスク文字シーケンスをセマンティック表現モデルに入力した後、マスク文字シーケンスの第1の文字グローバル特徴を取得できることを確保するために、マスク文字シーケンスの一番前にフラグビットを追加して、フラグビットが携帯されるマスク文字シーケンスを取得することができる。当該マスク文字シーケンスをセマンティック表現モデルに入力した後、出力された特徴シーケンスにおけるフラグビットに対応する位置の特徴は、すなわち第1の文字グローバル特徴である。出力された特徴シーケンスにおけるその他の位置の特徴は、対応する位置の文字の特徴である。
【0026】
ステップ102、マスク画像シーケンス、マスク文字シーケンス及びマスク画像文字シーケンスを初期のセマンティック表現モデルにそれぞれ入力し、複数の特徴シーケンス及び各特徴シーケンスに対応するマスク位置予測の結果を決定する。
【0027】
本開示の実施例では、セマンティック表現モデルの事前トレーニング装置は、マスク画像シーケンスをセマンティック表現モデルに先に入力し、セマンティック表現モデルから出力された特徴シーケンスを取得することができる。当該特徴シーケンスに基づいてマスク位置予測を行い、対応するマスク位置予測の結果を取得する。次に、マスク文字シーケンスを当該セマンティック表現モデルに入力し、セマンティック表現モデルから出力された特徴シーケンスを取得する。当該特徴シーケンスに基づいてマスク位置予測を行い、対応するマスク位置予測の結果を取得する。その後にマスク画像文字シーケンスを当該セマンティック表現モデルに入力し、セマンティック表現モデルから出力された特徴シーケンスを取得する。当該特徴シーケンスに基づいてマスク位置予測を行い、対応するマスク位置予測の結果を取得する。セマンティック表現モデルは例えばTransformerモデルであってもよい。
【0028】
マスク位置が複数である場合、マスク位置予測の結果には複数のマスク位置の予測結果が含まれることができる。例えば、入力がマスク画像シーケンスであり、マスク画像シーケンスがベクトルシーケンスである場合、マスク位置の予測結果は、マスク位置でのマスクされた画像の予測ベクトルであってもよい。また、例えば、入力がマスク文字シーケンスであり、マスク文字シーケンスがベクトルシーケンスである場合、マスク位置での予測結果は、マスク位置でのマスクされた文字の予測ベクトルであってもよい。また、例えば、入力がマスク画像文字シーケンスであり、マスク画像文字シーケンスがベクトルシーケンスである場合、マスク位置の予測結果はマスク位置でのマスクされた画像の予測ベクトル、または、マスク位置でのマスクされた文字の予測ベクトルである。
【0029】
ステップ103、複数の特徴シーケンス、各特徴シーケンスに対応するマスク位置予測の結果、及びマスク位置実際の結果に基づいて、損失関数を構築し、セマンティック表現モデルの係数を調整し、トレーニングを実現する。
【0030】
本開示の実施例では、各特徴シーケンスに対応するマスク位置予測の結果及びマスク位置実際の結果のそれぞれに基づいて、サブ損失関数を構築することができ、さらに損失関数を構築する。損失関数の値に基づいてセマンティック表現モデルの係数を調整し、トレーニングを実現する。
【0031】
本開示の実施例では、トレーニングして取得されたセマンティック表現モデルの精度をさらに向上させるために、事前トレーニングデータには、第1の予め設定された数のシングルビデオ、及び第2の予め設定された数のシングルテキストがさらに含まれることができる。それに対応して、セマンティック表現モデルの事前トレーニング装置は以下のプロセスをさらに実行することができる。各シングルビデオに対して、シングルビデオのマスク画像シーケンスをセマンティック表現モデルの入力とし、シングルビデオのマスク位置実際の結果をセマンティック表現モデルの出力とし、セマンティック表現モデルの係数を調整し、トレーニングを実現する。各シングルテキストに対して、シングルテキストのマスク文字シーケンスをセマンティック表現モデルの入力とし、シングルテキストのマスク位置の実際の結果をセマンティック表現モデルの出力とし、セマンティック表現モデルの係数を調整し、トレーニングを実現する。
【0032】
各シングルビデオに対して、セマンティック表現モデルをトレーニングするプロセスは以下通りであってもよい。シングルビデオのマスク画像シーケンスをセマンティック表現モデルに入力し、セマンティック表現モデルから出力された特徴シーケンスを取得する。当該特徴シーケンスに基づいてマスク位置予測を行い、対応するマスク位置予測の結果を取得する。マスク位置予測の結果及びマスク位置の実際の結果に基づいて損失関数を構築し、当該損失関数の値に基づいてセマンティック表現モデルの係数を調整し、トレーニングを実現する。
【0033】
各シングルテキストに対して、セマンティック表現モデルをトレーニングするプロセスは以下通りであってもよい。シングルテキストのマスク文字シーケンスをセマンティック表現モデルに入力し、セマンティック表現モデルから出力された特徴シーケンスを取得する。当該特徴シーケンスに基づいてマスク位置予測を行い、対応するマスク位置予測の結果を取得する。マスク位置予測の結果及びマスク位置の実際の結果に基づいて損失関数を構築し、当該損失関数の値に基づいてセマンティック表現モデルの係数を調整し、トレーニングを実現する。
【0034】
本開示の実施例では、トレーニングして取得されたセマンティック表現モデルは、予めトレーニングされたセマンティック表現モデルとして、具体的なタスクのために使用することができる。例えば、同様のビデオリコールタスクは、予めトレーニングされたセマンティック表現モデルを介して、当該タスクでのトレーニングデータを組み合わせて係数微調整を行い、ビデオの特徴抽出のために使用され、抽出されたビデオ特徴に基づいて類似ビデオのリコールを行うことができる。また、例えば、テキスト分類タスクは、当該タスクでのレーニングデータを組み合わせて係数微調整を行い、テキストの特徴抽出のために使用されることができ、抽出されたテキスト特徴に基づいてテキスト分類を行うことができる。また、例えば、ビデオ検索シーン、当該タスクでのトレーニングデータを組み合わせて係数微調整を行い、検索テキストの特徴抽出、及び候補ビデオの特徴抽出のために使用され、抽出されたテキスト特徴及びビデオ特徴に基づいて、検索テキストと一致するビデオを決定することができる。
【0035】
本開示の実施例のセマンティック表現モデルの事前トレーニング方法は、事前トレーニングデータにおける各ビデオテキストペアに対して、ビデオテキストペアのマスク画像シーケンス、マスク文字シーケンス及びマスク画像文字シーケンスを決定し、マスク画像シーケンス、マスク文字シーケンス及びマスク画像文字シーケンスを初期のセマンティック表現モデルにそれぞれ入力し、複数の特徴シーケンス及び各特徴シーケンスに対応するマスク位置予測の結果を決定し、複数の特徴シーケンス、各特徴シーケンスに対応するマスク位置予測の結果、及びマスク位置実際の結果に基づいて、損失関数を構築し、セマンティック表現モデルの係数を調整し、トレーニングを実現し、これによってセマンティック表現モデルがビデオと対応するテキストとの間の相関性を学習することができ、ビデオと対応するテキストとの間の関連特徴を抽出し、トレーニングして取得されたセマンティック表現モデルの精度を向上させることができる。
【0036】
セマンティック表現モデルの精度をさらに向上させるために、
図2に示すように、
図2は、本開示の第2の実施例に係る概略図である。本開示の実施例では、複数の特徴シーケンス、各特徴シーケンスに対応するマスク位置予測の結果、及びマスク位置実際の結果に基づいて複数のサブ損失関数を構築し、さらに損失関数を構築し、セマンティック表現モデルの係数を調整し、トレーニングを実現することができる。
図2に示す実施例は以下のステップ201~208を含むことができる。
【0037】
ステップ201、事前トレーニングデータにおける各ビデオテキストペアに対して、ビデオテキストペアのマスク画像シーケンス、マスク文字シーケンス及びマスク画像文字シーケンスを決定する。
【0038】
ステップ202、マスク画像シーケンス、マスク文字シーケンス及びマスク画像文字シーケンスを初期のセマンティック表現モデルにそれぞれ入力し、複数の特徴シーケンス及び各特徴シーケンスに対応するマスク位置予測の結果を決定する。
【0039】
本開示の実施例では、マスク画像シーケンスの決定プロセスは、例えば、以下通りであってもよい。ビデオに対して画像サンプリングを行って、サンプリング画像シーケンスを取得し、サンプリング画像シーケンスに対してベクトル処理及びマスク処理を行って、マスク画像シーケンスを取得し、マスク画像シーケンスの一番前にフラグビットを追加して、マスク画像シーケンスの第1の画像グローバル特徴を取得する。ビデオテキストペア(VP,tp)に対して、VPがビデオを表し、tpがテキストを表す。対応するマスク画像シーケンスが[Vp,F1p,…FNp,]として表すことができる。VPがフラグビットを表し、F1pが1番目の画像に対応するベクトルを表し、Nがマスク画像シーケンスにおけるベクトル及びマスクマークの総数を表す。
【0040】
本開示の実施例では、マスク文字シーケンスの決定プロセスは、例えば、以下通りであってもよい。テキストにおける各文字に対してベクトル処理及びマスク処理を行い、マスク文字シーケンスを取得し、マスク文字シーケンスの一番前にフラグビットを追加して、マスク文字シーケンスの第1の文字グローバル特徴を取得する。ビデオテキストペア(VP,tp)に対して、マスク文字シーケンスが[TXP,Tok1p,…TokMp]として表すことができる。TXPがフラグビットを表し、Tok1pが1番目の文字に対応するベクトルを表す。Mがマスク文字シーケンスにおけるベクトル及びマスクマークの総数を表す。
【0041】
本開示の実施例では、マスク画像文字シーケンスは、マスク画像シーケンス及びマスク文字シーケンスをスプライスして取得される。ビデオテキストペア(VP,tp)に対して、マスク画像文字シーケンスが、[Vp,F1p,…FNp,TXP,Tok1p,…TokMp]として表すことができる。
【0042】
ステップ203、複数の特徴シーケンスのうちの画像特徴シーケンスに対応するマスク位置予測の結果及びマスク位置実際の結果に基づいて、第1のサブ損失関数を構築する。
【0043】
本開示の実施例では、画像特徴シーケンスはマスク画像シーケンスに対応し、マスク画像シーケンスをセマンティック表現モデルに入力して取得された特徴シーケンスである。画像特徴シーケンスは[fp[V],fp[V],f1[V]p,…,fN[V]p]として表すことができる。fp[V]がマスク画像シーケンスにおけるフラグビットに対応し、マスク画像シーケンスの第1の画像グローバル特徴を表す。f1[V]pはマスク画像シーケンスにおける1番目の画像に対応する特徴である。
【0044】
本開示の実施例では、マスク画像シーケンスにおいてK個のベクトルがマスクマークによって代替されると仮定すると、マスク画像シーケンスに対応する画像特徴シーケンス、当該K個のマスクマークが存在する位置の予測ベクトル(マスク位置予測の結果)を予測することができる。当該K個のマスクマークが存在する位置の予測ベクトル、及び当該K個のマスクマークが存在する位置の実際のベクトル(マスク位置実際の結果)に基づいて、第1のサブ損失関数を構築する。第1のサブ損失関数の計算式は以下通りであってもよい。
【数1】
LVPが第1のサブ損失関数を表す。k=1,…,K、nk∈{1,2,3…,N}、FC(fnk[V]p)がK番目のマスクマークが存在する位置の予測ベクトルを表す。fnkpがK番目のマスクマークが存在する位置の実際のベクトルを表す。FCはフルリンク層であり、画像特徴シーケンスに基づいてK個のマスクマークが存在する位置のベクトルを予測することを表す。
【0045】
ステップ204、複数の特徴シーケンスのうちの文字特徴シーケンスに対応するマスク位置予測の結果及びマスク位置実際の結果に基づいて、第2のサブ損失関数を構築する。
【0046】
本開示の実施例では、文字特徴シーケンスはマスク文字シーケンスに対応し、マスク文字シーケンスをセマンティック表現モデルに入力して取得された特徴シーケンスである。文字特徴シーケンスはrP[T],r1[T]P…,rM[T]Pとして表すことができる。rP[T]はマスク文字シーケンスにおけるフラグビットに対応し、マスク文字シーケンスの第1の文字グローバル特徴を表す。r1[T]Pはマスク文字シーケンスにおける1番目の文字に対応する特徴を表す。
【0047】
本開示の実施例では、マスク文字シーケンスにおいて合計でL個のベクトルがマスクマークによって代替されると仮定すると、マスク文字シーケンスに対応する文字特徴シーケンスに基づいて、当該L個のマスクマークが存在する位置の予測ベクトル(マスク位置予測の結果)を予測することができる。当該L個のマスクマークが存在する位置の予測ベクトル、及び当該L個のマスクマークが存在する位置の実際のベクトル(マスク位置実際の結果)に基づいて、第2のサブ損失関数を構築する。第2のサブ損失関数の計算式は以下通りであってもよい。
【数2】
Ltpが第2のサブ損失関数を表す。l=1,…,L。m1∈{1,2,3…,M}。FC(rm1[T]p)が一番目のマスクマークが存在する位置の予測ベクトルを表す。Tokm1pが一番目のマスクマークが存在する位置の実際のベクトルを表す。
【0048】
ステップ205、複数の特徴シーケンスのうちの画像文字特徴シーケンスに対応するマスク位置予測の結果及びマスク位置実際の結果に基づいて、第3のサブ損失関数を構築する。
【0049】
本開示の実施例では、画像文字特徴シーケンスはマスク画像文字シーケンスに対応し、マスク画像文字シーケンスをセマンティック表現モデルに入力して取得された特徴シーケンスである。画像文字特徴シーケンスは[fp[TV],f1[TV]p,…fN[TV]p,rp[TV],r1[TV]p,…rM[TV]p]として表すことができる。fp[TV]はマスク画像文字シーケンスにおける画像のベクトルの一番前のフラグビットに対応し、すなわちVPに対応し、マスク画像文字シーケンスの第2の画像グローバル特徴を表す。rp[TV]はマスク画像文字シーケンスにおける文字のベクトルの一番前のフラグビットに対応し、すなわちTxPに対応し、マスク画像文字シーケンスの第2の文字グローバル特徴を表す。
【0050】
本開示の実施例では、マスク画像シーケンスにおいて合計でK個の画像のベクトルがマスクマークによって代替され、合計でL個の文字のベクトルがマスクマークによって代替されると仮定すると、マスク画像文字シーケンスに対応する画像文字特徴シーケンスに基づいて、当該K+L個のマスクマークが存在する位置の予測ベクトルを予測することができる。当該K+L個のマスクマークが存在する位置の予測ベクトル、及び当該K+L個のマスクマークが存在する位置の実際のベクトルに基づいて、第3のサブ損失関数を構築する。第3のサブ損失関数の計算式は以下通りであってもよい。
【数3】
Lvtpが第3のサブ損失関数を表す。FC(rm1[TV]p)が文字のマスクマークのうちの一番目のマスクマークが存在する位置の予測ベクトルを表す。Tokm1pFC(rm1[TV]p)が文字のマスクマークのうちの一番目のマスクマークが存在する位置の実際のベクトルを表す。FC(fnk[TV]p)が画像のマスクマークのうちのK番目のマスクマークが存在する位置の予測ベクトルを表す。fnkpが画像のマスクマークのうちのK番目のマスクマークが存在する位置の実際のベクトルを表す。
【0051】
ステップ206、複数の特徴シーケンスのうちの画像特徴シーケンス、文字特徴シーケンス及び画像文字特徴シーケンスに基づいて第4のサブ損失関数を構築する。
【0052】
本開示の実施例では、画像特徴シーケンスはマスク画像シーケンスの第1の画像グローバル特徴を含む。文字特徴シーケンスはマスク文字シーケンスの第1の文字グローバル特徴を含む。画像文字特徴シーケンスはマスク画像文字シーケンスの第2の画像グローバル特徴と第2の文字グローバル特徴を含む。
【0053】
本開示の実施例では、セマンティック表現モデルの事前トレーニング装置がステップ206を実行するプロセスは以下通りであってもよい。第1の画像グローバル特徴、第1の文字グローバル特徴及びその他のビデオテキストペアの第1の画像グローバル特徴に基づいて、第1部分のサブ損失関数を構築する。第1の画像グローバル特徴、第2の画像グローバル特徴及びその他のビデオテキストペアの第1の画像グローバル特徴に基づいて、第2部分のサブ損失関数を構築する。第1のテキストグローバル特徴、第1の画像グローバル特徴及びその他のビデオテキストペアの第1のテキストグローバル特徴に基づいて、第3部分のサブ損失関数を構築する。第1のテキストグローバル特徴、第2のテキストグローバル特徴及びその他のビデオテキストペアの第1のテキストグローバル特徴に基づいて、第4部分のサブ損失関数を構築する。第1部分のサブ損失関数、第2部分のサブ損失関数、第3部分のサブ損失関数及び第4の部分のサブ損失関数に基づいて、第4のサブ損失関数を構築する。
【0054】
本開示の実施例では、第4のサブ損失関数の計算式は以下通りであってもよい。
【数4】
LCが第4のサブ損失関数を表す。式の4行の計算子は、それぞれ第1の部分損失関数、第2部分のサブ損失関数、第3部分のサブ損失関数及び第4の部分のサブ損失関数を表す。s(s,y)が2つのベクトル間の類似度関数、例えばコサイン類似度関数を表す。τがハイパーパラメーターを表す。
【0055】
本開示の実施例では、1つのビデオテキストペアの第1の画像グローバル特徴、第1のテキストグローバル特徴、第2の画像グローバル特徴、第2のテキストグローバル特徴、及びその他のビデオテキストペアの第1の画像グローバル特徴と第1のテキストグローバル特徴に基づいて、第4のサブ損失関数を構築することにより、1つのビデオテキストペアの第1の画像グローバル特徴と第2の画像グローバル特徴とを出来るだけ近づけ、第1のテキストグローバル特徴と第2のテキストグローバル特徴とを出来るだけ近づける一方、異なるビデオテキストの第1の画像グローバル特徴が出来るだけ離れ、異なるビデオテキストペアの第1のテキストグローバル特徴が出来るだけ離れることができるようにし、セマンティック表現モデルがより多くのビデオテキスト相関特徴を学習し、セマンティック表現モデルの精度が向上し、さらにダウンストリームのタスクの実行が向上する。
【0056】
ステップ207、第1のサブ損失関数、第2のサブ損失関数、第3のサブ損失関数及び第4のサブ損失関数に基づいて、損失関数を構築する。
【0057】
本開示の実施例では、例えば、第1のサブ損失関数、第2のサブ損失関数、第3のサブ損失関数及び第4のサブ損失関数は直接加算し、損失関数を取得することができる。また、例えば、第1のサブ損失関数、第2のサブ損失関数、第3のサブ損失関数及び第4のサブ損失関数は、重みに応じて加重加算し、損失関数を取得することができる。
【0058】
ステップ208、損失関数の値に基づいてセマンティック表現モデルの係数を調整し、トレーニングを実現する。
【0059】
本開示の実施例では、ステップ201~202の詳細な説明は、
図1に示す実施例のステップ101~102の詳細な説明を参照することができ、ここでは詳細な説明を省略する。
【0060】
本開示の実施例のセマンティック表現モデルの事前トレーニング方法は、事前トレーニングデータにおける各ビデオテキストペアに対して、ビデオテキストペアのマスク画像シーケンス、マスク文字シーケンス及びマスク画像文字シーケンスを決定し、マスク画像シーケンス、マスク文字シーケンス及びマスク画像文字シーケンスを初期のセマンティック表現モデルにそれぞれ入力し、複数の特徴シーケンス及び各特徴シーケンスに対応するマスク位置予測の結果を決定し、複数の特徴シーケンスのうちの画像特徴シーケンスに対応するマスク位置予測の結果及びマスク位置実際の結果に基づいて、第1のサブ損失関数を構築し、複数の特徴シーケンスのうちの文字特徴シーケンスに対応するマスク位置予測の結果及びマスク位置実際の結果に基づいて、第2のサブ損失関数を構築し、複数の特徴シーケンスのうちの画像文字特徴シーケンスに対応するマスク位置予測の結果及びマスク位置実際の結果に基づいて、第3のサブ損失関数を構築し、複数の特徴シーケンスのうちの画像特徴シーケンス、文字特徴シーケンス及び画像文字特徴シーケンスに基づいて第4のサブ損失関数を構築し、第1のサブ損失関数、第2のサブ損失関数、第3のサブ損失関数及び第4のサブ損失関数に基づいて、損失関数を構築し、損失関数の値に基づいてセマンティック表現モデルの係数を調整し、トレーニングを実現することにより、セマンティック表現モデルがビデオと対応するテキストとの間の相関性を学習することができ、ビデオと対応するテキストとの間の相関特徴を抽出し、トレーニングして取得されたセマンティック表現モデルの精度を向上させることができる。
【0061】
上記の実施例をより明確に説明するために、ここで例を挙げて説明する。
【0062】
例えば、
図3はセマンティック表現モデルの事前トレーニングの概略図である。
図3の3つのセマンティック表現モデルの構造が同じであり、係数が同じであり、実は同じセマンティック表現モデルである。ただ、当該セマンティック表現モデルは1回の処理で3回使用する必要があるため、理解を容易にするために、3つのセマンティック表現モデルを表示する。
図3において、左側のビデオデータは、シングルビデオである。右側のテキストデータは、シングルテキストである。中央のデータテキストデータは、2つのビデオテキストペアである。ビデオテキストペアに対して、
図3のクロスモダリティ比較学習とは、第3のサブ損失関数及び第4のサブ損失関数の構築及びトレーニングを指す。線分の両端は、それぞれ中央のセマンティック表現モデルの黒い点を指しており、第3のサブ損失関数を表す。線分の両端は、それぞれ異なるセマンティック表現モデルの黒い点を指しており、第4のサブ損失関数を表す。
【0063】
上記の実施例を実現するために、本開示は、セマンティック表現モデルの事前トレーニング装置をさらに提案する。
【0064】
図4に示すように、
図4は本開示の第3の実施例に係る概略図である。当該セマンティック表現モデルの事前トレーニング装置400は、決定モジュール410、入力モジュール420と調整モジュール430を備える。
【0065】
決定モジュール410は、事前トレーニングデータにおける各ビデオテキストペアに対して、前記ビデオテキストペアのマスク画像シーケンス、マスク文字シーケンス及びマスク画像文字シーケンスを決定する。
【0066】
入力モジュール420は、前記マスク画像シーケンス、前記マスク文字シーケンス及び前記マスク画像文字シーケンスを初期のセマンティック表現モデルにそれぞれ入力し、複数の特徴シーケンス及び各特徴シーケンスに対応するマスク位置予測の結果を決定する。
【0067】
調整モジュール430は、前記複数の特徴シーケンス、各特徴シーケンスに対応するマスク位置予測の結果、及びマスク位置実際の結果に基づいて、損失関数を構築し、前記セマンティック表現モデルの係数を調整し、トレーニングを実現する。
【0068】
本開示の実施例の1つの可能な実現形態として、前記決定モジュール410は具体的に、事前トレーニングデータにおける各ビデオテキストペアに対して、前記ビデオテキストペアにおけるビデオ及び対応するテキストを決定し、前記ビデオのマスク画像シーケンスを決定し、前記テキストのマスク文字シーケンスを決定し、前記マスク画像シーケンス及び前記マスク文字シーケンスをスプライスして、前記マスク画像文字シーケンスを取得する。
【0069】
本開示の実施例の1つの可能な実現形態として、前記決定モジュール410は具体的に、前記ビデオに対して画像サンプリングを行い、サンプリング画像シーケンスを取得し、前記サンプリング画像シーケンスに対してベクトル処理及びマスク処理を行い、前記マスク画像シーケンスを取得し、前記テキストに対してベクトル処理及びマスク処理を行い、前記マスク文字シーケンスを取得する。
【0070】
本開示の実施例の1つの可能な実現形態として、前記複数の特徴シーケンスは、画像特徴シーケンス、文字特徴シーケンス及び画像文字特徴シーケンスを含む。前記調整モジュールは、第1の構築ユニット、第2の構築ユニット、第3の構築ユニット、第4の構築ユニット、第5の構築ユニット及び調整ユニットを備える。前記第1の構築ユニットは、前記画像特徴シーケンスに対応するマスク位置予測の結果及びマスク位置実際の結果に基づいて、第1のサブ損失関数を構築する。前記第2の構築ユニットは、前記文字特徴シーケンスに対応するマスク位置予測の結果及びマスク位置実際の結果に基づいて、第2のサブ損失関数を構築する。前記第3の構築ユニットは、前記画像文字特徴シーケンスに対応するマスク位置予測の結果及びマスク位置実際の結果に基づいて、第3のサブ損失関数を構築する。前記第4の構築ユニットは、前記画像特徴シーケンス、前記文字特徴シーケンス及び前記画像文字特徴シーケンスに基づいて、第4のサブ損失関数を構築する。前記第5の構築ユニットは、前記第1のサブ損失関数、前記第2のサブ損失関数、前記第3のサブ損失関数及び前記第4のサブ損失関数に基づいて、前記損失関数を構築する。前記調整ユニットは、前記損失関数の値に基づいて前記セマンティック表現モデルの係数を調整し、トレーニングを実現する。
【0071】
本開示の実施例の1つの可能な実現形態として、前記画像特徴シーケンスは、前記マスク画像シーケンスの第1の画像グローバル特徴を含む。前記文字特徴シーケンスは、前記マスク文字シーケンスの第1の文字グローバル特徴を含む。前記画像文字特徴シーケンスは、前記マスク画像文字シーケンスの第2の画像グローバル特徴と第2の文字グローバル特徴を含む。前記第4の構築ユニットは具体的に、前記第1の画像グローバル特徴、前記第1の文字グローバル特徴及びその他のビデオテキストペアの第1の画像グローバル特徴に基づいて、第1部分のサブ損失関数を構築し、前記第1の画像グローバル特徴、前記第2の画像グローバル特徴及びその他のビデオテキストペアの第1の画像グローバル特徴に基づいて、第2部分のサブ損失関数を構築し、前記第1のテキストグローバル特徴、前記第1の画像グローバル特徴及びその他のビデオテキストペアの第1のテキストグローバル特徴に基づいて、第3部分のサブ損失関数を構築し、前記第1のテキストグローバル特徴、前記第2のテキストグローバル特徴及びその他のビデオテキストペアの第1のテキストグローバル特徴に基づいて、第4部分のサブ損失関数を構築し、前記第1部分のサブ損失関数、前記第2部分のサブ損失関数、前記第3部分のサブ損失関数及び前記第4部分のサブ損失関数に基づいて、前記第4のサブ損失関数を構築する。
【0072】
本開示の実施例の1つの可能な実現形態として、前記事前トレーニングデータに第1の予め設定された数のシングルビデオ、及び第2の予め設定された数のシングルテキストがさらに含まれ、前記調整モジュール430はさらに、各シングルビデオに対して、前記シングルビデオのマスク画像シーケンスを前記セマンティック表現モデルの入力とし、前記シングルビデオのマスク位置実際の結果を前記セマンティック表現モデルの出力とし、前記セマンティック表現モデルの係数を調整し、トレーニングを実現し、各シングルテキストに対して、前記シングルテキストのマスク文字シーケンスを前記セマンティック表現モデルの入力とし、前記シングルテキストのマスク位置実際の結果を前記セマンティック表現モデルの出力とし、前記セマンティック表現モデルの係数を調整し、トレーニングを実現する。
【0073】
本開示の実施例の1つの可能な実現形態として、前記ビデオに対応するテキストは、前記ビデオのタイトル、前記ビデオの要約のうちの少なくともの1つである。
【0074】
本開示の実施例のセマンティック表現モデルの事前トレーニング装置は、事前トレーニングデータにおける各ビデオテキストペアに対して、ビデオテキストペアのマスク画像シーケンス、マスク文字シーケンス及びマスク画像文字シーケンスを決定し、マスク画像シーケンス、マスク文字シーケンス及びマスク画像文字シーケンスを初期のセマンティック表現モデルにそれぞれ入力し、複数の特徴シーケンス及び各特徴シーケンスに対応するマスク位置予測の結果を決定し、複数の特徴シーケンス、各特徴シーケンスに対応するマスク位置予測の結果、及びマスク位置実際の結果に基づいて、損失関数を構築し、セマンティック表現モデルの係数を調整し、トレーニングを実現することにより、セマンティック表現モデルがビデオと対応するテキストとの間の相関性を学習することができ、ビデオと対応するテキストとの間の相関特徴を抽出することができ、トレーニングして取得されたセマンティック表現モデルの精度を向上させることができる。
【0075】
なお、本開示の技術案では、関連するユーザ個人情報の収集、記憶、使用、加工、伝送、提供、公開などの処理は、いずれもユーザの同意を得た上で行う、関連法律法規の規定に合致し、かつ公序良俗に違反しない。
【0076】
本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体、及びコンピュータプログラムをさらに提供する。
【0077】
図5は、本開示の実施例を実行するための例示的な電子機器500の概略ブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、および他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、および他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示される部品、それらの接続と関係、およびそれらの機能は、単なる例であり、本明細書の説明および/または求められる本開示の実現を制限することを意図したものではない。
【0078】
図5に示すように、電子機器500は、読み取り専用メモリ(ROM)502に記憶されているコンピュータプログラムまたは記憶ユニット508からランダムアクセスメモリ(RAM)503にロードされたコンピュータプログラムに従って様々な適切な動作および処理を実行できる計算ユニット501を備える。RAM503には、電子機器500の動作に必要な各種のプログラムやデータも記憶されてもよい。計算ユニット501、ROM 502、及びRAM 503は、バス504を介して互いに接続されている。バス504には、入力/出力(I/O)インターフェース505も接続されている。
【0079】
電子機器500の複数のコンポーネントはI/Oインターフェース505に接続され、キーボード、マウスなどの入力ユニット506、各タイプのディスプレイ、スピーカなどの出力ユニット507、磁気ディスク、光ディスクなどの記憶ユニット508、およびネットワークカード、モデム、無線通信トランシーバなどの通信ユニット509を備える。通信ユニット509は、電子機器500が、インターネットなどのコンピュータネットワークおよび/または各種の電信ネットワークを介して他のデバイスと情報/データを交換することを可能にする。
【0080】
計算ユニット501は、上記に記載された各方法および処理、例えば、セマンティック表現モデルの事前トレーニング方法を実行する。例えば、いくつかの実施例では、セマンティック表現モデルの事前トレーニング方法を、記憶ユニット508などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施例では、コンピュータプログラムの一部または全部はROM 502および/または通信ユニット509を介して電子機器500にロードおよび/またはインストールされてもよい。コンピュータプログラムがRAM 503にロードされ、計算ユニット501によって実行される場合、上記に記載されたセマンティック表現モデルの事前トレーニング方法の1つまたは複数のステップが実行されてもよい。代替的に、他の実施例では、計算ユニット501はセマンティック表現モデルの事前トレーニング方法を実行するように、他のいずれかの適切な方式(例えば、ファームウェアを介して)によって配置されてもよい。
【0081】
本明細書で上記記載のシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックス・プログラマブル・ロジック・デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラム可能なシステムで実行および/または解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび命令を受信し、データおよび命令を当該ストレージシステム、当該少なくとも1つの入力装置、および当該少なくとも1つの出力装置に伝送することができる。
【0082】
これらのプログラムコードは、プロセッサ又はコントローラによって実行された際に、フローチャートおよび/またはブロック図に規定された機能/操作が実施されるように、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよい。プログラムコードは、完全に機械上で実行されるか、部分的に機械上で実行されるか、スタンドアロンソフトウェアパッケージとして、部分的に機械上で実行され、部分的にリモート機械上で実行され又は完全にリモート機械又はサーバ上で実行されてもよい。
【0083】
本開示のコンテクストでは、機械読み取り可能な媒体は、命令実行システム、装置、またはデバイスによって使用されるために、又は命令実行システム、装置、またはデバイスと組み合わせて使用するためのプログラムを含むか、又は記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体システム、装置又はデバイス、または上記コンテンツの任意の適切な組み合わせを含むことができるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、1つ又は複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、または上記コンテンツの任意の適切な組み合わせを含む。
【0084】
ユーザとのインタラクションを提供するために、ここで説明されるシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、ビジョンフィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力、または、触覚入力とを含む)でユーザからの入力を受信することができる。
【0085】
ここで説明されるシステムおよび技術は、バックエンドコンポーネントを備えるコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを備えるコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを備えるコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステムおよび技術の実施形態とインタラクションできる)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントのいずれかの組み合わせを備えるコンピューティングシステムで実行することができる。任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、を含む。
【0086】
コンピュータシステムは、クライアントとサーバを備えることができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバはクラウドサーバであってもよく、分散システムのサーバであってもよく、ブロックチェーンを組み込んだサーバであってもよい。
【0087】
なお、上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本開示に記載の各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。
【0088】
上記具体的な実施形態は、本開示の保護範囲を制限するものではない。当業者は、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができることを理解されたい。任意の本開示の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれなければならない。