特許7552000 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ ベイジン　バイドゥ　ネットコム　サイエンス　アンド　テクノロジー　カンパニー　リミテッドの特許一覧

特許7552000マルチモーダル表現モデルのトレーニング方法、クロスモーダル検索方法及び装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-09-09

(45)【発行日】2024-09-18

(54)【発明の名称】マルチモーダル表現モデルのトレーニング方法、クロスモーダル検索方法及び装置

(51)【国際特許分類】

G06F 16/903 20190101AFI20240910BHJP

【ＦＩ】

G06F16/903

【請求項の数】 28

【外国語出願】

(21)【出願番号】P 2023038523

(22)【出願日】2023-03-13

(65)【公開番号】P2023072022

(43)【公開日】2023-05-23

【審査請求日】2023-03-13

(31)【優先権主張番号】202210476076.6

(32)【優先日】2022-04-29

(33)【優先権主張国・地域又は機関】CN

(73)【特許権者】

【識別番号】514322098

【氏名又は名称】ベイジンバイドゥネットコムサイエンステクノロジーカンパニーリミテッド

【氏名又は名称原語表記】ＢｅｉｊｉｎｇＢａｉｄｕＮｅｔｃｏｍＳｃｉｅｎｃｅＴｅｃｈｎｏｌｏｇｙＣｏ．，Ｌｔｄ．

【住所又は居所原語表記】２／ＦＢａｉｄｕＣａｍｐｕｓ，Ｎｏ．１０，Ｓｈａｎｇｄｉ１０ｔｈＳｔｒｅｅｔ，ＨａｉｄｉａｎＤｉｓｔｒｉｃｔ，Ｂｅｉｊｉｎｇ１０００８５，Ｃｈｉｎａ

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100135079

【弁理士】

【氏名又は名称】宮崎修

(72)【発明者】

【氏名】ビンシャン

(72)【発明者】

【氏名】ウエイチョーンイン

(72)【発明者】

【氏名】ユイスゥン

【審査官】早川学

(56)【参考文献】

【文献】中国特許出願公開第１１３２３９２１４（ＣＮ，Ａ）

【文献】中国特許出願公開第１１３７７９３６１（ＣＮ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１６／００－１６／９５８

(57)【特許請求の範囲】

【請求項1】

マルチモーダル表現モデルのためにコンピュータにより実装されるトレーニング方法であって、前記マルチモーダル表現モデルは、第1のデータモーダルに対応する第1の表現モジュールと、第2のデータモーダルに対応する第2の表現モジュールと、を含み、当該トレーニング方法は、
サンプルタプルを取得し、前記サンプルタプルは、前記第1のデータモーダルの第1のサンプルと第2のサンプル、及び前記第2のデータモーダルの第3のサンプルと第4のサンプルを含み、前記サンプルタプルに含まれる各サンプルの意味は一致することと、
前記第1のサンプルと前記第2のサンプルをそれぞれ前記第1の表現モジュールに入力することで、前記第1のサンプルの第1の表現と前記第2のサンプルの第2の表現を取得することと、
前記第3のサンプルと前記第4のサンプルをそれぞれ前記第2の表現モジュールに入力することで、前記第3のサンプルの第3の表現と前記第4のサンプルの第4の表現を取得することと、
前記第1の表現と前記第2の表現の第1の類似度、及び前記第1の表現と他のサンプルタプルの第2の表現の第2の類似度に基づき、前記第1のデータモーダルの第1のシングルモーダル損失を決定し、前記第1のシングルモーダル損失は、前記第1の類似度と負の相関を有し、且つ、前記第2の類似度と正の相関を有することと、
前記第3の表現と前記第4の表現の第6の類似度、及び前記第3の表現と他のサンプルタプルの第4の表現の第7の類似度に基づき、前記第2のデータモーダルの第2のシングルモーダル損失を決定し、前記第2のシングルモーダル損失は、前記第6の類似度と負の相関を有し、且つ、前記第7の類似度と正の相関を有することと、
第1のターゲット表現と第2のターゲット表現に基づき、前記第1のデータモーダルから前記第2のデータモーダルへの第1のクロスモーダル損失と、前記第2のデータモーダルから前記第1のデータモーダルへの第2のクロスモーダル損失を決定し、前記第1のターゲット表現は前記第1の表現と前記第2の表現のうちのいずれか1つであり、前記第2のターゲット表現は前記第3の表現と前記第4の表現のうちのいずれか1つであり、前記第1のターゲット表現と前記第2のターゲット表現の第3の類似度、及び前記第1のターゲット表現と他のサンプルタプルの第2のターゲット表現の第4の類似度に基づき、前記第1のクロスモーダル損失を決定し、前記第1のクロスモーダル損失は、前記第3の類似度と負の相関を有し、且つ、前記第4の類似度と正の相関を有し、前記第1のターゲット表現と前記第2のターゲット表現の第3の類似度、及び前記第2のターゲット表現と他のサンプルタプルの第1のターゲット表現の第5の類似度に基づき、前記第2のクロスモーダル損失を決定し、前記第2のクロスモーダル損失は、前記第3の類似度と負の相関を有し、且つ、前記第5の類似度と正の相関を有することと、
前記第1のシングルモーダル損失と、前記第2のシングルモーダル損失と、前記第1のクロスモーダル損失と、前記第2のクロスモーダル損失に基づき、前記マルチモーダル表現モデルの全体の損失を決定することと、
前記全体の損失を減少させるために、前記マルチモーダル表現モデルのパラメータを調整することと、を含む、
方法。

【請求項2】

生データペアを取得し、前記生データペアは、前記第1のデータモーダルの第1の生データと前記第2のデータモーダルの第2の生データを含み、前記第1の生データと前記第2の生データの意味は一致することと、
前記第1の生データに基づき、前記第1のサンプルと前記第2のサンプルを生成することと、
前記第2の生データに基づき、前記第3のサンプルと前記第4のサンプルを生成することと、を更に含む、請求項1に記載の方法。

【請求項3】

前記第1の生データに基づき、前記第1のサンプルと前記第2のサンプルを生成することは、
前記第1の生データに対する第1のデータ拡張処理を行うことで、前記第1のサンプルを生成することと、
前記第1の生データに対する第2のデータ拡張処理を行うことで、前記第1のサンプルと異なる前記第2のサンプルを生成することと、を含む、請求項2に記載の方法。

【請求項4】

前記第1のサンプルと前記第2のサンプルは前記第1の生データと同じであり、前記第1の表現モジュールはランダムノイズを添加することで、前記第1の表現を前記第2の表現から異ならせるように構成される、請求項2に記載の方法。

【請求項5】

前記第1のデータモーダルはテキストモーダルであり、前記第1の表現モジュールはドロップアウト処理層を含むテキストエンコーダであり、前記ドロップアウト処理層のドロップ確率は予め設定された閾値より小さい、請求項4に記載の方法。

【請求項6】

前記全体の損失は、前記第1のシングルモーダル損失と、前記第2のシングルモーダル損失と、前記第1のクロスモーダル損失と、前記第2のクロスモーダル損失の加重和である、請求項1に記載の方法。

【請求項7】

予め設定された適用場面におけるマッチングデータペアに基づき、前記マルチモーダル表現モデルに対する微調整を行うことを更に含む、請求項1に記載の方法。

【請求項8】

前記マッチングデータペアはターゲットデータモーダルの第1のデータと第2のデータを含み、前記第1のデータと前記第2のデータの意味は一致し、予め設定された適用場面におけるマッチングデータペアに基づき、前記マルチモーダル表現モデルに対する微調整を行うことは、
前記マッチングデータペアに基づき、前記ターゲットデータモーダルに対応する表現モジュールに対する微調整を行うことを含む、請求項7に記載の方法。

【請求項9】

前記マッチングデータペアは、第1のデータモーダルの第1のデータと第2のデータモーダルの第2のデータを含み、前記第1のデータと前記第2のデータの意味は一致し、予め設定された適用場面におけるマッチングデータペアに基づき、前記マルチモーダル表現モデルに対する微調整を行うことは、
前記第1のデータに基づき、前記第1のデータモーダルの第1のデータサンプルと第2のデータサンプルを生成することと、
前記第2のデータに基づき、前記第2のデータモーダルの第3のデータサンプルと第4のデータサンプルを生成することと、
前記第1のデータサンプルと、前記第2のデータサンプルと、前記第3のデータサンプルと、前記第4のデータサンプルに基づき、データサンプルタプルを構築することと、
前記データサンプルタプルに基づき、前記マルチモーダル表現モデルに対する微調整を行うこととを含む、請求項7に記載の方法。

【請求項10】

前記第1のデータモーダルと前記第2のデータモーダルは、テキストモーダル、画像モーダル、ビデオモーダル、オーディオモーダルのいずれか2つである、請求項1に記載の方法。

【請求項11】

コンピュータによるクロスモーダル検索方法であって、
第1のデータモーダルの検索対象を取得することと、
前記検索対象をマルチモーダル表現モデルに入力することで、前記検索対象に対応する第1の表現を取得することと、
第2のデータモーダルの複数の候補対象のそれぞれの第2の表現を取得し、前記第2の表現は、対応する候補対象を前記マルチモーダル表現モデルに入力することにより得られたことと、
前記第1の表現と各第2の表現の類似度に基づき、前記複数の候補対象から前記検索対象に適合するターゲット対象を決定することと、を含み、
前記マルチモーダル表現モデルは、請求項1に記載の方法でトレーニングすることで得られたものである、クロスモーダル検索方法。

【請求項12】

マルチモーダル表現モデルのトレーニング装置であって、前記マルチモーダル表現モデルは、第1のデータモーダルに対応する第1の表現ユニットと、第2のデータモーダルに対応する第2の表現ユニットを含み、当該トレーニング装置は、
第1の取得ユニットであって、サンプルタプルを取得するように構成され、前記サンプルタプルは、前記第1のデータモーダルの第1のサンプルと第2のサンプル、及び前記第2のデータモーダルの第3のサンプルと第4のサンプルを含み、前記サンプルタプルに含まれる各サンプルの意味は一致するものと、
第1の入力ユニットであって、前記第1のサンプルと前記第2のサンプルをそれぞれ前記第1の表現ユニットに入力することで、前記第1のサンプルの第1の表現と前記第2のサンプルの第2の表現を取得するように構成されるものと、
第2の入力ユニットであって、前記第3のサンプルと前記第4のサンプルをそれぞれ前記第2の表現ユニットに入力することで、前記第3のサンプルの第3の表現と前記第4のサンプルの第4の表現を取得するように構成されるものと、
第1の損失ユニットであって、前記第1の表現と前記第2の表現の第1の類似度、及び前記第1の表現と他のサンプルタプルの第2の表現の第2の類似度に基づき、前記第1のデータモーダルの第1のシングルモーダル損失を決定し、前記第1のシングルモーダル損失は、前記第1の類似度と負の相関を有し、且つ、前記第2の類似度と正の相関を有するように構成されるものと、
第2の損失ユニットであって、前記第3の表現と前記第4の表現の第6の類似度、及び前記第3の表現と他のサンプルタプルの第4の表現の第7の類似度に基づき、前記第2のデータモーダルの第2のシングルモーダル損失を決定し、前記第2のシングルモーダル損失は、前記第6の類似度と負の相関を有し、且つ、前記第7の類似度と正の相関を有するように構成されるものと、
第3の損失ユニットであって、第1のターゲット表現と第2のターゲット表現に基づき、前記第1のデータモーダルから前記第2のデータモーダルへの第1のクロスモーダル損失と、前記第2のデータモーダルから前記第1のデータモーダルへの第2のクロスモーダル損失を決定するように構成され、前記第1のターゲット表現は前記第1の表現と前記第2の表現のうちのいずれか1つであり、前記第2のターゲット表現は前記第3の表現と前記第4の表現のうちのいずれか1つであり、前記第1のターゲット表現と前記第2のターゲット表現の第3の類似度、及び前記第1のターゲット表現と他のサンプルタプルの第2のターゲット表現の第4の類似度に基づき、前記第1のクロスモーダル損失を決定し、前記第1のクロスモーダル損失は、前記第3の類似度と負の相関を有し、且つ、前記第4の類似度と正の相関を有し、前記第1のターゲット表現と前記第2のターゲット表現の第3の類似度、及び前記第2のターゲット表現と他のサンプルタプルの第1のターゲット表現の第5の類似度に基づき、前記第2のクロスモーダル損失を決定し、前記第2のクロスモーダル損失は、前記第3の類似度と負の相関を有し、且つ、前記第5の類似度と正の相関を有するものと、
第4の損失ユニットであって、前記第1のシングルモーダル損失と、前記第2のシングルモーダル損失と、前記第1のクロスモーダル損失と、前記第2のクロスモーダル損失に基づき、前記マルチモーダル表現モデルの全体の損失を決定するように構成されるものと、
調整ユニットであって、前記全体の損失を減少させるために、前記マルチモーダル表現モデルのパラメータを調整するように構成されるものと、を含む、
装置。

【請求項13】

第2の取得ユニットであって、生データペアを取得するように構成され、前記生データペアは、前記第1のデータモーダルの第1の生データと前記第2のデータモーダルの第2の生データを含み、前記第1の生データと前記第2の生データの意味は一致するものと、
第1の生成ユニットであって、前記第1の生データに基づき、前記第1のサンプルと前記第2のサンプルを生成するように構成されるものと、
第2の生成ユニットであって、前記第2の生データに基づき、前記第3のサンプルと前記第4のサンプルを生成するように構成されるものと、を更に含む、請求項12に記載の装置。

【請求項14】

前記第1の生成ユニットは、
第1の拡張サブユニットであって、前記第1の生データに対する第1のデータ拡張処理を行うことで、前記第1のサンプルを生成するように構成されるものと、
第2の拡張サブユニットであって、前記第1の生データに対する第2のデータ拡張処理を行うことで、前記第1のサンプルと異なる前記第2のサンプルを生成するように構成されるものと、を含む、請求項13に記載の装置。

【請求項15】

前記第1のサンプルと前記第2のサンプルは前記第1の生データと同じであり、前記第1の表現ユニットは、ランダムノイズを添加することで、前記第1の表現を前記第2の表現から異ならせるように構成される、請求項13に記載の装置。

【請求項16】

前記第1のデータモーダルはテキストモーダルであり、前記第1の表現ユニットはドロップアウト処理層を含むテキストエンコーダであり、前記ドロップアウト処理層のドロップ確率は予め設定された閾値より小さい、請求項15に記載の装置。

【請求項17】

前記全体の損失は、前記第1のシングルモーダル損失と、前記第2のシングルモーダル損失と、前記第1のクロスモーダル損失と、前記第2のクロスモーダル損失の加重和である、請求項12に記載の装置。

【請求項18】

予め設定された適用場面におけるマッチングデータペアに基づき、前記マルチモーダル表現モデルに対する微調整を行うように構成される微調整ユニットを更に含む、請求項12に記載の装置。

【請求項19】

前記マッチングデータペアはターゲットデータモーダルの第1のデータと第2のデータを含み、前記第1のデータと前記第2のデータの意味は一致し、前記微調整ユニットは更に、
前記マッチングデータペアに基づき、前記ターゲットデータモーダルに対応する表現ユニットに対する微調整を行うように構成される、請求項18に記載の装置。

【請求項20】

前記マッチングデータペアは、第1のデータモーダルの第1のデータと第2のデータモーダルの第2のデータを含み、前記第1のデータと前記第2のデータの意味は一致し、前記微調整ユニットは、
前記第1のデータに基づき、前記第1のデータモーダルの第1のデータサンプルと第2のデータサンプルを生成するように構成される第1の生成サブユニットと、
前記第2のデータに基づき、前記第2のデータモーダルの第3のデータサンプルと第4のデータサンプルを生成するように構成される第2の生成サブユニットと、
前記第1のデータサンプルと、前記第2のデータサンプルと、前記第3のデータサンプルと、前記第4のデータサンプルに基づき、データサンプルタプルを構築するように構成される第3の生成サブユニットと、
データサンプルタプルに基づき、前記マルチモーダル表現モデルに対する微調整を行うように構成される微調整サブユニットと、を含む、請求項18に記載の装置。

【請求項21】

前記第1のデータモーダルと前記第2のデータモーダルは、テキストモーダル、画像モーダル、ビデオモーダル、オーディオモーダルのいずれか2つである、請求項12に記載の装置。

【請求項22】

クロスモーダル検索装置であって、
第1の取得ユニットであって、第1のデータモーダルの検索対象を取得するように構成されるものと、
表現ユニットであって、前記検索対象をマルチモーダル表現モデルに入力することで、前記検索対象に対応する第1の表現を取得するように構成されるものと、
第2の取得ユニットであって、第2のデータモーダルの複数の候補対象のそれぞれの第2の表現を取得するように構成され、前記第2の表現は、対応する候補対象を前記マルチモーダル表現モデルに入力することにより得られたものと、
決定ユニットであって、前記第1の表現と各第2の表現の類似度に基づき、前記複数の候補対象から前記検索対象に適合するターゲット対象を決定するように構成されるものと、を含み、
前記マルチモーダル表現モデルは、請求項12に記載の装置でトレーニングすることで得られたものである、クロスモーダル検索装置。

【請求項23】

電子機器であって、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信接続されたメモリとを含み、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサに請求項1乃至10のうちのいずれか一項に記載の方法を実行させる、電子機器。

【請求項24】

電子機器であって、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信接続されたメモリとを含み、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサに請求項11に記載の方法を実行させる、電子機器。

【請求項25】

コンピュータに請求項1乃至10のうちのいずれか一項に記載の方法を実行させるためのコンピュータ命令が記憶された非一時的コンピュータ可読記憶媒体。

【請求項26】

コンピュータに請求項11に記載の方法を実行させるためのコンピュータ命令が記憶された非一時的コンピュータ可読記憶媒体。

【請求項27】

プロセッサによって実行されると、請求項1乃至10のうちのいずれか一項に記載の方法を前記プロセッサに実行させるコンピュータプログラム。

【請求項28】

プロセッサによって実行されると、請求項11に記載の方法を前記プロセッサに実行させるコンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、人工知能技術分野に関し、特に、深層学習やスマート検索技術分野に関し、具体的には、マルチモーダル表現モデルのトレーニング方法及び装置、クロスモーダル検索方法及び装置、電子機器、コンピュータ可読記憶媒体、及びコンピュータプログラム製品に関する。

【背景技術】

【0002】

データモーダルとは、データの存在形態、例えば、テキスト、画像、ビデオ、オーディオなどである。同じ対象又はイベントは、異なるモーダルのデータで示すことができる。換言すると、異なるモーダルのデータは同一又は類似の意味を有してもよい。

【0003】

この部分で説明される方法は、必ずしも以前に想定される方法又は採用される方法ではない。特に断りのない限り、この部分に記載されているいずれの方法は、この部分に含まれるだけで従来技術であると考えられるべきではない。同様に、特に断りのない限り、この部分で言及されている課題は、従来の技術で承認されたものであると考えるべきではない。

【発明の概要】

【0004】

本開示は、マルチモーダル表現モデルのトレーニング方法及び装置、クロスモーダル検索方法と装置、電子機器、コンピュータ可読記憶媒体、及びコンピュータプログラム製品を提供する。

【0005】

本開示の一態様によれば、マルチモーダル表現モデルのトレーニング方法を提供し、前記マルチモーダル表現モデルは、第１のデータモーダルに対応する第１の表現モジュールと、第２のデータモーダルに対応する第２の表現モジュールを含み、前記方法は、サンプルタプルを取得し、前記サンプルタプルは、前記第１のデータモーダルの第１のサンプルと第２のサンプル、及び前記第２のデータモーダルの第３のサンプルと第４のサンプルを含み、前記サンプルタプルに含まれる各サンプルの意味はマッチングすることと、前記第１のサンプルと前記第２のサンプルをそれぞれ前記第１の表現モジュールに入力することで、前記第１のサンプルの第１の表現と前記第２のサンプルの第２の表現を取得することと、前記第３のサンプルと前記第４のサンプルをそれぞれ前記第２の表現モジュールに入力することで、前記第３のサンプルの第３の表現と前記第４のサンプルの第４の表現を取得することと、前記第１の表現と前記第２の表現に基づき、前記第１のデータモーダルの第１のシングルモーダル損失を決定することと、前記第３の表現と前記第４の表現に基づき、前記第２のデータモーダルの第２のシングルモーダル損失を決定することと、第１のターゲット表現と第２のターゲット表現に基づき、前記第１のデータモーダルから前記第２のデータモーダルへの第１のクロスモーダル損失と、前記第２のデータモーダルから前記第１のデータモーダルへの第２のクロスモーダル損失を決定し、前記第１のターゲット表現は前記第１の表現と前記第２の表現のうちのいずれか１つであり、前記第２のターゲット表現は前記第３の表現と前記第４の表現のうちのいずれか１つであることと、前記第１のシングルモーダル損失と、前記第２のシングルモーダル損失と、前記第１のクロスモーダル損失と、前記第２のクロスモーダル損失に基づき、前記マルチモーダル表現モデルの全体の損失を決定することと、前記全体の損失に基づき、前記マルチモーダル表現モデルのパラメータを調整することと、を含む。

【0006】

本開示の一態様によれば、クロスモーダル検索方法を提供し、第１のデータモーダルの検索対象を取得することと、前記検索対象をマルチモーダル表現モデルに入力することで、前記検索対象に対応する第１の表現を取得することと、第２のデータモーダルの複数の候補対象のそれぞれの第２の表現を取得し、前記第２の表現は、対応する候補対象を前記マルチモーダル表現モデルに入力することにより得られたことと、前記第１の表現と各第２の表現の類似度に基づき、前記複数の候補対象から前記検索対象にマッチングするターゲット対象を決定し、前記マルチモーダル表現モデルは、上記マルチモーダル表現モデルに基づくトレーニング方法でトレーニングすることで得られたことと、を含む。

【0007】

本開示の一態様によれば、マルチモーダル表現モデルのトレーニング装置を提供し、前記マルチモーダル表現モデルは、第１のデータモーダルに対応する第１の表現ユニットと、第２のデータモーダルに対応する第２の表現ユニットを含み、前記装置は、第１の取得ユニットであって、サンプルタプルを取得するように構成され、前記サンプルタプルは、前記第１のデータモーダルの第１のサンプルと第２のサンプル、及び前記第２のデータモーダルの第３のサンプルと第４のサンプルを含み、前記サンプルタプルに含まれる各サンプルの意味はマッチングするものと、第１の入力ユニットであって、前記第１のサンプルと前記第２のサンプルをそれぞれ前記第１の表現ユニットに入力することで、前記第１のサンプルの第１の表現と前記第２のサンプルの第２の表現を取得するように構成されるものと、第２の入力ユニットであって、前記第３のサンプルと前記第４のサンプルをそれぞれ前記第２の表現ユニットに入力することで、前記第３のサンプルの第３の表現と前記第４のサンプルの第４の表現を取得するように構成されるものと、第１の損失ユニットであって、前記第１の表現と前記第２の表現に基づき、前記第１のデータモーダルの第１のシングルモーダル損失を決定するように構成されるものと、第２の損失ユニットであって、前記第３の表現と前記第４の表現に基づき、前記第２のデータモーダルの第２のシングルモーダル損失を決定するように構成されるものと、第３の損失ユニットであって、第１のターゲット表現と第２のターゲット表現に基づき、前記第１のデータモーダルから前記第２のデータモーダルへの第１のクロスモーダル損失と、前記第２のデータモーダルから前記第１のデータモーダルへの第２のクロスモーダル損失を決定するように構成され、前記第１のターゲット表現は前記第１の表現と前記第２の表現のうちのいずれか１つであり、前記第２のターゲット表現は前記第３の表現と前記第４の表現のうちのいずれか１つであるものと、第４の損失ユニットであって、前記第１のシングルモーダル損失と、前記第２のシングルモーダル損失と、前記第１のクロスモーダル損失と、前記第２のクロスモーダル損失に基づき、前記マルチモーダル表現モデルの全体の損失を決定するように構成されるものと、調整ユニットであって、前記全体の損失に基づき、前記マルチモーダル表現モデルのパラメータを調整するように構成されるものと、を含む。

【0008】

本開示の一態様によれば、クロスモーダル検索装置を提供し、前記装置は、第１の取得ユニットであって、第１のデータモーダルの検索対象を取得するように構成されるものと、表現ユニットであって、前記検索対象をマルチモーダル表現モデルに入力することで、前記検索対象に対応する第１の表現を取得するように構成されるものと、第２の取得ユニットであって、第２のデータモーダルの複数の候補対象のそれぞれの第２の表現を取得するように構成され、前記第２の表現は、対応する候補対象を前記マルチモーダル表現モデルに入力することにより得られたものと、決定ユニットであって、前記第１の表現と各第２の表現の類似度に基づき、前記複数の候補対象から前記検索対象にマッチングするターゲット対象を決定するように構成され、前記マルチモーダル表現モデルは、上記マルチモーダル表現モデルに基づくトレーニング装置でトレーニングすることで得られたものと、を含む。

【0009】

本開示の一態様によれば、電子機器を提供する。該電子機器は、少なくとも１つのプロセッサと、上記少なくとも１つのプロセッサに通信接続されたメモリとを含み、該メモリには、上記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、該命令は、上記少なくとも１つのプロセッサによって実行されることにより、上記少なくとも１つのプロセッサに上記のいずれか１つの方法を実行させる。

【0010】

本開示の一態様によれば、上記のいずれか１つの方法をコンピュータに実行させるためのコンピュータ命令が記憶された非一時的コンピュータ可読記憶媒体を提供する。

【0011】

本開示の一態様によれば、プロセッサによって実行されると、上記のいずれか１つの方法を実現するコンピュータプログラムを含むコンピュータプログラム製品を提供する。

【0012】

本開示の一又は複数の実施例によれば、マルチモーダル表現モデルがモーダル内とモーダル間の意味関連性を同時に学習するようにガイドすることができ、マルチモーダル表現モデルの汎化性とロバスト性を向上させ、これによって、マルチモーダル表現モデルは異なるモーダルデータの統一の意味表現を生成することができる。

【0013】

理解すべきこととして、この部分に説明される内容は、本開示の実施例の要点又は重要な特徴を識別することを意図しておらず、本開示の保護範囲を限定するためのものではない。本開示の他の特徴は、以下の明細書によって容易に理解されるであろう。

【図面の簡単な説明】

【0014】

図面は、実施例を例示的に示し、明細書の一部を構成し、明細書の文字による説明とともに、実施例の例示的な実施形態を説明するために用いられる。図示の実施例は例示的目的のみであり、特許請求の範囲を限定するものではない。全ての図面において、同一の符号は、類似しているが、必ずしも同じとは限らない要素を指す。

【図1】本開示のいくつかの実施例によるマルチモーダル表現モデルのトレーニング方法を示すフローチャートである。

【図2】本開示のいくつかの実施例によるマルチモーダル表現モデルを示す構成ブロック図である。

【図3】本開示のいくつかの実施例によるマルチモーダル表現モデルのトレーニング過程を示す概略図である。

【図4】本開示のいくつかの実施例によるクロスモーダル検索方法を示すフローチャートである。

【図5】本開示の実施例によるマルチモーダル表現モデルの画像やテキストに関するクロスモーダル検索効果を示す概略図である。

【図6】本開示のいくつかの実施例によるクロスモーダル推論方法を示すフローチャートである。

【図7】本開示のいくつかの実施例によるマルチモーダル表現モデルのトレーニング装置を示す構成ブロック図である。

【図8】本開示のいくつかの実施例によるクロスモーダル検索装置を示す構成ブロック図である。

【図9】本開示のいくつかの実施例によるクロスモーダル推論装置を示す構成ブロック図である。

【図10】本開示のいくつかの実施例を実現できる例示的な電子機器を示す構成ブロック図である。

【発明を実施するための形態】

【0015】

以下、図面に合わせて本開示の例示的な実施例を説明して、それに含まれる本開示の実施例における様々な詳細が理解を助けるため、それらは単なる例示的なものと考えられるべきである。従って、当業者であれば、本開示の範囲及び精神から逸脱することなく、本明細書で説明された実施例に対して様々な変更及び修正を行うことができることを認識すべきである。同様に、明瞭と簡潔のために、以下の説明では公知の機能及び構造についての説明を省略している。

【0016】

本開示では、特に明記しない限り、様々な要素を説明するための「第１」、「第２」などの用語の使用は、これらの要素の位置関係、タイミング関係、又は重要性関係を限定することを意図していない。このような用語は、ある要素を別の要素と区別するためにのみ使用される。いくつかの例では、第一要素と第二要素は、要素の同じ例を指してもよく、場合によっては、コンテキストの説明に基づいて、異なる例を指してもよい。

【0017】

本開示の様々な例の説明で使用される用語は、特定の例を説明することのみを目的としており、限定することを意図していない。コンテキストで別途に明確に示されていない限り、特に要素の数を限定しないなら、要素は一つであってもよいし、複数であってもよい。なお、本開示で使用される用語「及び／又は」は、リストされた項目のいずれか及び可能な全ての組み合わせをカバーする。

【0018】

いくつかの場面において、ユーザはクロスモーダルデータ処理のニーズを有する可能性がある。例えば、ユーザはクロスモーダル検索を実行するニーズを有する可能性がある。クロスモーダル検索とは、入力データのモーダルは取得されたデータのモーダルと異なる検索場面である。例えば、画像やテキストに関するクロスモーダル検索場面において、ユーザは検索テキスト「犬」を入力し、画面に犬を含む画像を取得することが望まれている。

【0019】

関連技術において、マルチモーダル意味表現モデル（下記内容では「マルチモーダル表現モデル」と略称する）を用いてもよく、異なるモーダルのデータを同一の意味空間中の意味表現に変換して（下記内容では「表現」と略称する）、その後、当該表現に基づいてクロスモーダル検索、クロスモーダル推論（例えば、視覚推論、ＶｉｓｕａｌＥｎｔａｉｌｍｅｎｔ）などのクロスモーダルデータ処理タスクを実行する。しかし、関連技術におけるマルチモーダル表現モデルの汎化性とロバスト性が低く、マルチモーダルデータの統一表現が生成しにくい。

【0020】

上記問題に対し、本開示の実施例は、マルチモーダル表現モデルのトレーニング方法を提供し、マルチモーダル表現モデルの汎化性とロバスト性を向上させ、これによって、マルチモーダル表現モデルは、マルチモーダルデータの統一表現を生成することができる。

【0021】

以下、図面を参照して本開示の実施例について詳細に説明する。

【0022】

図１は、本開示の実施例によるマルチモーダル表現モデルのトレーニング方法１００を示すフローチャートである。方法１００は、サーバで実行されてもよいし、クライアントデバイスで実行されてもよい。すなわち、方法１００の各ステップの実行主体はサーバであってもよく、クライアントデバイスであってもよい。

【0023】

本開示の実施例では、マルチモーダル表現モデルは、第１のデータモーダルに対応する第１の表現モジュールと、第２のデータモーダルに対応する第２の表現モジュールを含む。

【0024】

図１に示すように、方法１００は、ステップＳ１１０～ステップＳ１８０を含む。

【0025】

ステップＳ１１０において、サンプルタプルを取得し、サンプルタプルは、第１のデータモーダルの第１のサンプルと第２のサンプル、及び第２のデータモーダルの第３のサンプルと第４のサンプルを含み、ここで、サンプルタプルに含まれる各サンプルの意味はマッチングする。

【0026】

ステップＳ１２０において、第１のサンプルと第２のサンプルをそれぞれ第１の表現モジュールに入力することで、第１のサンプルの第１の表現と第２のサンプルの第２の表現を取得する。

【0027】

ステップＳ１３０において、第３のサンプルと第４のサンプルをそれぞれ第２の表現モジュールに入力することで、第３のサンプルの第３の表現と第４のサンプルの第４の表現を取得する。

【0028】

ステップＳ１４０において、第１の表現と第２の表現に基づき、第１のデータモーダルの第１のシングルモーダル損失を決定する。

【0029】

ステップＳ１５０において、第３の表現と第４の表現に基づき、第２のデータモーダルの第２のシングルモーダル損失を決定する。

【0030】

ステップＳ１６０において、第１のターゲット表現と第２のターゲット表現に基づき、第１のデータモーダルから第２のデータモーダルへの第１のクロスモーダル損失と、第２のデータモーダルから第１のデータモーダルへの第２のクロスモーダル損失を決定し、ここで、第１のターゲット表現は第１の表現と第２の表現のうちのいずれか１つであり、第２のターゲット表現は第３の表現と第４の表現のうちのいずれか１つである。

【0031】

ステップＳ１７０において、第１のシングルモーダル損失と、第２のシングルモーダル損失と、第１のクロスモーダル損失と、第２のクロスモーダル損失に基づき、マルチモーダル表現モデルの全体の損失を決定する。

【0032】

ステップＳ１８０において、全体の損失に基づき、マルチモーダル表現モデルのパラメータを調整する。

【0033】

本開示の実施例によれば、サンプルタプルを用いてマルチモーダル表現モデルをトレーニングし、サンプルタプルは各種データモーダルの２つのサンプルを含み、サンプルタプルにおける各サンプルの意味はマッチングする。上記サンプルタプルに基づき、トレーニング過程において、各データモーダルのシングルモーダル損失を算出するのみならず、また異なるモーダルの間のクロスモーダル損失を算出することによって、マルチモーダル表現モデルがモーダル内とモーダル間の意味関連性を同時に学習するようにガイドすることができ、モデルの汎化性とロバスト性を向上させ、これによって、モデルはマルチモーダルデータの統一表現を生成することができる。

【0034】

一般的には、様々な適用場面における大量のサンプルタプルに基づき、マルチモーダル表現モデルをトレーニングすることができ、従って、トレーニングされたマルチモーダル表現モデルは複数の適用場面に適用可能であるが、特定の下流側タスクに対応しない予備トレーニングモデルである。

【0035】

データモーダルとは、データの物理的な存在形態、例えば、テキスト、画像、ビデオ、オーディオなどである。本開示の実施例のマルチモーダル表現モデルは、複数の（２種類及び２種類以上）データモーダルに関し、そのトレーニングサンプル（すなわち、サンプルタプル）は複数のデータモーダルのデータを含む。本開示の実施例では、マルチモーダルデータを含むサンプルタプルを処理することによって、複数のデータモーダルの間の意味関連性を学習し、予備トレーニングされたマルチモーダル表現モデルを生成することができる。従って、本開示の実施例のマルチモーダル表現モデルのトレーニング方法はマルチモーダルデータを処理するために用いられるデータ処理方法である。

【0036】

例えば、マルチモーダル表現モデルは、画像モーダルとテキストモーダルに関する場合、そのサンプルタプルは画像データとテキストデータを含み、マルチモーダル表現モデルのトレーニング方法は画像処理方法であるのみならず、また自然言語処理方法である。マルチモーダル表現モデルは、画像モーダルとオーディオモーダルに関する場合、そのサンプルタプルは画像データとオーディオデータを含み、マルチモーダル表現モデルのトレーニング方法は画像処理方法であるのみならず、またオーディオ処理方法である。

【0037】

【0038】

説明すべきことは、本明細書において、２種類のデータモーダルの表現モジュールのみを含むマルチモーダル表現モデルを例として、本開示の実施例のマルチモーダル表現モデルのトレーニング方法を説明することである。当業者が理解すべきことは、本開示の実施例のマルチモーダル表現モデルのトレーニング方法はマルチモーダル表現モデルが３種類及びその以上のデータモーダルの表現モジュールを含む状況にも適用されることである。

【0039】

本開示の実施例では、第１のデータモーダルと第２のデータモーダルはいずれか２つの異なるデータモーダルである。

【0040】

いくつかの実施例によれば、第１のデータモーダルと第２のデータモーダルはテキストモーダル、画像モーダル、ビデオモーダル、オーディオモーダルのうちのいずれか２つであってもよい。例えば、第１のデータモーダルはテキストモーダル（又は画像モーダル）であってもよく、第２のデータモーダルは画像モーダル（又はテキストモーダル）であってもよい。

【0041】

別の実施例では、第１のデータモーダル又は第２のデータモーダルは工業シーンにおけるデータモーダル、例えば、電気信号、赤外線信号、センサデータなどであってもよい。

【0042】

第１の表現モジュールは第１のデータモーダルのデータを符号化する（又は符号化と復号化を行う）ことで、当該データの表現を生成するために用いられる。第２の表現モジュールは第２のデータモーダルのデータを符号化する（又は符号化と復号化を行う）ことで、当該データの表現を生成するために用いられる。本開示の実施例では、データの表現はベクトル、行列、バイナリコードなどの任意の形態であってもよい。

【0043】

いくつかの実施例によれば、第１の表現モジュールと第２の表現モジュールは、相互に独立した２つのモジュールであってもよく、対応するデータモーダルのデータの表現を生成する時、相手からの影響を受けない。例えば、図２に示すような実施例では、マルチモーダル表現モデル２００は第１の表現モジュール２１０と第２の表現モジュール２２０を含み、第１の表現モジュール２１０と第２の表現モジュール２２０は相互に独立する。

【0044】

別の実施例によれば、第１の表現モジュールと第２の表現モジュールはインタラクション関係を有する２つのモジュールであってもよく、対応するデータモーダルのデータの表現を生成する時、相手からの影響を受ける。例えば、第１の表現モジュールと第２の表現モジュールはクロスアテンションメカニズムを介してインタラクションを実現することができる。

【0045】

第１の表現モジュールと第２の表現モジュールはあらゆる構造で実現してもよく、第１の表現モジュールと第２の表現モジュールの構造は異なってもよい。例えば、第１の表現モジュールと第２の表現モジュールは構造が異なるニューラルネットワーク、例えば、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ、ＣＮＮ）、変換器（Ｔｒａｎｓｆｏｒｍｅｒ）、エンコーダ（Ｅｎｃｏｄｅｒ）、エンコーダ－デコーダ（Ｅｎｃｏｄｅｒ－ｄｅｃｏｄｅｒ）などで実現してもよい。

【0046】

いくつかの実施例によれば、マルチモーダル表現モデルのトレーニング効率を向上させるために、第１の表現モジュールと第２の表現モジュールは対応するデータモーダルの予備トレーニングモデルを用いてもよい。例えば、第１のデータモーダルはテキストであってもよく、従って、第１の表現モジュールは予備トレーニングされたテキスト表現モデル、例えば、ＥＲＮＩＥ（文心モデル）、ＢＥＲＴ（ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｒｏｍＴｒａｎｓｆｏｒｍｅｒｓ）などを用いてもよい。第２のデータモーダルは画像であってもよく、従って、第２の表現モジュールは予備トレーニングされた視覚表現モデル、例えば、ＶｉＴ（ＶｉｓｉｏｎＴｒａｎｓｆｏｒｍｅｒ）、ＤｅｉＴ（Ｄａｔａ－ｅｆｆｉｃｉｅｎｔｉｍａｇｅＴｒａｎｓｆｏｒｍｅｒｓ）などを用いてもよい。

【0047】

本開示の実施例では、サンプルタプルを用いてマルチモーダル表現モデルをトレーニングする。各サンプルタプルは、第１のデータモーダルの第１のサンプルと第２のサンプル、及び第２のデータモーダルの第３のサンプルと第４のサンプルを含む。第１のサンプルと、第２のサンプルと、第３のサンプルと、第４のサンプルの意味はマッチングする。

【0048】

いくつかの実施例によれば、サンプルタプルは意味がマッチングする生データペアに基づいて生成されたものであってもよい。すなわち、本開示の実施例のトレーニング方法１００は更に、以下のサンプルタプルを生成するためのステップを含んでもよい。生データペアを取得し、生データペアは、第１のデータモーダルの第１の生データと第２のデータモーダルの第２の生データを含み、第１の生データと第２の生データの意味はマッチングする。例えば、第１の生データは画像であってもよく、第２の生データは当該画像を説明するテキストであってもよい。その後、第１の生データに基づき、第１のサンプルと第２のサンプルを生成することができる。第２の生データに基づき、第３のサンプルと第４のサンプルを生成する。

【0049】

上記実施例によれば、クロスモーダルの意味がマッチングする生データペアに基づき、サンプルタプルを自動的に生成することができ、追加のデータアノテーション処理を行う必要はなく、これによって、トレーニングサンプル（すなわち、サンプルタプル）を取得する効率を向上させる。

【0050】

理解すべきことは、上記実施例に基づいてサンプルタプルを生成する過程に、生データに対する処理は生データの意味を変えることがなく（又は僅かに変える）、すなわち、生成された第１のサンプルと第２のサンプルの意味は第１の生データとほぼ同じであり、生成された第３のサンプルと第４のサンプルの意味は第２の生データとほぼ同じであることである。第１の生データと第２の生データの意味はマッチングするため、生成された第１のサンプルと、第２のサンプルと、第３のサンプルと第４のサンプルという四つのものの意味も相互にマッチングする。

【0051】

いくつかの実施例によれば、上記「第１の生データに基づき、第１のサンプルと第２のサンプルを生成する」というステップは、第１の生データに対する第１のデータ拡張処理を行うことで、第１のサンプルを生成することと、第１の生データに対する第２のデータ拡張処理を行うことで、第１のサンプルと異なる第２のサンプルを生成することと、を含む。

【0052】

データ拡張（ＤａｔａＡｕｇｍｅｎｔａｔｉｏｎ）処理とは、生データ（例えば、第１の生データ）の意味が変化しないように保証するという前提で、生データを処理することで、生データの意味と同様な新しいデータ（例えば、第１のサンプルと第２のサンプル）を生成することである。

【0053】

第１のデータ拡張処理と第２のデータ拡張処理の具体的な処理方式は、第１の生データのモーダル、すなわち、第１のデータモーダルに基づいて決定されるものである。例えば、第１のデータモーダルは画像である場合、第１のデータ拡張処理と第２のデータ拡張処理はランダムノイズの添加、回転、トリミング、遮蔽、変色などの処理であってもよい。第１のデータモーダルはテキストである場合、第１のデータ拡張処理と第２のデータ拡張処理は同義語の入れ替え、ランダム挿入、ランダム交換、ランダム削除、逆翻訳（ｂａｃｋ－ｔｒａｎｓｌａｔｉｏｎ、機械翻訳モデルを用いて原文を他の言語のテキストに翻訳した後、更に、機械翻訳モデルを用いて元の言語に逆翻訳する）などの処理であってもよい。第１のデータモーダルはオーディオである場合、第１のデータ拡張処理と第２のデータ拡張処理はランダムノイズ添加、音速変更、音量変更などの処理であってもよい。

【0054】

第１のデータ拡張処理は、第２のデータ拡張処理と同様なデータ拡張方式であってもよく、異なるデータ拡張方式であってもよいが、第１のデータ拡張処理と第２のデータ拡張処理は、生成された第１のサンプルを第２のサンプルから異ならせるべきであり、これによって、後続に生成された第１の表現を第２の表現から異ならせ、よってマルチモーダル表現モデルの学習効果を向上させる。

【0055】

別の実施例によれば、第１のサンプルと第２のサンプルはいずれも第１の生データと同じで、第１の表現モジュールはランダムノイズを添加することで、生成された第１の表現を第２の表現から異ならせるように構成される。第１の表現モジュールは、例えば、ランダムノイズを添加するニューラルネットワークモデルであることを実現することができる。

【0056】

例えば、第１のデータモーダルはテキストモーダルであってもよく、第１の表現モジュールはｄｒｏｐｏｕｔ処理層を含むテキストエンコーダであってもよい。当該ｄｒｏｐｏｕｔ処理層のドロップ確率は予め設定された閾値（例えば、２０％）より小さく、これによって、第１の表現モジュールはその入力データの意味を変えることがないように保証する。

【0057】

「第２の生データに基づき、第３のサンプルと第４のサンプルを生成する」の実行ステップは上記「第１の生データに基づき、第１のサンプルと第２のサンプルを生成する」の実行ステップに類似する。

【0058】

具体的には、いくつかの実施例によれば、「第２の生データに基づき、第３のサンプルと第４のサンプルを生成する」ことは、第２の生データに対する第３のデータ拡張処理を行うことで、第３のサンプルを生成することと、第２の生データに対する第４のデータ拡張処理を行うことで、第４のサンプルを生成することと、を含んでもよい。第３のサンプルは第４のサンプルと異なることによって、後続に生成された第３の表現と第４の表現は異なり、よってマルチモーダル表現モデルの学習効果を向上させる。

【0059】

別の実施例によれば、第３のサンプルと第４のサンプルは第２の生データと同じで、第２の表現モジュールはランダムノイズを添加することで、第３の表現を第４の表現から異ならせるように構成される。第２のデータモーダルは例えば、テキストモーダルであってもよく、第２の表現モジュールはｄｒｏｐｏｕｔ処理層を含むテキストエンコーダであってもよい。当該ｄｒｏｐｏｕｔ処理層のドロップ確率は予め設定された閾値（例えば、２０％）より小さく、これによって、第１の表現モジュールはその入力データの意味を変えることがないように保証する。

【0060】

「第２の生データに基づき、第３のサンプルと第４のサンプルを生成する」の他の詳細は上記内容「第１の生データに基づき、第１のサンプルと第２のサンプルを生成する」に関する説明を参照してもよく、ここで詳細な説明を省略する。

【0061】

第１のサンプルと第２のサンプルをそれぞれ第１の表現モジュールに入力し、第３のサンプルと第４のサンプルをそれぞれ第２の表現モジュールに入力し、対応する第１の表現、第２の表現、第３の表現、第４の表現という４つの表現を取得することができる。

【0062】

第１の表現と第２の表現に基づき、第１のデータモーダルの第１のシングルモーダル損失を算出することができる。第３の表現と第４の表現に基づき、第２のデータモーダルの第２のシングルモーダル損失を算出することができる。第１のターゲット表現と第２のターゲット表現に基づき、第１のデータモーダルから第２のデータモーダルへの第１のクロスモーダル損失と、第２のデータモーダルから第１のデータモーダルへの第２のクロスモーダル損失を算出することができる。ここで、第１のターゲット表現は第１の表現と第２の表現のうちのいずれか１つであり、第２のターゲット表現は第３の表現と第４の表現のうちのいずれか１つである。

【0063】

いくつかの実施例によれば、第１のシングルモーダル損失は以下のステップによって決定することができる。第１の表現と第２の表現の第１の類似度、及び第１の表現と他のサンプルタプルの第２の表現の第２の類似度に基づき、第１のシングルモーダル損失を決定し、ここで、第１のシングルモーダル損失は、第１の類似度と負の相関を有し、且つ、第２の類似度と正の相関を有する。第１の類似度、第２の類似度は例えば、２つの表現のドット積であってもよい。

【0064】

上記実施例によれば、第１のシングルモーダル損失は、意味がマッチングする２つのデータ（すなわち、第１のサンプルと第２のサンプル）の表現（すなわち、第１の表現と第２の表現）を類似させることができ、意味が合致しない２つのデータ（すなわち、第１のサンプルと他のサンプルタプルの第２のサンプル）の表現（すなわち、第１の表現と他のサンプルタプルの第２の表現）を類似させないことによって、マルチモーダル表現モデルが第１のデータモーダルにおける意味関連性を学習するようにガイドする。

【0065】

具体的には、第１のシングルモーダル損失は下記式（１）によって算出することができる。

【数1】

【0066】

式（１）において、Ｌ_１は第１のシングルモーダル損失を示し、Ｎは、バッチ毎に、トレーニングに参与するサンプルタプルの数を示し（すなわち、ｂａｔｃｈｓｉｚｅ）、ｈ₁ ⁱ、ｈ₂ ⁱは第ｉの個のサンプルタプルの第１の表現、第２の表現をそれぞれ示し、ｈ₂ ^jは第ｊの個のサンプルタプルの第２の表現を示し、τはトレーニング可能なパラメータである。

【0067】

いくつかの実施例によれば、第２のシングルモーダル損失は以下のステップによって決定することができる。第３の表現と第４の表現の第６の類似度、及び第３の表現と他のサンプルタプルの第４の表現の第７の類似度に基づき、第２のシングルモーダル損失を決定し、ここで、第２のシングルモーダル損失は、第６の類似度と負の相関を有し、且つ、第７の類似度と正の相関を有する。第６の類似度、第７の類似度は例えば、２つの表現のドット積であってもよい。

【0068】

上記実施例によれば、第２のシングルモーダル損失は、意味がマッチングする２つのデータ（すなわち、第３のサンプルと第４のサンプル）の表現（すなわち、第３の表現と第４の表現）を類似させることができ、意味が合致しない２つのデータ（すなわち、第３のサンプルと他のサンプルタプルの第４のサンプル）の表現（すなわち、第３の表現と他のサンプルタプルの第４の表現）を類似させないことによって、マルチモーダル表現モデルが第２のデータモーダルにおける意味関連性を学習するようにガイドする。

【0069】

具体的には、第２のシングルモーダル損失は下記式（２）によって算出することができる。

【数2】

【0070】

式（２）において、Ｌ_２は第２のシングルモーダル損失を示し、Ｎは、バッチ毎に、トレーニングに参与するサンプルタプルの数を示し（すなわち、ｂａｔｃｈｓｉｚｅ）、ｈ₃ ⁱ、ｈ₄ ⁱは第ｉの個のサンプルタプルの第３の表現、第４の表現をそれぞれ示し、ｈ₄ ^jは第ｊの個のサンプルタプルの第４の表現を示し、τはトレーニング可能なパラメータである。

【0071】

いくつかの実施例によれば、第１のクロスモーダル損失は以下のステップによって決定することができる。第１のターゲット表現と第２のターゲット表現の第３の類似度、及び第１のターゲット表現と他のサンプルタプルの第２のターゲット表現の第４の類似度に基づき、第１のクロスモーダル損失を決定し、ここで、第１のクロスモーダル損失は、第３の類似度と負の相関を有し、且つ、第４の類似度と正の相関を有する。第３の類似度、第４の類似度は例えば、２つの表現のドット積であってもよい。

【0072】

上記実施例によれば、第１のクロスモーダル損失は、意味がマッチングする２つのデータの表現（すなわち、第１のターゲット表現と第２のターゲット表現）を類似させることができ、意味が合致しない２つのデータの表現（すなわち、第１のターゲット表現と他のサンプルタプルの第２のターゲット表現）を類似させないことによって、マルチモーダル表現モデルが第１のデータモーダルから第２のデータモーダルに至るクロスモーダルの意味関連性を学習するようにガイドする。

【0073】

具体的には、第１のターゲット表現は第２の表現で、第２のターゲット表現は第３の表現であることを例とし、第１のクロスモーダル損失は下記式（３）によって算出することができる。

【数3】

【0074】

式（３）において、Ｌ_３は第１のクロスモーダル損失を示し、Ｎは、バッチ毎に、トレーニングに参与するサンプルタプルの数を示し（すなわち、ｂａｔｃｈｓｉｚｅ）、ｈ₂ ⁱ、ｈ₃ ⁱは第ｉの個のサンプルタプルの第２の表現（すなわち、第１のターゲット表現）、第３の表現（すなわち、第２のターゲット表現）をそれぞれ示し、ｈ₃ ^jは第ｊの個のサンプルタプルの第３の表現（すなわち、第２のターゲット表現）を示し、τはトレーニング可能なパラメータである。

【0075】

いくつかの実施例によれば、第２のクロスモーダル損失は以下のステップによって決定することができる。第１のターゲット表現と第２のターゲット表現の第３の類似度、及び第２のターゲット表現と他のサンプルタプルの第１のターゲット表現の第５の類似度に基づき、第２のクロスモーダル損失を決定し、ここで、第２のクロスモーダル損失は、第３の類似度と負の相関を有し、且つ、第５の類似度と正の相関を有する。第３の類似度、第５の類似度は例えば、２つの表現のドット積であってもよい。

【0076】

上記実施例によれば、第２のクロスモーダル損失は、意味がマッチングする２つのデータの表現（すなわち、第１のターゲット表現と第２のターゲット表現）を類似させることができ、意味が合致しない２つのデータの表現（すなわち、第２のターゲット表現と他のサンプルタプルの第１のターゲット表現）を類似させないことによって、マルチモーダル表現モデルが第２のデータモーダルから第１のデータモーダルへのクロスモーダルの意味関連性を学習するようにガイドする。

【0077】

具体的には、第１のターゲット表現は第２の表現で、第２のターゲット表現は第３の表現であることを例とし、第２のクロスモーダル損失は下記式（４）によって算出することができる。

【数4】

【0078】

式（４）において、Ｌ_４は第２のクロスモーダル損失を示し、Ｎは、バッチ毎に、トレーニングに参与するサンプルタプルの数を示し（すなわち、ｂａｔｃｈｓｉｚｅ）、ｈ₂ ⁱ、ｈ₃ ⁱは第ｉの個のサンプルタプルの第２の表現（すなわち、第１のターゲット表現）、第３の表現（すなわち、第２のターゲット表現）をそれぞれ示し、ｈ₂ ^jは第ｊの個のサンプルタプルの第２の表現（すなわち、第１のターゲット表現）を示し、τはトレーニング可能なパラメータである。

【0079】

第１のシングルモーダル損失Ｌ_１と、第２のシングルモーダル損失Ｌ_２と、第１のクロスモーダル損失Ｌ_３と、第２のクロスモーダル損失Ｌ_４に基づき、マルチモーダル表現モデルの全体の損失Ｌを決定することができる。

【0080】

いくつかの実施例によれば、マルチモーダル表現モデルの全体の損失Ｌは、第１のシングルモーダル損失Ｌ_１と、第２のシングルモーダル損失Ｌ_２と、第１のクロスモーダル損失Ｌ_３と、第２のクロスモーダル損失Ｌ_４の加重和であり、すなわち、

【数5】

【0081】

式（５）において、ｗ_ｉは第ｉの個の損失Ｌ_ｉの比重である。ｗ_ｉの値を柔軟に設定することによって、マルチモーダル表現モデルの学習方向を柔軟に調整することができ、マルチモーダル表現モデルと実際的応用場面の適合性を向上させる。

【0082】

マルチモーダル表現モデルの全体の損失を決定した後、当該全体の損失に基づき、マルチモーダル表現モデルのパラメータを調整することができる。

【0083】

理解すべきことは、上記ステップＳ１１０～ステップＳ１８０は、所定の終了条件（例えば、全体の損失は予定値より小さく、繰り返し回数は所定の最大繰り返し回数に達するなど）を満たす時まで繰り返して複数回実行してもよく、モデルのトレーニング過程を終了して、予備トレーニングされたマルチモーダル表現モデルを取得することである。

【0084】

前記のように、第１のデータモーダルと第２のデータモーダルはテキストモーダル、画像モーダル、ビデオモーダル、オーディオモーダルのうちのいずれか２つであってもよい。

【0085】

例えば、第１のデータモーダルは画像モーダルであってもよく、第２のデータモーダルはテキストモーダルであってもよい。従って、マルチモーダル表現モデルは画像やテキストのマルチモーダル表現モデルであり、当該画像やテキストのマルチモーダル表現モデルは画像モーダルに対応する画像表現モジュール（すなわち、第１の表現モジュール）とテキストモーダルに対応するテキスト表現モジュール（すなわち、第２の表現モジュール）を含み、画像やテキストのマルチモーダル表現モデルのトレーニング方法は以下のステップＳ１１０’～ステップＳ１８０’を含む。

【0086】

ステップＳ１１０’において、画像やテキストのサンプルタプルを取得し、画像やテキストのサンプルタプルは、画像モーダルの第１の画像サンプル（すなわち、第１のサンプル）と第２の画像サンプル（すなわち、第２のサンプル）、及びテキストモーダルの第１のテキストサンプル（すなわち、第３のサンプル）と第２のテキストサンプル（すなわち、第４のサンプル）を含む。画像やテキストのサンプルタプルに含まれる各サンプルの意味はマッチングする。

【0087】

ステップＳ１２０’において、第１の画像サンプルと第２の画像サンプルをそれぞれ画像表現モジュールに入力することで、第１の画像サンプルの第１の画像表現（すなわち、第１の表現）と第２の画像サンプルの第２の画像表現（すなわち、第２の表現）を取得する。

【0088】

ステップＳ１３０’において、第１のテキストサンプルと第２のテキストサンプルをそれぞれテキスト表現モジュールに入力することで、第１のテキストサンプルの第１のテキスト表現（すなわち、第３の表現）と第２のテキストサンプルの第２のテキスト表現（すなわち、第４の表現）を取得する。

【0089】

ステップＳ１４０’において、第１の画像表現と第２の画像表現に基づき、画像モーダルの第１のシングルモーダル損失を決定する。

【0090】

ステップＳ１５０’において、第１のテキスト表現と第２のテキスト表現に基づき、テキストモーダルの第２のシングルモーダル損失を決定する。

【0091】

ステップＳ１６０’において、ターゲット画像表現（すなわち、第１のターゲット表現）とターゲットテキスト表現（すなわち、第２のターゲット表現）に基づき、画像モーダルからテキストモーダルに至る第１のクロスモーダル損失とテキストモーダルから画像モーダルへの第２のクロスモーダル損失を決定し、ここで、ターゲット画像表現は第１の画像表現と第２の画像表現のうちのいずれか１つであり、ターゲットテキスト表現は第１のテキスト表現と第２のテキスト表現のうちのいずれか１つである。

【0092】

ステップＳ１７０’において、第１のシングルモーダル損失と、第２のシングルモーダル損失と、第１のクロスモーダル損失と、第２のクロスモーダル損失に基づき、マルチモーダル表現モデルの全体の損失を決定する。

【0093】

ステップＳ１８０’において、全体の損失に基づき、マルチモーダル表現モデルのパラメータを調整する。

【0094】

上記実施例によれば、画像やテキストのサンプルタプルを用いて画像やテキストのマルチモーダル表現モデルをトレーニングし、画像やテキストのサンプルタプルは、画像モーダルの２つの画像サンプルとテキストモーダルの２つのテキストサンプルを含み、画像やテキストのサンプルタプルにおける各サンプルの意味はマッチングする。モデルトレーニング過程において、画像モーダル、テキストモーダルのそれぞれのシングルモーダル損失を算出するのみならず、また画像、テキストモーダルの間のクロスモーダル損失を算出することによって、画像やテキストのマルチモーダル表現モデルがモーダル内とモーダル間の意味関連性を同時に学習するようにガイドすることができ、モデルの汎化性とロバスト性を向上させ、これによって、モデルは画像やテキストのマルチモーダルデータの統一表現を生成することができる。当該統一表現に基づき、下流側の画像やテキストに関するクロスモーダルタスク（例えば、画像やテキストに関するクロスモーダル検索、画像やテキストの意味マッチングなど）の正確性を向上させることができる。

【0095】

理解すべきことは、ステップＳ１１０’～ステップＳ１８０’は上記説明したステップＳ１１０～ステップＳ１８０に対応することである。ステップＳ１１０’～ステップＳ１８０’の実施形態は上記内容ステップＳ１１０～ステップＳ１８０に関する説明を参照してもよく、ここで詳細な説明を省略する。

【0096】

図３は、本開示のいくつかの実施例による画像やテキストのマルチモーダル表現モデルのトレーニング過程を示す概略図である。図３に示すように、まず画像３３１とテキスト３３２を取得し、画像３３１とテキスト３３２の意味はマッチングする。

【0097】

画像３３１に対する２回の意味を変えないデータ拡張処理を行い、画像３４１、画像３４２を取得する。テキスト３３２に対する２回の意味を変えないデータ拡張処理を行い、テキスト３４３、テキスト３４４を取得する。

【0098】

画像３４１、画像３４２を画像表現モジュール３１０に入力し、画像表現３５１、画像表現３５２を取得する。テキスト３４３、テキスト３４４をテキスト表現モジュール３２０に入力し、テキスト表現３５３、テキスト表現３５４を取得する。

【0099】

画像表現３５１と画像表現３５２に基づき、画像モーダルのシングルモーダル損失３６１を算出することができる。テキスト表現３５３とテキスト表現３５４に基づき、テキストモーダルのシングルモーダル損失３６２を算出することができる。画像表現３５２とテキスト表現３５３に基づき、画像モーダルからテキストモーダルに至るクロスモーダル損失３６３とテキストモーダルから画像モーダルへのクロスモーダル損失３６４を算出することができる。

【0100】

シングルモーダル損失３６１、シングルモーダル損失３６２、クロスモーダル損失３６３、クロスモーダル損失３６４に対する加重合計を行うことで、全体の損失３７０を取得する。全体の損失３７０に基づき、例えば、誤差逆伝播などのアルゴリズムを用いて画像表現モジュール３１０とテキスト表現モジュール３２０のパラメータを調整する。

【0101】

いくつかの実施例によれば、ステップＳ１１０～ステップＳ１８０に基づいて予備トレーニングされたマルチモーダル表現モデルを取得し、更に予め設定された適用場面におけるマッチングデータペア（例えば、画像やテキスト検索場面における画像やテキストマッチングペア）に基づき、マルチモーダル表現モデルに対する微調整（ｆｉｎｅ－ｔｕｎｅ）を行うことで、マルチモーダル表現モデルの具体的な応用場面における表現効果を向上させることができる。

【0102】

具体的には、いくつかの実施例によれば、マッチングデータペアはターゲットデータモーダルの第１のデータと第２のデータを含み、第１のデータと第２のデータの意味はマッチングし、「予め設定された適用場面におけるマッチングデータペアに基づき、マルチモーダル表現モデルに対する微調整を行う」ことは、当該マッチングデータペアに基づき、ターゲットデータモーダルに対応する表現モジュールに対する微調整を行うことを含む。

【0103】

別の実施例によれば、マッチングデータペアは、第１のデータモーダルの第１のデータと第２のデータモーダルの第２のデータを含み、第１のデータと第２のデータの意味はマッチングし、「予め設定された適用場面におけるマッチングデータペアに基づき、マルチモーダル表現モデルに対する微調整を行う」ことは、第１のデータに基づき、第１のデータモーダルの第１のデータサンプルと第２のデータサンプルを生成することと、第２のデータに基づき、第２のデータモーダルの第３のデータサンプルと第４のデータサンプルを生成することと、第１のデータサンプルと、第２のデータサンプルと、第３のデータサンプルと、第４のデータサンプルに基づき、データサンプルタプルを構築することと、データサンプルタプルに基づき、マルチモーダル表現モデルに対する微調整を行うことと、を含む。

【0104】

データサンプルタプルに基づいてマルチモーダル表現モデルに対する微調整を行う実施形態は、ステップＳ１１０～ステップＳ１８０のサンプルタプルに基づいてマルチモーダル表現モデルをトレーニングする実施形態に類似し、ここで詳細な説明を省略する。

【0105】

本開示の実施例によるマルチモーダル表現モデルのトレーニング方法１００は、予備トレーニングされた（又は予備トレーニングされて微調整された）マルチモーダル表現モデルを取得することができる。予備トレーニングされた（又は予備トレーニングされて微調整された）マルチモーダル表現モデルは複数のクロスモーダルデータ処理タスク、例えば、クロスモーダル検索タスク、クロスモーダル推論タスクなどに応用されてよい。理解すべきことは、予備トレーニングされた（又は予備トレーニングされて微調整された）マルチモーダル表現モデルはシングルモーダルのデータ処理タスクに応用されてもよいことである。

【0106】

本開示の実施例によれば、クロスモーダル検索方法を更に提供する。図４は、本開示の実施例によるクロスモーダル検索方法４００を示すフローチャートである。方法４００はサーバで実行されてもよいし、クライアントデバイスで実行されてもよい。すなわち、方法４００の各ステップの実行主体はサーバであってもよく、クライアントデバイスであってもよい。

【0107】

図４に示すように、方法４００は、ステップＳ４１０～ステップＳ４４０を含む。

【0108】

ステップＳ４１０において、第１のデータモーダルの検索対象を取得する。

【0109】

ステップＳ４２０において、検索対象をマルチモーダル表現モデルに入力することで、検索対象に対応する第１の表現を取得する。マルチモーダル表現モデルは上記実施例によるマルチモーダル表現モデルのトレーニング方法でトレーニングすることで得られたものである。

【0110】

ステップＳ４３０において、第２のデータモーダルの複数の候補対象のそれぞれの第２の表現を取得し、ここで、第２の表現は、対応する候補対象をマルチモーダル表現モデルに入力することにより得られたものである。

【0111】

ステップ４４０において、第１の表現と各第２の表現の類似度に基づき、複数の候補対象から検索対象にマッチングするターゲット対象を決定する。

【0112】

本開示の実施例によれば、正確なクロスモーダル検索を実現することができる。

【0113】

いくつかの実施例によれば、第１のデータモーダル、第２のデータモーダルは画像モーダルとテキストモーダルであってもよく、従って、方法４００は正確な画像やテキストに関するクロスモーダル検索を実現することができる。

【0114】

第１の表現と第２の表現の類似度は例えば、コサイン類似度であってもよい。

【0115】

いくつかの実施例によれば、ターゲット対象は例えば、類似度が最も大きな１つ又は複数の候補対象であってもよい。別の実施例によれば、ターゲット対象は類似度が閾値より大きい１つ又は複数の候補対象であってもよい。

【0116】

図５は、本開示の実施例のマルチモーダル表現モデル（すなわち、本モデル）と従来技術のマルチモーダル表現モデルは、公開データセットＦｌｉｃｋｒ３０ＫとＭＳＣＯＣＯにおける画像やテキストに関するクロスモーダル検索効果の比較図である。ここで、Ｒ＠Ｋは、正解が前のＫ個のリターン結果に出るサンプル例の全サンプル例を占める割合を示し、^＊はモデルがＭＳＣＯＣＯデータセットで微調整を行うことを示す。

【0117】

本開示の実施例によれば、クロスモーダル推論方法を更に提供する。図６は、本開示の実施例によるクロスモーダル推論方法６００を示すフローチャートである。方法６００は、例えばサーバで実行されてもよいし、クライアントデバイスで実行されてもよい。すなわち、方法６００の各ステップの実行主体はサーバであってもよく、クライアントデバイスであってもよい。

【0118】

図６に示すように、方法６００は、ステップＳ６１０～ステップＳ６３０を含む。

【0119】

ステップＳ６１０において、第１のデータモーダルの第１の対象と第２のデータモーダルの第２の対象を取得する。

【0120】

ステップＳ６２０において、第１の対象と第２の対象をそれぞれマルチモーダル表現モデルに入力することで、第１の対象に対応する第１の表現と第２の対象に対応する第２の表現を取得する。マルチモーダル表現モデルは上記実施例によるマルチモーダル表現モデルのトレーニング方法でトレーニングすることで得られたものである。

【0121】

ステップＳ６３０において、第１の表現と第２の表現の類似度に基づき、第１の対象と第２の対象の推論タグを決定する。

【0122】

本開示の実施例によれば、正確なクロスモーダル推論を実現することができる。

【0123】

いくつかの実施例によれば、推論タグは、例えば導出（Ｅｎｔａｉｌｍｅｎｔ）、中立（Ｎｅｕｔｒａｌ）と矛盾（Ｃｏｎｔｒａｄｉｃｔｉｏｎ）を含む。

【0124】

本開示の実施例によれば、マルチモーダル表現モデルのトレーニング装置を更に提供する。図７は、本開示の実施例によるマルチモーダル表現モデルのトレーニング装置７００を示す構成ブロック図である。図７に示すように、装置７００は、
第１の取得ユニット７１０であって、サンプルタプルを取得するように構成され、前記サンプルタプルは、前記第１のデータモーダルの第１のサンプルと第２のサンプル、及び前記第２のデータモーダルの第３のサンプルと第４のサンプルを含み、ここで、前記サンプルタプルに含まれる各サンプルの意味はマッチングするものと、
第１の入力ユニット７２０であって、前記第１のサンプルと前記第２のサンプルをそれぞれ前記第１の表現ユニットに入力することで、前記第１のサンプルの第１の表現と前記第２のサンプルの第２の表現を取得するように構成されるものと、
第２の入力ユニット７３０であって、前記第３のサンプルと前記第４のサンプルをそれぞれ前記第２の表現ユニットに入力することで、前記第３のサンプルの第３の表現と前記第４のサンプルの第４の表現を取得するように構成されるものと、
第１の損失ユニット７４０であって、前記第１の表現と前記第２の表現に基づき、前記第１のデータモーダルの第１のシングルモーダル損失を決定するように構成されるものと、
第２の損失ユニット７５０であって、前記第３の表現と前記第４の表現に基づき、前記第２のデータモーダルの第２のシングルモーダル損失を決定するように構成されるものと、
第３の損失ユニット７６０であって、第１のターゲット表現と第２のターゲット表現に基づき、前記第１のデータモーダルから前記第２のデータモーダルへの第１のクロスモーダル損失と、前記第２のデータモーダルから前記第１のデータモーダルへの第２のクロスモーダル損失を決定するように構成され、ここで、前記第１のターゲット表現は前記第１の表現と前記第２の表現のうちのいずれか１つであり、前記第２のターゲット表現は前記第３の表現と前記第４の表現のうちのいずれか１つであるものと、
第４の損失ユニット７７０であって、前記第１のシングルモーダル損失と、前記第２のシングルモーダル損失と、前記第１のクロスモーダル損失と、前記第２のクロスモーダル損失に基づき、前記マルチモーダル表現モデルの全体の損失を決定するように構成されるものと、
調整ユニット７８０であって、前記全体の損失に基づき、前記マルチモーダル表現モデルのパラメータを調整するように構成されるものと、を含む。

【0125】

本開示の実施例によれば、サンプルタプルを用いてマルチモーダル表現モデルをトレーニングし、サンプルタプルは各種データモーダルの２つのサンプルを含み、サンプルタプルにおける各サンプルの意味はマッチングする。上記サンプルタプルに基づき、トレーニング過程に、各データモーダルのシングルモーダル損失を算出するのみならず、また異なるモーダルの間のクロスモーダル損失を算出することによって、マルチモーダル表現モデルがモーダル内とモーダル間の意味関連性を同時に学習するようにガイドすることができ、モデルの汎化性とロバスト性を向上させ、これによって、モデルはマルチモーダルデータの統一表現を生成することができる。

【0126】

いくつかの実施例によれば、装置７００は、第２の取得ユニットであって、生データペアを取得するように構成され、前記生データペアは、前記第１のデータモーダルの第１の生データと前記第２のデータモーダルの第２の生データを含み、前記第１の生データと前記第２の生データの意味はマッチングするものと、第１の生成ユニットであって、前記第１の生データに基づき、前記第１のサンプルと前記第２のサンプルを生成するように構成されるものと、第２の生成ユニットであって、前記第２の生データに基づき、前記第３のサンプルと前記第４のサンプルを生成するように構成されるものと、を更に含む。

【0127】

いくつかの実施例によれば、前記第１の生成ユニットは、第１の拡張サブユニットであって、前記第１の生データに対する第１のデータ拡張処理を行うことで、前記第１のサンプルを生成するように構成されるものと、第２の拡張サブユニットであって、前記第１の生データに対する第２のデータ拡張処理を行うことで、前記第１のサンプルと異なる前記第２のサンプルを生成するように構成されるものと、を含む。

【0128】

いくつかの実施例によれば、前記第１のサンプルと前記第２のサンプルは前記第１の生データと同じで、前記第１の表現ユニットは、ランダムノイズを添加することで、前記第１の表現を前記第２の表現から異ならせるように構成される。

【0129】

いくつかの実施例によれば、前記第１のデータモーダルはテキストモーダルであり、前記第１の表現ユニットはｄｒｏｐｏｕｔ処理層を含むテキストエンコーダであり、前記ｄｒｏｐｏｕｔ処理層のドロップ確率は予め設定された閾値より小さい。

【0130】

いくつかの実施例によれば、前記第１の損失ユニット７４０は更に、前記第１の表現と前記第２の表現の第１の類似度、及び前記第１の表現と他のサンプルタプルの第２の表現の第２の類似度に基づき、前記第１のシングルモーダル損失を決定するように構成され、ここで、前記第１のシングルモーダル損失は、前記第１の類似度と負の相関を有し、且つ、前記第２の類似度と正の相関を有する。

【0131】

いくつかの実施例によれば、前記第３の損失ユニット７６０は更に、前記第１のターゲット表現と前記第２のターゲット表現の第３の類似度、及び前記第１のターゲット表現と他のサンプルタプルの第２のターゲット表現の第４の類似度に基づき、前記第１のクロスモーダル損失を決定するように構成され、ここで、前記第１のクロスモーダル損失は、前記第３の類似度と負の相関を有し、且つ、前記第４の類似度と正の相関を有する。

【0132】

いくつかの実施例によれば、前記第３の損失ユニット７６０は更に、前記第１のターゲット表現と前記第２のターゲット表現の第３の類似度、及び前記第２のターゲット表現と他のサンプルタプルの第１のターゲット表現の第５の類似度に基づき、前記第２のクロスモーダル損失を決定するように構成され、ここで、前記第２のクロスモーダル損失は、前記第３の類似度と負の相関を有し、且つ、前記第５の類似度と正の相関を有する。

【0133】

いくつかの実施例によれば、前記全体の損失は、前記第１のシングルモーダル損失と、前記第２のシングルモーダル損失と、前記第１のクロスモーダル損失と、前記第２のクロスモーダル損失の加重和である。

【0134】

いくつかの実施例によれば、装置７００は、予め設定された適用場面におけるマッチングデータペアに基づき、前記マルチモーダル表現モデルに対する微調整を行うように構成される微調整ユニットを更に含む。

【0135】

いくつかの実施例によれば、前記マッチングデータペアはターゲットデータモーダルの第１のデータと第２のデータを含み、前記第１のデータと前記第２のデータの意味はマッチングし、ここで、前記微調整ユニットは更に、前記マッチングデータペアに基づき、前記ターゲットデータモーダルに対応する表現ユニットに対する微調整を行うように構成される。

【0136】

いくつかの実施例によれば、前記マッチングデータペアは、第１のデータモーダルの第１のデータと第２のデータモーダルの第２のデータを含み、前記第１のデータと前記第２のデータの意味はマッチングし、ここで、前記微調整ユニットは、前記第１のデータに基づき、前記第１のデータモーダルの第１のデータサンプルと第２のデータサンプルを生成するように構成される第１の生成サブユニットと、前記第２のデータに基づき、前記第２のデータモーダルの第３のデータサンプルと第４のデータサンプルを生成するように構成される第２の生成サブユニットと、前記第１のデータサンプルと、前記第２のデータサンプルと、前記第３のデータサンプルと、前記第４のデータサンプルに基づき、データサンプルタプルを構築するように構成される第３の生成サブユニットと、データサンプルタプルに基づき、前記マルチモーダル表現モデルに対する微調整を行うように構成される微調整サブユニットと、を含む。

【0137】

いくつかの実施例によれば、前記第１のデータモーダルと前記第２のデータモーダルは、テキストモーダル、画像モーダル、ビデオモーダル、オーディオモーダルのいずれか２つである。

【0138】

本開示の実施例によれば、クロスモーダル検索装置を更に提供する。図８は、本開示の実施例によるクロスモーダル検索装置８００を示す構成ブロック図である。図８に示すように、装置８００は、
第１の取得ユニット８１０であって、第１のデータモーダルの検索対象を取得するように構成されるものと、
表現ユニット８２０であって、前記検索対象をマルチモーダル表現モデルに入力することで、前記検索対象に対応する第１の表現を取得するように構成されるものと、
第２の取得ユニット８３０であって、第２のデータモーダルの複数の候補対象のそれぞれの第２の表現を取得するように構成され、ここで、前記第２の表現は、対応する候補対象を前記マルチモーダル表現モデルに入力することにより得られたものと、
決定ユニット８４０であって、前記第１の表現と各第２の表現の類似度に基づき、前記複数の候補対象から前記検索対象にマッチングするターゲット対象を決定するように構成され、ここで、前記マルチモーダル表現モデルは、上記マルチモーダル表現モデルに基づくトレーニング装置でトレーニングすることで得られたものと、を含む。

【0139】

本開示の実施例によれば、正確なクロスモーダル検索を実現することができる。

【0140】

本開示の実施例によれば、クロスモーダル推論装置を更に提供する。図９は、本開示の実施例によるクロスモーダル推論装置９００を示す構成ブロック図である。図９に示すように、装置９００は、
取得ユニット９１０であって、第１のデータモーダルの第１の対象と第２のデータモーダルの第２の対象を取得するように構成されるものと、
表現ユニット９２０であって、前記第１の対象と前記第２の対象をそれぞれマルチモーダル表現モデルに入力することで、前記第１の対象に対応する第１の表現と前記第２の対象に対応する第２の表現を取得するように構成されるものと、
決定ユニット９３０であって、前記第１の表現と前記第２の表現の類似度に基づき、前記第１の対象と前記第２の対象の推論タグを決定するように構成され、ここで、前記マルチモーダル表現モデルは、上記マルチモーダル表現モデルに基づくトレーニング装置でトレーニングすることで得られたものと、を含む。

【0141】

本開示の実施例によれば、正確なクロスモーダル推論を実現することができる。

【0142】

理解すべきことは、図７に示すように装置７００の各ユニットは図１に記載の方法１００における各ステップに対応してもよく、図８に示すように装置８００の各ユニットは図４に記載の方法４００における各ステップに対応してもよく、図９に示すように装置９００の各ユニットは図６に記載の方法６００における各ステップに対応してもよいことである。これにより、上記方法１００について説明する操作、特徴と利点は装置７００及びそれに含まれるユニットにも適用され、上記方法４００について説明する操作、特徴と利点は装置８００及びそれに含まれるユニットにも適用され、上記方法６００について説明する操作、特徴と利点同じは装置９００及びそれに含まれるユニットにも適用される。簡潔のために、いくつかの操作、特徴及び利点はここでは説明を省略する。

【0143】

特定の機能は上記で特定のユニットを参照して論じられているが、本明細書で論じた各ユニットの機能は複数のユニットに分割されてもよく、及び／又は複数のユニットの少なくともいくつかの機能は単一のユニットに組み合わせてもよいことに留意されたい。例えば、以上で説明した第１の入力ユニット７２０と第２の入力ユニット７３０は、いくつかの実施例では、単一のユニットに組み合わせてもよい。

【0144】

本明細書では、ソフトウェアハードウェア要素又はプログラムユニットの一般的なコンテキストで様々な技術を説明することができることも理解されたい。上記の図７～図９で説明された各ユニットに関しては、ハードウェアにおいて、又はソフトウェア及び／又はファームウェアと組み合わされたハードウェアにおいて実装することができる。例えば、これらのユニットは、１つ又は複数のプロセッサにおいて実行され、コンピュータ可読記憶媒体に記憶されるように構成されたコンピュータプログラムコード／命令として実装することができる。選択的に、これらのユニットはハードウェアロジック／回路として実装することができる。例えば、いくつかの実施例では、ユニット７１０～９３０のうちの１つ又は複数は、チップシステム（ＳｙｓｔｅｍｏｎＣｈｉｐ、ＳｏＣ）に一緒に実装されてもよい。ＳｏＣは、集積回路チップ（例えば、プロセッサ（例えば、中央処理ユニット（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＣＰＵ）、マイクロコントローラ、マイクロプロセッサ、デジタル信号プロセッサ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ、ＤＳＰ）などを含む）、メモリ、１つ又は複数の通信インターフェース、及び／又は他の回路中の１つ又は複数のコンポーネント）を含んでもよく、オプションで受信したプログラムコードの実行、及び／又は埋め込みファームウェアを含むことで機能を実行することができる。

【0145】

本開示の実施例によれば、電子機器を提供し、前記電子機器は、少なくとも１つのプロセッサと、上記少なくとも１つのプロセッサに通信接続されたメモリを含み、このメモリには、上記少なくとも１つのプロセッサによって実行可能な命令を記憶し、この命令は、上記少なくとも１つのプロセッサによって実行されることにより、上記少なくとも１つのプロセッサに本開示の実施例によるマルチモーダル表現モデルのトレーニング方法、クロスモーダル検索方法、クロスモーダル推論方法のうちの少なくとも１つを実行させる。

【0146】

本開示の一態様によれば、本開示の実施例によるマルチモーダル表現モデルのトレーニング方法、クロスモーダル検索方法、クロスモーダル推論方法のうちの少なくとも１つをコンピュータに実行させるためのコンピュータ命令が記憶された非一時的コンピュータ可読記憶媒体を提供する。

【0147】

本開示の一態様によれば、プロセッサによって実行されると、本開示の実施例によるマルチモーダル表現モデルのトレーニング方法、クロスモーダル検索方法、クロスモーダル推論方法のうちの少なくとも１つを実現するコンピュータプログラムを含むコンピュータプログラム製品を提供する。

【0148】

図１０に示すように、ここでは、本開示の様々な態様に適用可能なハードウェア装置の一例である、本開示のサーバ又はクライアントとして利用可能な電子機器１０００の構成ブロック図について説明する。電子機器は、様々な形態のデジタル電子コンピュータ、例えば、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ステージ、個人用デジタル補助装置、サーバ、ブレードサーバ、大型コンピュータ、その他の適切なコンピュータを示す。電子機器は更に、様々な形態の移動装置、例えば、個人用デジタル補助装置、セルラー電話、スマートフォン、着用可能な装置とその他の類似する計算装置を示してよい。本明細書に示される部品、これらの接続関係及びこれらの機能は例示的なものに過ぎず、本明細書に説明した及び／又は請求した本開示の実現を制限しない。

【0149】

図１０に示すように、電子機器１０００は、計算ユニット１００１を含み、それはリードオンリーメモリ（ＲＯＭ）１００２に記憶されたコンピュータプログラム又は記憶ユニット１００８からランダムアクセスメモリ（ＲＡＭ）１００３にロードされるコンピュータプログラムによって、種々の適当な動作と処理を実行することができる。ＲＡＭ１００３において、更に機器１０００を操作するために必要な様々なプログラムとデータを記憶してもよい。計算ユニット１００１、ＲＯＭ１００２及びＲＡＭ１００３は、バス１００４を介して互いに接続される。入力／出力（Ｉ／Ｏ）インターフェース１００５も、バス１００４に接続される。

【0150】

電子機器１０００における複数の部品はＩ／Ｏインターフェース１００５に接続され、入力ユニット１００６、出力ユニット１００７、記憶ユニット１００８及び通信ユニット１００９を含む。入力ユニット１００６は、機器１０００に情報を入力することが可能ないずれかのタイプの装置であってもよく、入力ユニット１００６は、入力された数字又は文字情報を受信することができ、電子機器のユーザ設定及び／又は機能制御に関するキー信号入力を生成することができ、マウス、キーボード、タッチスクリーン、トラックボード、トラックボール、操作レバー、マイク及び／又はリモコンを含んでもよいが、これらに限定されない。出力ユニット１００７は、情報を提示することが可能ないずれかのタイプの装置であってもよく、ディスプレイ、スピーカ、ビデオ／オーディオ出力端末、バイブレータ、及び／又はプリンタを含んでもよいが、これらに限定されない。記憶ユニット１００８は磁気ディスク、光ディスクを含んでもよいが、これらに限定されない。通信ユニット１００９は、機器１０００が例えば、インターネットであるコンピュータネットワーク及び／又は様々な電気通信ネットワークを介して他の装置と情報／データのやりとりをすることを可能にし、モデム、ネットワークカード、赤外線通信装置、無線通信送受信機、及び／又はチップセット、例えば、ブルートゥース（登録商標）^ＴＭ装置、８０２．１１装置、Ｗｉ－Ｆｉ装置、ＷｉＭＡＸ装置、セルラー通信装置及び／又は類似物を含んでもよいが、これらに限定されない。

【0151】

計算ユニット１００１は処理及びコンピューティング能力を有する様々な汎用及び／又は専用の処理コンポーネントであってもよい。計算ユニット１００１のいくつかの例として、中央処理ユニット（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、様々な専用人工知能（ＡＩ）計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ（ＤＳＰ）、及び任意の適当なプロセッサ、コントローラ、マイクロコントローラなどを含んでもよいが、これらに限定されない。計算ユニット１００１は上記内容で説明した各方法と処理、例えば、方法１００、４００と６００を実行する。例えば、いくつかの実施例では、方法１００、４００と６００は記憶ユニット１００８のような機械可読媒体に有形に組み込まれたコンピュータソフトウェアプログラムとして実装されてもよい。いくつかの実施例では、コンピュータプログラムの一部又は全部は、ＲＯＭ１００２及び／又は通信ユニット１００９を介して機器１０００にロード及び／又はインストールされてもよい。コンピュータプログラムがＲＡＭ１００３にロードされて計算ユニット１００１によって実行されると、上記で説明した方法１００、４００又は６００の１つ又は複数のステップを実行することができる。代替的に、他の実施例では、計算ユニット１００１は、他のいずれかの適当な方法で（例えば、ファームウェアを用いて）、方法１００、４００、６００のうち少なくとも１つを実行するように構成される。

【0152】

本明細書で上述したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、複雑なプログラマブル論理デバイス（ＣＰＬＤ）、ソフトウェア・ハードウェア、ファームウェア、ソフトウェア、及び／又はこれらの組み合わせにおいて実装することができる。これらの様々な実施形態は、一つ又は複数のコンピュータプログラムに実施され、この一つ又は複数のコンピュータプログラムは少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムで実行し及び／又は解釈してもよく、このプログラマブルプロセッサは専用又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、少なくとも１つの出力装置からデータと命令を受信し、データと命令をこの記憶システム、この少なくとも１つの入力装置、この少なくとも１つの出力装置に送信してよいこと、を含んでもよい。

【0153】

本開示の方法を実施するプログラムコードは一つ又は複数のプログラミング言語のいかなる組み合わせで書かれてよい。これらのプログラムコードを汎用コンピュータ、特殊目的のコンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供してよく、よってプログラムコードはプロセッサ又はコントローラにより実行される時にフローチャート及び／又はブロック図に規定の機能／操作を実施する。プログラムコードは完全に機械で実行してよく、部分的に機械で実行してよく、独立ソフトウェアパッケージとして部分的に機械で実行し且つ部分的に遠隔機械で実行してよく、又は完全に遠隔機械又はサーバで実行してよい。

【0154】

本開示のコンテキストにおいて、機械可読媒体は有形の媒体であってもよく、命令実行システム、装置又はデバイスに使用される又は命令実行システム、装置又はデバイスに結合されて使用されるプログラムを具備又は記憶してよい。機械可読媒体は機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子、磁気、光学、電磁、赤外線、又は半導体システム、装置又はデバイス、又は上記内容のいかなる適切な組み合わせを含んでもよいが、これらに限定されない。機械可読記憶媒体のより具体的な例は、ポータブルコンピュータディスク、ハードディスク、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM又はフラッシュメモリ)、ポータブルコンパクトディスク読み出し専用メモリ(CD－ROM)、光記憶装置、磁気記憶装置、又は上記内容のいかなる適切な組み合わせを含む。

【0155】

ユーザとのインタラクションを提供するために、コンピュータにはここで説明したシステムと技術を実施してよく、このコンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）監視モニタ）、及びキーボードとポインティング装置（例えば、マウスやトラックボール）を備え、ユーザはこのキーボードとこのポインティング装置を介してコンピュータに入力してよい。その他の種類の装置は更に、ユーザとのインタラクションを提供するためのものであってもよい。例えば、ユーザに提供するフィードバックはいかなる形態の感覚フィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、いかなる形態（音入力、音声入力、又は触覚入力を含む）でユーザからの入力を受信してよい。

【0156】

ここで述べたシステムや技術は、バックステージ部材を含む計算システム（例えば、データサーバとして）や、ミドルウェア部材を含む計算システム（例えば、アプリケーションサーバ）や、フロントエンド部材を含む計算システム（例えば、グラフィカルユーザインターフェースやウェブブラウザを有するユーザコンピュータ、ユーザが、そのグラフィカルユーザインターフェースやウェブブラウザを通じて、それらのシステムや技術の実施形態とのインタラクションを実現できる）、あるいは、それらのバックステージ部材、ミドルウェア部材、あるいはフロントエンド部材の任意の組み合わせからなる計算システムには実施されてもよい。システムの部材は、任意の形式や媒体のデジタルデータ通信（例えば、通信ネットワーク）により相互に接続されてもよい。通信ネットワークの一例は、ローカルネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）とインターネットを含む。

【0157】

コンピュータシステムは、クライアント側とサーバを含んでもよい。クライアント側とサーバは、一般的に相互に遠く離れ、通常、通信ネットワークを介してインタラクションを行う。互いにクライアント側－サーバという関係を有するコンピュータプログラムを対応するコンピュータで運転することによってクライアント側とサーバとの関係を生成する。サーバは、クラウドサーバであってもよく、分散型システムのサーバでも、又はブロックチェーンと組み合わされたサーバであってもよい。

【0158】

理解すべきこととして、前述した様々な形態のフローを用いて、ステップを改めて順位付け、増加又は削除してよい。例えば、本開示に記載された各ステップは、並列的に実行してもよいし、順次実行してもよいし、異なる順序で実行させてもよいし、本開示に開示された技術案が所望する結果を実現できれば、本文はこれに限定されないことである。

【0159】

本開示の実施例又は例は図面を参照して説明されたが、上記の方法、システム、及び装置は単なる例示的な実施例又は例であり、本発明の範囲はこれらの実施例又は例によって制限されるものではなく、授権後の特許請求の範囲及びその均等範囲のみによって限定されることを理解されたい。実施例又は例の様々な要素は省略されてもよく、又はそれらの均等要素によって代替されてもよい。なお、各ステップは、本開示で説明した順序とは異なる順序で実行されてもよい。更に、実施例又は例の様々な要素は、様々な方法で組み合わせられてもよい。重要なのは、技術の進化に伴い、ここで説明される多くの要素は、本開示の後に現れる同等の要素に置き換えることができるということである。

【図1】