特許7429734 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン　バイドゥ　ネットコム　サイエンス　アンド　テクノロジー　カンパニー　リミテッドの特許一覧

特許7429734マルチモーダルデータ連合学習モデルトレーニング方法及び装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-01-31

(45)【発行日】2024-02-08

(54)【発明の名称】マルチモーダルデータ連合学習モデルトレーニング方法及び装置

(51)【国際特許分類】

G06N 20/00 20190101AFI20240201BHJP

G06F 16/908 20190101ALI20240201BHJP

【ＦＩ】

G06N20/00

G06F16/908

【請求項の数】 9

(21)【出願番号】P 2022108385

(22)【出願日】2022-07-05

(65)【公開番号】P2022137145

(43)【公開日】2022-09-21

【審査請求日】2022-07-05

(31)【優先権主張番号】202110781928.8

(32)【優先日】2021-07-12

(33)【優先権主張国・地域又は機関】CN

(73)【特許権者】

【識別番号】514322098

【氏名又は名称】ベイジンバイドゥネットコムサイエンステクノロジーカンパニーリミテッド

【氏名又は名称原語表記】ＢｅｉｊｉｎｇＢａｉｄｕＮｅｔｃｏｍＳｃｉｅｎｃｅＴｅｃｈｎｏｌｏｇｙＣｏ．，Ｌｔｄ．

【住所又は居所原語表記】２／ＦＢａｉｄｕＣａｍｐｕｓ，Ｎｏ．１０，Ｓｈａｎｇｄｉ１０ｔｈＳｔｒｅｅｔ，ＨａｉｄｉａｎＤｉｓｔｒｉｃｔ，Ｂｅｉｊｉｎｇ１０００８５，Ｃｈｉｎａ

(74)【代理人】

【識別番号】100114557

【弁理士】

【氏名又は名称】河野英仁

(74)【代理人】

【識別番号】100078868

【弁理士】

【氏名又は名称】河野登夫

(72)【発明者】

【氏名】リ，ウェイ

(72)【発明者】

【氏名】ガオ，ツァン

(72)【発明者】

【氏名】ニウ，グォツン

(72)【発明者】

【氏名】シャオ，シンヤン

(72)【発明者】

【氏名】リウ，ハオ

(72)【発明者】

【氏名】リウ，ジャツェン

(72)【発明者】

【氏名】ウ，ファ

(72)【発明者】

【氏名】ワン，ハイフェン

【審査官】大塚俊範

(56)【参考文献】

【文献】中国特許出願公開第１１２６６８６７１（ＣＮ，Ａ）

【文献】PAN, H. et al.，Modeling Intra and Inter-modality Incongruity for Multi-Modal Sarcasm Detection，Findings of the Association for Computational Linguistics: EMNLP 2020，Association for Computational Linguistics，2020年11月，pp. 1383-1392，[online], [retrieved on 2023-07-27], Retrieved from <https://aclanthology.org/2020.findings-emnlp.124> <doi: 10.18653/v1/2020.findings-emnlp.124>

【文献】HENDRICKS, L. A. et al.，Decoupling the Role of Data, Attention, and Losses in Multimodal Transformers，Transactions of the Association for Computational Linguistics，2021年07月08日，Volume 9，pp. 570-585，[online], [retrieved on 2023-07-27], Retrieved from <https://doi.org/10.1162/tacl_a_00385>

【文献】HU, R. et al.，UniT: Multimodal Multitask Learning with a Unified Transformer，arXiv:2102.10772v2 [cs.CV]，2021年03月，pp. 1-16，[online], [retrieved on 2023-07-27], Retrieved from <https://arxiv.org/abs/2102.10772v2> <doi: 10.48550/arXiv.2102.10772>

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ２０／００

Ｇ０６Ｆ１６／９０８

(57)【特許請求の範囲】

【請求項1】

マルチモーダルデータ連合学習モデルトレーニング装置によって実行されるマルチモーダルデータ連合学習モデルトレーニング方法であって、
少なくとも１種類のシングルモーダルデータと少なくとも１種類のＰａｉｒマルチモーダルデータを含むマルチモーダルデータを取得するステップと、
前記シングルモーダルデータと前記Ｐａｉｒマルチモーダルデータをデカップリング注意Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルに入力し、それぞれセマンティック要素のＴｏｋｅｎセマンティック表現特徴とモーダル間のセマンティック表現特徴を生成するステップと、
前記Ｔｏｋｅｎセマンティック表現特徴と前記モーダル間のセマンティック表現特徴に基づいて、前記デカップリング注意Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルをトレーニングするステップと、を含み、
前記少なくとも１つのシングルモーダルデータは、画像データとテキストデータを含み、前記少なくとも１つのＰａｉｒマルチモーダルデータは、画像テキストペアデータを含み、前記デカップリング注意Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルは、モーダル内の注意メカニズム、モーダル間の注意メカニズム及びモーダル情報融合層が含まれるネットワーク構造を含み、
前記シングルモーダルデータと前記Ｐａｉｒマルチモーダルデータをデカップリング注意Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルに入力し、それぞれＴｏｋｅｎセマンティック表現特徴とモーダル間のセマンティック表現特徴を生成するステップは、
前記画像データを複数のＴｏｋｅｎに分割し、多層の前記モーダル内の注意メカニズムで学習した後、前記画像データのＴｏｋｅｎセマンティック表現特徴を生成するステップと、
前記テキストデータを複数のＴｏｋｅｎに分割し、多層の前記モーダル内の注意メカニズムで学習した後、前記テキストデータのＴｏｋｅｎセマンティック表現特徴を生成するステップと、
前記画像テキストペアデータをそれぞれ分割して結合し、前記画像テキストペアデータの異なるモーダルの複数のＴｏｋｅｎを生成し、多層の前記モーダル内の注意メカニズムと多層の前記モーダル間の注意メカニズムで順次に学習し、前記モーダル情報融合層で情報融合を行い、前記画像テキストペアデータのモーダル間のセマンティック表現特徴を生成するステップと、を含み、
前記Ｔｏｋｅｎセマンティック表現特徴と前記モーダル間のセマンティック表現特徴に基づいて、前記デカップリング注意Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルをトレーニングするステップは、
前記画像データのＴｏｋｅｎセマンティック表現特徴に基づいて、画像再構成自己教師あり学習に基づいて前記デカップリング注意Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルをトレーニングするステップと、
前記テキストデータのＴｏｋｅｎセマンティック表現特徴に基づいて、マスク自己回帰自己教師あり学習に基づいて前記デカップリング注意Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルをトレーニングするステップと、
前記画像テキストペアデータのモーダル間のセマンティック表現特徴に基づいて、モーダル間の相関比較学習に基づいて前記デカップリング注意Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルをトレーニングするステップと、を含む、
マルチモーダルデータ連合学習モデルトレーニング方法。

【請求項2】

前記モーダル情報融合層で情報融合を行うステップは、
ゲート付きメカニズムを採用して、前記画像テキストペアデータの異なるモーダル間の相関度に基づいて、異なるモーダルのモーダル間情報を制御して融合するステップを含む、
請求項１に記載の方法。

【請求項3】

モーダル間の相関比較学習に基づいて前記デカップリング注意Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルをトレーニングするステップは、
関連ランキングを採用して、モーダル間の相関比較学習に基づいて、前記デカップリング注意Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルをトレーニングするステップを含む、
請求項１に記載の方法。

【請求項4】

マルチモーダルデータ連合学習モデルトレーニング装置であって、
少なくとも１種類のシングルモーダルデータと少なくとも１種類のＰａｉｒマルチモーダルデータを含むマルチモーダルデータを取得するデータ取得ユニットと、
前記シングルモーダルデータと前記Ｐａｉｒマルチモーダルデータをデカップリング注意Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルに入力し、それぞれセマンティック要素のＴｏｋｅｎセマンティック表現特徴とモーダル間のセマンティック表現特徴を生成するセマンティック表示ユニットと、
前記Ｔｏｋｅｎセマンティック表現特徴と前記モーダル間のセマンティック表現特徴に基づいて、前記デカップリング注意Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルをトレーニングするモデルトレーニングユニットと、を含み、
前記少なくとも１つのシングルモーダルデータは、画像データとテキストデータを含み、前記少なくとも１つのＰａｉｒマルチモーダルデータは、画像テキストペアデータを含み、前記デカップリング注意Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルは、モーダル内の注意メカニズム、モーダル間の注意メカニズム及びモーダル情報融合層が含まれるネットワーク構造を含み、前記セマンティック表示ユニットは、
前記画像データを複数のＴｏｋｅｎに分割し、多層の前記モーダル内の注意メカニズムで学習した後、前記画像データのＴｏｋｅｎセマンティック表現特徴を生成する画像データセマンティック表示ユニットと、
前記テキストデータを複数のＴｏｋｅｎに分割し、多層の前記モーダル内の注意メカニズムで学習した後、前記テキストデータのＴｏｋｅｎセマンティック表現特徴を生成するテキストデータセマンティック表示ユニットと、
前記画像テキストペアデータをそれぞれ分割して結合し、前記画像テキストペアデータの異なるモーダルの複数のＴｏｋｅｎを生成し、多層の前記モーダル内の注意メカニズムと多層の前記モーダル間の注意メカニズムで順次に学習し、前記モーダル情報融合層で情報融合を行い、前記画像テキストペアデータのモーダル間のセマンティック表現特徴を生成する画像テキストペアデータセマンティック表示ユニットと、を含み、
前記モデルトレーニングユニットは、
前記画像データのＴｏｋｅｎセマンティック表現特徴に基づいて、画像再構成自己教師あり学習に基づいて前記デカップリング注意Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルをトレーニングする画像トレーニングサブユニットと、
前記テキストデータのＴｏｋｅｎセマンティック表現特徴に基づいて、マスク自己回帰自己教師あり学習に基づいて前記デカップリング注意Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルをトレーニングするテキストトレーニングサブユニットと、
前記画像テキストペアデータのモーダル間のセマンティック表現特徴に基づいて、モーダル間の相関比較学習に基づいて前記デカップリング注意Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルをトレーニングする画像テキストペアトレーニングサブユニットと、を含む、
マルチモーダルデータ連合学習モデルトレーニング装置。

【請求項5】

前記画像テキストペアデータセマンティック表示ユニットは、さらにゲート付きメカニズムを採用して、前記画像テキストペアデータの異なるモーダル間の相関度に基づいて、異なるモーダルのモーダル間情報を制御して融合する、
請求項４に記載の装置。

【請求項6】

前記画像テキストペアトレーニングサブユニットはさらに、関連ランキングを採用して、モーダル間の相関比較学習に基づいて、前記デカップリング注意Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルをトレーニングする、
請求項４に記載の装置。

【請求項7】

電子機器であって、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも１つのプロセッサによって実行される場合、前記少なくとも１つのプロセッサが請求項１～３のいずれかに記載の方法を実行できる、
電子機器。

【請求項8】

コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項１～３のいずれかに記載の方法を実行させる、
非一時的なコンピュータ読み取り可能な記憶媒体。

【請求項9】

コンピュータプログラムであって、
前記コンピュータプログラムは、コンピュータで実行される場合、前記コンピュータに請求項１～３のいずれかに記載の方法を実行させる、
コンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示はコンピュータ技術の分野に関し、特に、マルチシーン認知向けのモーダル学習方法、装置、電子機器、及び記憶媒体に関する。

【背景技術】

【0002】

インターネット技術の発展に伴い、ネットワークには、テキスト、画像、オーディオ、ビデオなどの多くの異なるモーダルデータが存在している。

【0003】

関連技術では、処理されるデータタイプが異なることにより、人工知能技術の分野における応用層のタスクは、自然言語処理、コンピュータビジョン、音声認識などに区分され、このようなタスクを導きとする区分方式のため、一般的に単一モーダルデータに注目し、シングルモーダルデータに対する理解の技術案を設計し、ＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、人工知能）がマルチモーダルデータを総合的に学習する必要があるという需要を無視している。

【発明の概要】

【発明が解決しようとする課題】

【0004】

本開示は、マルチモーダルデータ連合学習モデルトレーニング方法、装置、電子機器及び記憶媒体を提供する。

【0005】

本開示の一態様によれば、マルチモーダルデータ連合学習モデルトレーニング方法を提供し、少なくとも１種類のシングルモーダルデータと少なくとも１種類のペアＰａｉｒマルチモーダルデータを含むマルチモーダルデータを取得するステップと、前記シングルモーダルデータと前記Ｐａｉｒマルチモーダルデータをデカップリング注意変換Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルに入力し、それぞれセマンティック要素のＴｏｋｅｎセマンティック表現特徴とモーダル間のセマンティック表現特徴を生成するステップと、前記Ｔｏｋｅｎセマンティック表現特徴と前記モーダル間のセマンティック表現特徴に基づいて、前記デカップリング注意Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルをトレーニングするステップと、を含む。これにより、デカップリング注意Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルが、複数種類の異なるモーダルデータを効果的に用いて互いに増強され、ロバスト性がより高くてより強大な汎用セマンティック表示能力をマルチモーダルデータから得て、統一的なネットワーク構造モデルを使用して異なるモーダルのデータを処理するとともに、異なるモーダルデータの理解タスクと生成タスクを実行することができ、より正確なシーン認知とより総合的な論理推理能力を持っている。

【0006】

本開示の第２の態様によれば、マルチモーダルデータ連合学習モデルトレーニング装置を提供し、データ取得ユニット、セマンティック表示ユニット及びモデルトレーニングユニットを含み、データ取得ユニットは、マルチモーダルデータを取得し、前記マルチモーダルデータに、少なくとも１種類のシングルモーダルデータと、少なくとも１種類のペアＰａｉｒマルチモーダルデータとが含まれ、セマンティック表示ユニットは、前記シングルモーダルデータと前記Ｐａｉｒマルチモーダルデータをデカップリング注意変換Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルに入力し、それぞれセマンティック要素のＴｏｋｅｎセマンティック表現特徴とモーダル間のセマンティック表現特徴を生成し、モデルトレーニングユニットは、前記Ｔｏｋｅｎセマンティック表現特徴と前記モーダル間のセマンティック表現特徴に基づいて、前記デカップリング注意Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルをトレーニングする。

【0007】

本開示の第３の態様によれば、電子機器を提供し、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサと通信可能に接続されるメモリと、を含み、前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも１つのプロセッサによって実行される場合、前記少なくとも１つのプロセッサが前記第１態様のいずれかに記載の方法を実行できる。

【0008】

本開示の第４の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、前記コンピュータに前記第１の態様のいずれかに記載の方法を実行させる。
本開示の第５の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムは、コンピュータで実行される場合、前記コンピュータに前記第１の態様のいずれかに記載の方法を実行させる。

【0009】

なお、この部分に記載のコンテンツは、本開示の実施例の肝心または重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していないことを理解されたい。本開示の他の特徴は、以下の説明を通して容易に理解される。

【図面の簡単な説明】

【0010】

図面は、本技術案をよりよく理解するために使用され、本開示を限定するものではない。

【図1】本出願の第１の実施例に係る概略図である。

【図2】本出願の第２の実施例に係る概略図である。

【図3】本出願の第２の実施例に係る概略図である。

【図4】本出願の第３の実施例に係る概略図である。

【図5】本出願の第４の実施例に係る概略図である。

【図6】本出願の第４の実施例に係る別の概略図である。

【図7】本開示の実施例に係るマルチモーダルデータ連合学習モデルトレーニング方法を実現するための電子機器のブロック図である。

【発明を実施するための形態】

【0011】

以下、図面と併せて本開示の例示的な実施例を説明し、理解を容易にするためにその中には本開示の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、明確及び簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。

【0012】

関連技術では、マルチモーダルデータ応用シーンのタスク、例えば、グラフィック検索、ビジュアルクイズなどを処理するために、様々なマルチモーダルデータ事前トレーニングモデル、例えば、前記Ｔｏｋｅｎセマンティック表現特徴と前記モーダル間のセマンティック表現特徴に基づいて、前記デカップリング注意ＴｒａｎｓｆｏｒｍｅｒネットワークモデルをトレーニングするｉＬＢＥＲＴ（Ｖｉｓｉｏｎ－ａｎｄ－ＬａｎｇｕａｇｅＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｆｒｏｍＴｒａｎｓｆｏｒｍｅｒｓ、ビジョン－言語－変換器からの双方向符号化表現）などを提案し、マルチモーダルデータ事前トレーニングモデルは、画像テキストペア（Ｉｍａｇｅ－ＴｅｘｔＰａｉｒｓ）のデータに基づいて自己教師あり学習を行い、これによって画像テキストペア連携セマンティック表現特徴を学習する。しかしながら、相関が強い画像テキストペアデータのみが使用されることに限定され、マルチモーダルデータ事前トレーニングモデルは、小規模なデータのトレーニングのみを行うことができ、そのトレーニングによって得られたモデルは、シングルモーダルタスク（例えば、テキストタスクまたは画像タスク）において使用することが困難である。

【0013】

これにより、本開示の発明者は、シングルモーダルデータや相関が強い画像テキストペアデータに対する事前トレーニングモデルが、多くの欠陥があると発現した。１）特定のタイプのデータに基づいて、特定のセマンティック表現特徴のみを得ることができ、汎用性に欠けている。２）異なるモーダルデータを統一的にモデリングすることができず、モーダル間の相互増強でロバスト性がより高い汎用セマンティック表現能力を学習することができない。３）異なるモーダルデータに対するモデリング方式が異なり、モデルが汎用ではないため、異なるモーダルデータをセマンティック空間において正確かつ効果的に統一することができない。４）既存のマルチモード事前トレーニング方法が、相関が強い画像と画像記述データのみに向いており、データ規模が制限され、実際のアプリケーション需要に合致していない。

【0014】

どうのようにして、インターネットにおける自然に生成されたシングルモーダル（文字、ピクチャ、ビデオなど）及びマルチモーダルデータ（画像テキスト結合、ビデオテキスト結合等）を同時に効果的に用いて、深層ニューラルネットワークが人間のように様々なモーダル知識と情報を連携して理解し、ロバスト性がより高くて強大な汎用セマンティック表現能力を複数種類のモーダルデータから得るようにするかは、人工知能の発展にとって重大な意義を持っている。

【0015】

これに基づいて、本開示は、マルチモーダルデータ連合学習モデルトレーニング方法を提供し、図１は本開示の第１の実施例に係る概略図である。

【0016】

図１に示すように、当該方法は、以下のステップＳ１～Ｓ３を含む。

【0017】

Ｓ１、少なくとも１種類のシングルモーダルデータと少なくとも１種類のペアＰａｉｒマルチモーダルデータを含むマルチモーダルデータを取得する。

【0018】

インターネットには多くの異なるタイプのデータが存在し、本開示の実施例では、検索エンジンを介してインターネットから画像データ、テキストデータ、オーディオデータ、画像テキストペアデータ、及びビデオテキストのペアのデータなど異なるタイプのデータをキャプチャすることができる。

【0019】

なお、シングルモーダルデータとは、テキストデータ、ピクチャデータなどの単一モーダルを指す。Ｐａｉｒマルチモーダルデータは、例えば、画像テキスト結合のデータ、ビデオテキストのペアのデータなどである。

【0020】

本開示の実施例では、マルチモーダルデータに、少なくとも１種類のシングルモーダルデータと、少なくとも１種類のペアＰａｉｒマルチモーダルデータとが含まれ、１つまたは複数種類のシングルモーダルデータ及び１つまたは複数種類のペアＰａｉｒマルチモーダルデータを含むことができ、本開示の実施例は、これに対して限定しない。

【0021】

Ｓ２、シングルモーダルデータとＰａｉｒマルチモーダルデータをデカップリング注意変換Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルに入力し、それぞれセマンティック要素のＴｏｋｅｎセマンティック表現特徴とモーダル間のセマンティック表現特徴を生成する。

【0022】

本開示の実施例によって提供されるデカップリング注意変換Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルは、シングルモーダルデータとＰａｉｒマルチモーダルデータを同時に使用して連合学習することができ、エンドツーエンドで統一的にモーダル学習することができる。

【0023】

本開示の実施例では、シングルモーダルデータとＰａｉｒマルチモーダルデータを当該デカップリング注意Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルに入力し、それぞれセマンティック要素のＴｏｋｅｎセマンティック表現特徴とモーダル間のセマンティック表現特徴を生成し、Ｔｏｋｅｎセマンティック表現特徴がシングルモーダルデータに基づいて生成されたものであり、モーダル間のセマンティック表現特徴がＰａｉｒマルチモーダルデータに基づいて生成されたものである。

【0024】

Ｓ３、Ｔｏｋｅｎセマンティック表現特徴とモーダル間のセマンティック表現特徴に基づいて、デカップリング注意Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルをトレーニングする。

【0025】

Ｔｏｋｅｎセマンティック表現特徴とモーダル間のセマンティック表現特徴が得られた後、デカップリング注意Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルをトレーニングして、取得されたシングルモーダルデータとＰａｉｒマルチモーダルデータが含まれるマルチモーダルデータに対して統一的にモデリングし、トレーニングされたモデルがマルチモードデータを同時にマルチモーダルデータの理解タスクと生成タスクを処理し、例えば、ビジュアルクイズ、画像記述生成等及びシングルモーダルデータの理解タスクと生成タスク、例えば、テキスト分類、テキスト生成、画像分類などの能力を備えるようにする。

【0026】

本開示の実施例によって提供されるマルチモーダルデータ連合学習モデルトレーニング方法は、少なくとも１種類のシングルモーダルデータと少なくとも１種類のペアＰａｉｒマルチモーダルデータを含むマルチモーダルデータを取得し、シングルモーダルデータとＰａｉｒマルチモーダルデータをデカップリング注意変換Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルに入力し、それぞれセマンティック要素のＴｏｋｅｎセマンティック表現特徴とモーダル間のセマンティック表現特徴を生成し、Ｔｏｋｅｎセマンティック表現特徴とモーダル間のセマンティック表現特徴に基づいて、デカップリング注意Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルをトレーニングする。これにより、デカップリング注意Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルが、複数種類の異なるモーダルデータを効果的に用いて互いに増強され、ロバスト性がより高くてより強大な汎用セマンティック表示能力をマルチモーダルデータから得て、統一的なネットワーク構造モデルを使用して異なるモーダルのデータを処理するとともに、異なるモーダルデータの理解タスクと生成タスクを実行することができ、より正確なシーン認知とより総合的な論理推理能力を持っている。

【0027】

図２は本開示の第２の実施例に係る概略図である。

【0028】

図２に示すように、本開示の実施例によって提供されるマルチモーダルデータ連合学習モデルトレーニング方法は、以下のステップＳ２０～Ｓ２７を含む。

【0029】

Ｓ２０、少なくとも１種類のシングルモーダルデータと少なくとも１種類のペアＰａｉｒマルチモーダルデータを含むマルチモーダルデータを取得する。

【0030】

いくつかの実施例では、少なくとも１つのシングルモーダルデータは、画像データとテキストデータを含み、少なくとも１つのＰａｉｒマルチモーダルデータは、画像テキストペアデータを含み、本開示の実施例では、取得されたマルチモーダルデータは、画像データ、テキストデータ及び画像テキストペアデータを含む。

【0031】

Ｓ２１、シングルモーダルデータとＰａｉｒマルチモーダルデータをデカップリング注意変換Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルに入力し、それぞれセマンティック要素のＴｏｋｅｎセマンティック表現特徴とモーダル間のセマンティック表現特徴を生成する。

【0032】

いくつかの実施例では、デカップリング注意Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルがモーダル内の注意メカニズム、モーダル間の注意メカニズム及びモーダル情報融合層が含まれるネットワーク構造を含む。

【0033】

具体的には、モーダル内の注意メカニズムはモーダル内部間のインタラクションを学習し、モーダル間の注意メカニズムはモーダル間情報インタラクションを学習し、モーダル情報融合層は異なるモーダル情報を融合してモーダル間のセマンティック表現特徴を得る。通常のＴｒａｎｓｆｏｒｍｅｒに比べて、本開示の実施例では、デカップリング注意Ｔｒａｎｓｆｏｒｍｅｒ学習モデルは、モーダル内部とモーダル間のインタラクションをデカップリングし、すなわち、マルチモーダルデータのモーダル内部とモーダルとが互いに対話し、情報融合層で複数種類のモーダル情報融合を行い、複数の異なるモーダルのシングルモーダルデータ、及び異なる相関度の画像テキストペアデータに適用することができる。

【0034】

本開示の実施例では、Ｓ２０とＳ２１の説明は、上記実施例のＳ１とＳ２の説明を参照することができ、ここでは説明を省略する。

【0035】

Ｓ２２、画像データを複数のＴｏｋｅｎに分割し、多層のモーダル内の注意メカニズムで学習した後、画像データのＴｏｋｅｎセマンティック表現特徴を生成する。

【0036】

具体的には、画像データ入力Ｖに対して、画像データ入力Ｖを複数のＴｏｋｅｎに分割し、すなわち、Ｔｏｋｅｎが、分割画像の各対象領域の特徴を特徴付け、例示的には、各Ｔｏｋｅｎとともに画像全体の特徴構成シーケンスとする各画像のブロック画素を入力として使用し、Ｖ＝｛［ＩＭＧ］、Ｖ１、．．．、Ｖｎ｝、ｎが正の整数であり、特殊符号［ＩＭＧ］が、画像全体の特徴を表し、その後、多層のモーダル内の注意メカニズムで学習した後、画像データのＴｏｋｅｎセマンティック表現特徴を生成する。

【0037】

Ｓ２３、テキストデータを複数のＴｏｋｅｎに分割し、多層のモーダル内の注意メカニズムで学習した後、テキストデータのＴｏｋｅｎセマンティック表現特徴を生成する。

【0038】

具体的には、テキストデータ入力Ｗに対して、テキストデータ入力Ｗを複数のＴｏｋｅｎに分割し、全てのＴｏｋｅｎ全体を入力Ｗ＝｛［ＣＬＳ］、Ｗ１、．．．Ｗｔ、［ＳＥＰ］｝として、ｔが正の整数であり、特殊記号［ＣＬＳ］と［ＳＥＰ］がそれぞれテキストシーケンスの開始位置と終了位置を表し、その後、多層のモーダル内の注意メカニズムで学習した後、テキストデータのＴｏｋｅｎセマンティック表現特徴を生成する。

【0039】

Ｓ２４：画像テキストペアデータをそれぞれ分割して結合し、画像テキストペアデータの異なるモーダルの複数のＴｏｋｅｎを生成し、多層のモーダル内の注意メカニズムと多層のモーダル間の注意メカニズムで順次に学習し、モーダル情報融合層で情報融合を行い、画像テキストペアデータのモーダル間のセマンティック表現特徴を生成する。

【0040】

具体的には、画像テキストペアデータ入力（Ｖ，Ｗ）に対して、画像テキストペアデータ入力（Ｖ，Ｗ）をそれぞれ分割して結合し、全体（Ｖ，Ｗ）＝｛［ＩＭＧ］、Ｖ１、．．．、Ｖｎ、［ＣＬＳ］、Ｗ１、．．．Ｗｔ、［ＳＥＰ］｝として使用し、多層のモーダル内の注意メカニズムと多層のモーダル間の注意メカニズムで順次に学習し、モーダル情報融合層で情報融合を行い、画像テキストペアデータのモーダル間のセマンティック表現特徴を生成する。

【0041】

本開示の実施例では、デカップリング注意Ｔｒａｎｓｆｏｒｍｅｒ学習モデルは、画像データとテキストデータをそれぞれモーダル内の注意メカニズム学習で学習し、画像テキストペアデータをモーダル間の注意メカニズムで学習し、モーダル内の注意メカニズムとモーダル間の注意メカニズムをデカップリングし、シングルモーダルデータとＰａｉｒマルチモーダルデータを同時に使用するできるため、複数の異なるモーダルデータや複数の異なる相関度の画像テキストデータに適用でき、マルチモーダルのセマンティック表示をエンドツーエンドで学習することができる。さらに、画像テキストペアデータを多層のモーダル内の注意メカニズムと多層のモーダル間の注意メカニズムで学習した後、モーダル情報融合層で情報融合を行い、異なるモーダルデータに対して適応的に情報融合を行い、Ｐａｉｒマルチモーダルセマンティック表現特徴をエンドツーエンドで生成し、モデルがロバスト性のより高いセマンティック表現能力を得るようにする。

【0042】

いくつかの実施例では、モーダル情報融合層で情報融合を行うステップは、ゲート付きメカニズムを採用して、画像テキストペアデータの異なるモーダル間の相関度に基づいて、異なるモーダルのモーダル間情報を制御して融合するステップを含む。

【0043】

画像テキストペアデータの異なるモーダル間の相関度はデータコンテンツによって決定されたものであり、インターネットにおける画像テキストペアデータには複数種類の関連形式が存在し、例えば、相関が強い画像テキストにおいて、テキストが画像に対する記述であり、相関が弱い画像テキストにおいてテキストが画像との相関が弱い。

【0044】

例示的には、強い相関と弱い相関は、以下のように理解することができる。フルーツデコレーションケーキの画像に、以下の２種類のテキストを付け加えて画像テキストペアを構成すると、それぞれ強い相関と弱い相関になる。強い相関の場合、テキストコンテンツが「フルーツデコレーションケーキの上にろうそくが何本か燃えていて、１人の女の子がろうそくを吹いている」であり、弱い相関の場合、テキストコンテンツが「マイベイビー、誕生日おめでとう！」であり、この２つのタイプのデータが実際のデータに広く存在するため、モデルが効率的にモデリングする能力が必要である。

【0045】

ゲート付き（ｇａｔｉｎｇ）メカニズムで情報融合を行うことは融合構想であり、具体的な実現は複数種類の方法で行うことができる。例示的な実施例では、モーダル内の情報表示特徴Ｘとモーダル間情報表示特徴Ｙとを多層の非線形変換することにより、最終的に、モーダル内の情報表示とモーダル間情報表示との相関ゲートコントロール重みδ＝ｓｉｇｍｏｉｄ（ＭＬＰ（Ａ＊Ｘ＋Ｂ＊Ｙ））∈［０，１］を算出し、Ａ、Ｂがいずれも変換行列であり、重みに基づいて重み付けを行ってモーダル間のセマンティック表現特徴Ｚ＝δ＊Ｘ＋（１－δ）＊Ｙを得る。

【0046】

本開示の実施例では、検索エンジンによってインターネットから数億個の異なるタイプの画像テキストデータをキャプチャし、インターネットにおけるＰａｉｒマルチモーダルデータ間のセマンティック相関度が千変万化するため、強い相関、弱い相関、さらには関連のないものもある。異なるタイプデータがモーダル間のインタラクションを適応的に学習することに対して、適応情報融合層でゲート付きメカニズムを採用して、エンドツーエンドで適応的に画像テキストデータ間の相関度に基づいて、モーダル間情報の融合度合いを適応的に制御することができる。

【0047】

図３に示すように、上記Ｓ２４の後に、Ｓ２５を実行する。

【0048】

Ｓ２５、画像データのＴｏｋｅｎセマンティック表現特徴に基づいて、画像再構成自己教師あり学習に基づいてデカップリング注意Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルをトレーニングする。

【0049】

画像再構成自己教師あり学習は、以下のように理解されることができる。１枚のピクチャの画像データの入力に対して、ピクチャを分割し、ｎ個のＴｏｋｅｎに分割し、各Ｔｏｋｅｎを符号化し、そのうちの少なくとも１つのＴｏｋｅｎを取り出してモデルの入力としなく、残りのＴｏｋｅｎを入力として、デカップリング注意Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルで、画像データのＴｏｋｅｎセマンティック表現特徴を得て、取り出されたＴｏｋｅｎを予測することができ、さらに予測されたＴｏｋｅｎを取り出されたＴｏｋｅｎと比較し、デカップリング注意Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルにおけるパラメータを調整し、デカップリング注意Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルをトレーニングする目的を達成する。

【0050】

Ｓ２６、テキストデータのＴｏｋｅｎセマンティック表現特徴に基づいて、マスク自己回帰自己教師あり学習に基づいてデカップリング注意Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルをトレーニングする。

【0051】

マスク自己回帰自己教師あり学習に基づいては、以下のように理解することができる。複数の文字が含まれるテキストデータの入力に対して、テキストデータを分割し、ｎ個のＴｏｋｅｎに分割し、各Ｔｏｋｅｎを符号化し、そのうちの少なくとも１つのＴｏｋｅｎをマスクし、モデルの入力としなく、残りのＴｏｋｅｎを入力とすると理解されてもよく、デカップリング注意Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルで、テキストデータのＴｏｋｅｎセマンティック表現特徴を得て、マスクのＴｏｋｅｎを予測することができ、さらに予測されたＴｏｋｅｎをマスクのＴｏｋｅｎと比較し、デカップリング注意Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルにおけるパラメータを調整し、デカップリング注意Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルをトレーニングする目的を達成する。

【0052】

Ｓ２７、画像テキストペアデータのモーダル間のセマンティック表現特徴に基づいて、モーダル間の相関比較学習に基づいてデカップリング注意Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルをトレーニングする。

【0053】

モーダル間の相関比較学習に基づいて、以下のように理解することができる。画像テキストペアデータには画像データとテキストデータが含まれ、ピクチャの画像データの入力に対して、ピクチャを分割し、ｎ個のＴｏｋｅｎに分割し、各Ｔｏｋｅｎを符号化し、そのうちの少なくとも１つのＴｏｋｅｎを取り出してモデルの入力とせず、残りのＴｏｋｅｎを入力とし、複数の文字が含まれるテキストデータの入力に対して、テキストデータを分割し、ｎ個のＴｏｋｅｎに分割し、各Ｔｏｋｅｎを符号化し、そのうちの少なくとも１つのＴｏｋｅｎをマスクし、モデルの入力とせず、残りのＴｏｋｅｎを入力とする。

【0054】

画像データ入力のＴｏｋｅｎとテキストデータ入力のＴｏｋｅｎを共にデカップリング注意Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルに入力し、取り出された画像データ入力のＴｏｋｅｎとマスクされたテキストデータ入力のＴｏｋｅｎを予測する場合、画像データとテキストデータの相関、すなわちモーダル間の相関に合わせて共に予測し、画像データのＴｏｋｅｎセマンティック表現特徴を得て、取り出された画像データのＴｏｋｅｎを予測でき、テキストデータのＴｏｋｅｎセマンティック表現特徴を得て、テキストデータマスクのＴｏｋｅｎを予測でき、それぞれ比較分析を行い、デカップリング注意Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルにおけるパラメータを調整し、デカップリング注意Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルをトレーニングする目的を達成する。

【0055】

本開示の実施例では、画像において画像再構成自己教師あり学習を用いて、テキストにおいてマスク自己回帰自己教師あり学習を用いて、画像テキストペアにおいてモーダル間の相関比較学習を同時に用いて、これによって複数種類の異なるモーダルデータの統一的なエンドツーエンド学習を実現する。同時に、デカップリング注意Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルをトレーニングする中に、画像テキストペアデータに対して、画像テキストペアデータ間の相関に合わせて予測することができ、デカップリング注意Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルのロバスト性を向上させることができる。

【0056】

いくつかの実施例では、モーダル間の相関比較学習に基づいてデカップリング注意Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルをトレーニングするステップは、関連ランキングを採用して、モーダル間の相関比較学習に基づいて、デカップリング注意Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルをトレーニングするステップを含む。

【0057】

本開示の実施例では、モーダル間の相関比較学習は、関連ランキング思想を採用し、伝統的な画像テキストマッチング比較と区別し、複数種類の異なる相関度の画像テキストデータによりよく適応することができる。

【0058】

本開示の実施例によって提供されるマルチモーダルデータ連合学習モデルトレーニング方法は、ネットワーク上のシングルモーダルデータとＰａｉｒマルチモーダルデータを同時に用いて、デカップリング注意Ｔｒａｎｓｆｏｒｍｅｒ学習モデルをトレーニングして、種類の異なるモーダルデータの相互増強を効果的に用いて、ロバスト性がより高くてより強大な汎用セマンティック表示能力をマルチモーダルデータから得て、統一的なネットワーク構造モデルを使用して異なるモーダルのデータを処理するとともに、異なるモーダルデータの理解タスクと生成タスクを実行することができ、より正確なシーン認知とより総合的な論理推理能力を持っている。

【0059】

図４は、本開示の第３の実施例に係る概略図である。

【0060】

図４に示すように、本開示の第３の実施例は、マルチモーダルデータ連合学習モデルトレーニング装置１０をさらに提供し、当該モデルトレーニング装置１０が、データ取得ユニット１１、セマンティック表示ユニット１２及びモデルトレーニングユニット１３を含む。

【0061】

データ取得ユニット１１は、少なくとも１種類のシングルモーダルデータと少なくとも１種類のペアＰａｉｒマルチモーダルデータを含むマルチモーダルデータを取得する。

【0062】

セマンティック表示ユニット１２は、シングルモーダルデータとＰａｉｒマルチモーダルデータをデカップリング注意変換Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルに入力し、それぞれセマンティック要素のＴｏｋｅｎセマンティック表現特徴とモーダル間のセマンティック表現特徴を生成する。

【0063】

モデルトレーニングユニット１３は、Ｔｏｋｅｎセマンティック表現特徴とモーダル間のセマンティック表現特徴に基づいて、デカップリング注意Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルをトレーニングする。

【0064】

本開示の実施例によって提供されるマルチモーダルデータ連合学習モデルトレーニング装置１０では、データ取得ユニット１１は、少なくとも１種類のシングルモーダルデータと少なくとも１種類のペアＰａｉｒマルチモーダルデータを含むマルチモーダルデータを取得する。セマンティック表示ユニット１２は、シングルモーダルデータとＰａｉｒマルチモーダルデータをデカップリング注意変換Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルに入力し、それぞれセマンティック要素のＴｏｋｅｎセマンティック表現特徴とモーダル間のセマンティック表現特徴を生成する。モデルトレーニングユニット１３は、Ｔｏｋｅｎセマンティック表現特徴とモーダル間のセマンティック表現特徴に基づいて、デカップリング注意Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルをトレーニングする。これにより、デカップリング注意Ｔｒａｎｓｆｏｒｍｅｒ学習モデルはトレーニングし、種類の異なるモーダルデータの相互増強を効果的に用いて、ロバスト性がより高くてより強大な汎用セマンティック表示能力をマルチモーダルデータから得て、統一的なネットワーク構造モデルを使用して異なるモーダルのデータを処理するとともに、異なるモーダルデータの理解タスクと生成タスクを実行することができ、より正確なシーン認知とより総合的な論理推理能力を持っている。

【0065】

図５は、本開示の第４の実施例に係る概略図である。

【0066】

図５に示すように、本開示の実施例によって提供されるマルチモーダルデータ連合学習モデルトレーニング装置２０では、少なくとも１つのシングルモーダルデータは、画像データとテキストデータを含み、少なくとも１つのＰａｉｒマルチモーダルデータは、画像テキストペアデータを含み、デカップリング注意Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルは、モーダル内の注意メカニズム、モーダル間の注意メカニズム及びモーダル情報融合層が含まれるネットワーク構造を含む。

【0067】

本開示の実施例によって提供されるモデルトレーニング装置２０は、データ取得ユニット２１、画像データセマンティック表示ユニット２２、テキストデータセマンティック表示ユニット２３及び画像テキストペアデータセマンティック表示ユニット２４を含む。

【0068】

データ取得ユニット２１は、少なくとも１種類のシングルモーダルデータと少なくとも１種類のペアＰａｉｒマルチモーダルデータを含むマルチモーダルデータを取得する。

【0069】

画像データセマンティック表示ユニット２２は、画像データを複数のＴｏｋｅｎに分割し、多層のモーダル内の注意メカニズムで学習した後、画像データのＴｏｋｅｎセマンティック表現特徴を生成する。

【0070】

テキストデータセマンティック表示ユニット２３は、テキストデータを複数のＴｏｋｅｎに分割し、多層のモーダル内の注意メカニズムで学習した後、テキストデータのＴｏｋｅｎセマンティック表現特徴を生成する。

【0071】

画像テキストペアデータセマンティック表示ユニット２４は、画像テキストペアデータをそれぞれ分割して結合し、画像テキストペアデータの異なるモーダルの複数のＴｏｋｅｎを生成し、多層のモーダル内の注意メカニズムと多層のモーダル間の注意メカニズムで順次に学習し、モーダル情報融合層で情報融合を行い、画像テキストペアデータのモーダル間のセマンティック表現特徴を生成する。

【0072】

いくつかの実施例では、画像テキストペアデータセマンティック表示ユニット２４は、さらにゲート付きメカニズムを採用して、前記画像テキストペアデータの異なるモーダル間の相関度に基づいて、異なるモーダルのモーダル間情報を制御して融合する。

【0073】

いくつかの実施例では、図６に示すように、本開示の実施例によって提供されるモデルトレーニング装置２０は、さらに画像トレーニングサブユニット２５、テキストトレーニングサブユニット２６及び画像テキストペアトレーニングサブユニット２７を含む。

【0074】

画像トレーニングサブユニット２５は、画像データのＴｏｋｅｎセマンティック表現特徴に基づいて、画像再構成自己教師あり学習に基づいてデカップリング注意Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルをトレーニングする。

【0075】

テキストトレーニングサブユニット２６は、テキストデータのＴｏｋｅｎセマンティック表現特徴に基づいて、マスク自己回帰自己教師あり学習に基づいてデカップリング注意Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルをトレーニングする。

【0076】

画像テキストペアトレーニングサブユニット２７は、画像テキストペアデータのモーダル間のセマンティック表現特徴に基づいて、モーダル間の相関比較学習に基づいてデカップリング注意Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルをトレーニングする。

【0077】

いくつかの実施例では、本開示の実施例では、画像テキストペアトレーニングサブユニット２７は、さらに関連ランキングを採用して、モーダル間の相関比較学習に基づいて、デカップリング注意Ｔｒａｎｓｆｏｒｍｅｒネットワークモデルをトレーニングする。

【0078】

なお、本実施の図５のマルチモーダルデータ連合学習モデルトレーニング装置２０は、上記実施例のマルチモーダルデータ連合学習モデルトレーニング装置１０と、データ取得ユニット２１は、上記実施例のデータ取得ユニット１１と同じ機能及び構成を有してもよい。

【0079】

なお、上記マルチモーダル連合学習モデルトレーニング方法についての説明は、本実施例のマルチモーダル連合学習モデルトレーニング装置にも適用され、ここでは説明を省略する。

【0080】

本開示の実施例によって提供されるマルチモーダルデータ連合学習モデルトレーニング装置は、ネットワーク上のシングルモーダルデータとＰａｉｒマルチモーダルデータを同時に用いて、デカップリング注意Ｔｒａｎｓｆｏｒｍｅｒ学習モデルをトレーニングして、種類の異なるモーダルデータの相互増強を効果的に用いて、ロバスト性がより高くてより強大な汎用セマンティック表示能力をマルチモーダルデータから得て、統一的なネットワーク構造モデルを使用して異なるモーダルのデータを処理するとともに、異なるモーダルデータの理解タスクと生成タスクを実行することができ、より正確なシーン認知とより総合的な論理推理能力を持っている。

【0081】

本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体、及びコンピュータプログラム製品をさらに提供する。

【0082】

図７は、本開示の実施例に係るマルチモーダルデータ連合学習モデルトレーニング方法を実現するための電子機器のブロック図である。

【0083】

電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、および他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、および他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示される部品、それらの接続と関係、およびそれらの機能は、単なる例であり、本明細書の説明および／または求められる本開示の実現を制限することを意図したものではない。

【0084】

図７に示すように、電子機器５００は、読み取り専用メモリ（ＲＯＭ）５０２に記憶されているコンピュータプログラムまたは記憶ユニット５０８からランダムアクセスメモリ（ＲＡＭ）５０３にロードされたコンピュータプログラムに従って様々な適切な動作および処理を実行する計算ユニット５０１を含む。ＲＡＭ５０３には、電子機器５００の動作に必要な各種のプログラムやデータも記憶されてもよい。計算ユニット５０１、ＲＯＭ５０２、及びＲＡＭ５０３は、バス５０４を介して互いに接続されている。パス５０４には、入力／出力（Ｉ／Ｏ）インターフェース５０５も接続されている。

【0085】

電子機器５００の複数のコンポーネントはＩ／Ｏインターフェース５０５に接続され、キーボード、マウスなどの入力ユニット５０６、各タイプのディスプレイ、スピーカなどの出力ユニット５０７、磁気ディスク、光ディスクなどの記憶ユニット５０８、及びネットワークカード、モデム、無線通信トランシーバなどの通信ユニット５０９を含む。通信ユニット５０９は、デバイス５００が、インターネットなどのコンピュータネットワークおよび／または各種の電信ネットワークを介して他のデバイスと情報／データを交換することを可能にする。

【0086】

計算ユニット５０１は、処理および計算能力を有する様々な汎用および／または専用の処理コンポーネントであってもよい。計算ユニット５０１のいくつかの例は、中央処理ユニット（ＣＰＵ）、グラフィック処理ユニット（ＧＰＵ）、各種の専用の人工知能（ＡＩ）計算チップ、各種のマシン運転学習モデルアルゴリズムの計算ユニット、デジタル信号プロセッサ（ＤＳＰ）、およびいずれかの適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット５０１は、前文に記載の各方法及び処理、例えば、マルチモーダルデータ連合学習モデルトレーニング方法を実行する。

【0087】

例えば、いくつかの実施例では、マルチモーダルデータ連合学習モデルトレーニング方法を、記憶ユニット５０８などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施例では、コンピュータプログラムの一部または全部はＲＯＭ５０２および／または通信ユニット５０９を介して電子機器５００にロードおよび／またはインストールされてもよい。コンピュータプログラムがＲＡＭ５０３にロードされ、計算ユニット５０１によって実行される場合、前文に記載のマルチモーダルデータ連合学習モデルトレーニング方法の１つまたは複数のステップが実行されてもよい。代替的に、他の実施例では、計算ユニット５０１はマルチモーダルデータ連合学習モデルトレーニング方法を実行するように、他のいずれかの適切な方式（例えば、ファームウェアを介して）によって配置されてもよい。

【0088】

本明細書で上記記載されたシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックス・プログラマブル・ロジック・デバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせで実現することができる。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラム可能なシステムで実行および／または解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも１つの入力装置、および少なくとも１つの出力装置からデータおよび命令を受信し、データおよび命令を当該ストレージシステム、当該少なくとも１つの入力装置、および当該少なくとも１つの出力装置に伝送することができる。

【0089】

本開示のマルチモーダル連合学習モデルトレーニング方法を実行するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組み合わせで書くことができる。これらのプログラムコードは、プロセッサ又はコントローラによって実行された際に、フローチャートおよび／またはブロック図に規定された機能／操作が実施されるように、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよい。プログラムコードは、完全に機械上で実行されるか、部分的に機械上で実行されるか、スタンドアロンソフトウェアパッケージとして、部分的に機械上で実行され、部分的にリモート機械上で実行され又は完全にリモート機械又はサーバ上で実行されてもよい。

【0090】

本開示のコンテクストでは、機械読み取り可能な媒体は、命令実行システム、装置、またはデバイスによって使用されるために、又は命令実行システム、装置、またはデバイスと組み合わせて使用するためのプログラムを含むか、又は記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体システム、装置又はデバイス、または上記コンテンツのいずれかの適切な組み合わせを含むことができるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、１つ又は複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、または上記コンテンツのいずれかの適切な組み合わせを含む。

【0091】

ユーザとのインタラクションを提供するために、ここで説明されるシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、ビジョンフィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形式（音響入力と、音声入力、または、触覚入力とを含む）でユーザからの入力を受信することができる。

【0092】

ここで説明されるシステムおよび技術は、バックエンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインターフェース又は当該ウェブブラウザによってここで説明されるシステムおよび技術の実施形態とインタラクションできる）、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントのいずれかの組み合わせを含むコンピューティングシステムで実行することができる。いずれかの形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットと、ブロックチェーンネットワークを含む。

【0093】

コンピュータシステムは、クライアントとサーバを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント－サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおける１つのホスト製品であり、従来の物理ホストとＶＰＳサービス（「ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ」，または「ＶＰＳ」と省略する）に存在する管理の難しさ、ビジネス拡張性の弱いという欠陥を解決した。サーバは分散システムのサーバであってもよく、ブロックチェーンを組み込んだサーバであってもよい。

【0094】

文脈に特に要求がない限り、明細書および特許請求の範囲全体にわたって、「含む」という用語が「開放、包含する」というセマンティックと解釈され、すなわち「含むが、限定されない」である。本明細書の説明では、「いくつかの実施例」、「例示的な実施例」、「例示的」などという用語は、当該実施例に相関する特定の特徴、構造、材料または特性が本開示の少なくとも１つの実施例または例に含まれることを示すことを意図している。上記の用語の概略的な表現は、必ずしも同じ実施例または例を指すものではない。また、前記特定の特徴、構造、材料または特点は、任意の適切な形態で、任意の１つまたは複数の実施例または例に含まれることができる。

【0095】

「複数の」というセマンティックは、別途な説明がない限り、２つ以上である。「Ａおよび／またはＢ」は、Ａのみ、Ｂのみ、及びＡとＢの３つの組合せを含む。

【0096】

本明細書で「使用される」という表現は、追加のタスクまたはステップを実行するように、適用、構成されたデバイスを排除することなく、開放および包容性の言語を意味する。

【0097】

また、「に基づく」という表現は、１つまたは複数の条件または値に基づくプロセス、ステップ、計算、または他の動作が、実際には追加の条件に基づいてもよく、または、前記の値を超えてもよいため、開放および包容性を意味する。

【0098】

なお、上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができると理解されたい。例えば、本出願に記載の各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案の所望の結果を実現することができれば、本明細書ではここで限定されない。

【0099】

上記具体的な実施形態は、本開示の保護範囲を制限するものではない。当業者は、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができると理解されたい。任意の本開示の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれなければならない。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版