IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特許7429734マルチモーダルデータ連合学習モデルトレーニング方法及び装置
<>
  • 特許-マルチモーダルデータ連合学習モデルトレーニング方法及び装置 図1
  • 特許-マルチモーダルデータ連合学習モデルトレーニング方法及び装置 図2
  • 特許-マルチモーダルデータ連合学習モデルトレーニング方法及び装置 図3
  • 特許-マルチモーダルデータ連合学習モデルトレーニング方法及び装置 図4
  • 特許-マルチモーダルデータ連合学習モデルトレーニング方法及び装置 図5
  • 特許-マルチモーダルデータ連合学習モデルトレーニング方法及び装置 図6
  • 特許-マルチモーダルデータ連合学習モデルトレーニング方法及び装置 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-31
(45)【発行日】2024-02-08
(54)【発明の名称】マルチモーダルデータ連合学習モデルトレーニング方法及び装置
(51)【国際特許分類】
   G06N 20/00 20190101AFI20240201BHJP
   G06F 16/908 20190101ALI20240201BHJP
【FI】
G06N20/00
G06F16/908
【請求項の数】 9
(21)【出願番号】P 2022108385
(22)【出願日】2022-07-05
(65)【公開番号】P2022137145
(43)【公開日】2022-09-21
【審査請求日】2022-07-05
(31)【優先権主張番号】202110781928.8
(32)【優先日】2021-07-12
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100114557
【弁理士】
【氏名又は名称】河野 英仁
(74)【代理人】
【識別番号】100078868
【弁理士】
【氏名又は名称】河野 登夫
(72)【発明者】
【氏名】リ,ウェイ
(72)【発明者】
【氏名】ガオ,ツァン
(72)【発明者】
【氏名】ニウ,グォツン
(72)【発明者】
【氏名】シャオ,シンヤン
(72)【発明者】
【氏名】リウ,ハオ
(72)【発明者】
【氏名】リウ,ジャツェン
(72)【発明者】
【氏名】ウ,ファ
(72)【発明者】
【氏名】ワン,ハイフェン
【審査官】大塚 俊範
(56)【参考文献】
【文献】中国特許出願公開第112668671(CN,A)
【文献】PAN, H. et al.,Modeling Intra and Inter-modality Incongruity for Multi-Modal Sarcasm Detection,Findings of the Association for Computational Linguistics: EMNLP 2020,Association for Computational Linguistics,2020年11月,pp. 1383-1392,[online], [retrieved on 2023-07-27], Retrieved from <https://aclanthology.org/2020.findings-emnlp.124> <doi: 10.18653/v1/2020.findings-emnlp.124>
【文献】HENDRICKS, L. A. et al.,Decoupling the Role of Data, Attention, and Losses in Multimodal Transformers,Transactions of the Association for Computational Linguistics,2021年07月08日,Volume 9,pp. 570-585,[online], [retrieved on 2023-07-27], Retrieved from <https://doi.org/10.1162/tacl_a_00385>
【文献】HU, R. et al.,UniT: Multimodal Multitask Learning with a Unified Transformer,arXiv:2102.10772v2 [cs.CV],2021年03月,pp. 1-16,[online], [retrieved on 2023-07-27], Retrieved from <https://arxiv.org/abs/2102.10772v2> <doi: 10.48550/arXiv.2102.10772>
(58)【調査した分野】(Int.Cl.,DB名)
G06N 20/00
G06F 16/908
(57)【特許請求の範囲】
【請求項1】
マルチモーダルデータ連合学習モデルトレーニング装置によって実行されるマルチモーダルデータ連合学習モデルトレーニング方法であって、
少なくとも1種類のシングルモーダルデータと少なくとも1種類のPairマルチモーダルデータを含むマルチモーダルデータを取得するステップと、
前記シングルモーダルデータと前記Pairマルチモーダルデータをデカップリング注意Transformerネットワークモデルに入力し、それぞれセマンティック要素のTokenセマンティック表現特徴とモーダル間のセマンティック表現特徴を生成するステップと、
前記Tokenセマンティック表現特徴と前記モーダル間のセマンティック表現特徴に基づいて、前記デカップリング注意Transformerネットワークモデルをトレーニングするステップと、を含み、
前記少なくとも1つのシングルモーダルデータは、画像データとテキストデータを含み、前記少なくとも1つのPairマルチモーダルデータは、画像テキストペアデータを含み、前記デカップリング注意Transformerネットワークモデルは、モーダル内の注意メカニズム、モーダル間の注意メカニズム及びモーダル情報融合層が含まれるネットワーク構造を含み、
前記シングルモーダルデータと前記Pairマルチモーダルデータをデカップリング注意Transformerネットワークモデルに入力し、それぞれTokenセマンティック表現特徴とモーダル間のセマンティック表現特徴を生成するステップは、
前記画像データを複数のTokenに分割し、多層の前記モーダル内の注意メカニズムで学習した後、前記画像データのTokenセマンティック表現特徴を生成するステップと、
前記テキストデータを複数のTokenに分割し、多層の前記モーダル内の注意メカニズムで学習した後、前記テキストデータのTokenセマンティック表現特徴を生成するステップと、
前記画像テキストペアデータをそれぞれ分割して結合し、前記画像テキストペアデータの異なるモーダルの複数のTokenを生成し、多層の前記モーダル内の注意メカニズムと多層の前記モーダル間の注意メカニズムで順次に学習し、前記モーダル情報融合層で情報融合を行い、前記画像テキストペアデータのモーダル間のセマンティック表現特徴を生成するステップと、を含み、
前記Tokenセマンティック表現特徴と前記モーダル間のセマンティック表現特徴に基づいて、前記デカップリング注意Transformerネットワークモデルをトレーニングするステップは、
前記画像データのTokenセマンティック表現特徴に基づいて、画像再構成自己教師あり学習に基づいて前記デカップリング注意Transformerネットワークモデルをトレーニングするステップと、
前記テキストデータのTokenセマンティック表現特徴に基づいて、マスク自己回帰自己教師あり学習に基づいて前記デカップリング注意Transformerネットワークモデルをトレーニングするステップと、
前記画像テキストペアデータのモーダル間のセマンティック表現特徴に基づいて、モーダル間の相関比較学習に基づいて前記デカップリング注意Transformerネットワークモデルをトレーニングするステップと、を含む、
マルチモーダルデータ連合学習モデルトレーニング方法。
【請求項2】
前記モーダル情報融合層で情報融合を行うステップは、
ゲート付きメカニズムを採用して、前記画像テキストペアデータの異なるモーダル間の相関度に基づいて、異なるモーダルのモーダル間情報を制御して融合するステップを含む、
請求項に記載の方法。
【請求項3】
モーダル間の相関比較学習に基づいて前記デカップリング注意Transformerネットワークモデルをトレーニングするステップは、
関連ランキングを採用して、モーダル間の相関比較学習に基づいて、前記デカップリング注意Transformerネットワークモデルをトレーニングするステップを含む、
請求項に記載の方法。
【請求項4】
マルチモーダルデータ連合学習モデルトレーニング装置であって、
少なくとも1種類のシングルモーダルデータと少なくとも1種類のPairマルチモーダルデータを含むマルチモーダルデータを取得するデータ取得ユニットと、
前記シングルモーダルデータと前記Pairマルチモーダルデータをデカップリング注意Transformerネットワークモデルに入力し、それぞれセマンティック要素のTokenセマンティック表現特徴とモーダル間のセマンティック表現特徴を生成するセマンティック表示ユニットと、
前記Tokenセマンティック表現特徴と前記モーダル間のセマンティック表現特徴に基づいて、前記デカップリング注意Transformerネットワークモデルをトレーニングするモデルトレーニングユニットと、を含み、
前記少なくとも1つのシングルモーダルデータは、画像データとテキストデータを含み、前記少なくとも1つのPairマルチモーダルデータは、画像テキストペアデータを含み、前記デカップリング注意Transformerネットワークモデルは、モーダル内の注意メカニズム、モーダル間の注意メカニズム及びモーダル情報融合層が含まれるネットワーク構造を含み、前記セマンティック表示ユニットは、
前記画像データを複数のTokenに分割し、多層の前記モーダル内の注意メカニズムで学習した後、前記画像データのTokenセマンティック表現特徴を生成する画像データセマンティック表示ユニットと、
前記テキストデータを複数のTokenに分割し、多層の前記モーダル内の注意メカニズムで学習した後、前記テキストデータのTokenセマンティック表現特徴を生成するテキストデータセマンティック表示ユニットと、
前記画像テキストペアデータをそれぞれ分割して結合し、前記画像テキストペアデータの異なるモーダルの複数のTokenを生成し、多層の前記モーダル内の注意メカニズムと多層の前記モーダル間の注意メカニズムで順次に学習し、前記モーダル情報融合層で情報融合を行い、前記画像テキストペアデータのモーダル間のセマンティック表現特徴を生成する画像テキストペアデータセマンティック表示ユニットと、を含み、
前記モデルトレーニングユニットは、
前記画像データのTokenセマンティック表現特徴に基づいて、画像再構成自己教師あり学習に基づいて前記デカップリング注意Transformerネットワークモデルをトレーニングする画像トレーニングサブユニットと、
前記テキストデータのTokenセマンティック表現特徴に基づいて、マスク自己回帰自己教師あり学習に基づいて前記デカップリング注意Transformerネットワークモデルをトレーニングするテキストトレーニングサブユニットと、
前記画像テキストペアデータのモーダル間のセマンティック表現特徴に基づいて、モーダル間の相関比較学習に基づいて前記デカップリング注意Transformerネットワークモデルをトレーニングする画像テキストペアトレーニングサブユニットと、を含む、
マルチモーダルデータ連合学習モデルトレーニング装置。
【請求項5】
前記画像テキストペアデータセマンティック表示ユニットは、さらにゲート付きメカニズムを採用して、前記画像テキストペアデータの異なるモーダル間の相関度に基づいて、異なるモーダルのモーダル間情報を制御して融合する、
請求項に記載の装置。
【請求項6】
前記画像テキストペアトレーニングサブユニットはさらに、関連ランキングを採用して、モーダル間の相関比較学習に基づいて、前記デカップリング注意Transformerネットワークモデルをトレーニングする、
請求項に記載の装置。
【請求項7】
電子機器であって、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサによって実行される場合、前記少なくとも1つのプロセッサが請求項1~のいずれかに記載の方法を実行できる、
電子機器。
【請求項8】
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項1~のいずれかに記載の方法を実行させる、
非一時的なコンピュータ読み取り可能な記憶媒体。
【請求項9】
コンピュータプログラムであって、
前記コンピュータプログラムは、コンピュータで実行される場合、前記コンピュータに請求項1~のいずれかに記載の方法を実行させる、
コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示はコンピュータ技術の分野に関し、特に、マルチシーン認知向けのモーダル学習方法、装置、電子機器、及び記憶媒体に関する。
【背景技術】
【0002】
インターネット技術の発展に伴い、ネットワークには、テキスト、画像、オーディオ、ビデオなどの多くの異なるモーダルデータが存在している。
【0003】
関連技術では、処理されるデータタイプが異なることにより、人工知能技術の分野における応用層のタスクは、自然言語処理、コンピュータビジョン、音声認識などに区分され、このようなタスクを導きとする区分方式のため、一般的に単一モーダルデータに注目し、シングルモーダルデータに対する理解の技術案を設計し、AI(Artificial Intelligence、人工知能)がマルチモーダルデータを総合的に学習する必要があるという需要を無視している。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本開示は、マルチモーダルデータ連合学習モデルトレーニング方法、装置、電子機器及び記憶媒体を提供する。
【0005】
本開示の一態様によれば、マルチモーダルデータ連合学習モデルトレーニング方法を提供し、少なくとも1種類のシングルモーダルデータと少なくとも1種類のペアPairマルチモーダルデータを含むマルチモーダルデータを取得するステップと、前記シングルモーダルデータと前記Pairマルチモーダルデータをデカップリング注意変換Transformerネットワークモデルに入力し、それぞれセマンティック要素のTokenセマンティック表現特徴とモーダル間のセマンティック表現特徴を生成するステップと、前記Tokenセマンティック表現特徴と前記モーダル間のセマンティック表現特徴に基づいて、前記デカップリング注意Transformerネットワークモデルをトレーニングするステップと、を含む。これにより、デカップリング注意Transformerネットワークモデルが、複数種類の異なるモーダルデータを効果的に用いて互いに増強され、ロバスト性がより高くてより強大な汎用セマンティック表示能力をマルチモーダルデータから得て、統一的なネットワーク構造モデルを使用して異なるモーダルのデータを処理するとともに、異なるモーダルデータの理解タスクと生成タスクを実行することができ、より正確なシーン認知とより総合的な論理推理能力を持っている。
【0006】
本開示の第2の態様によれば、マルチモーダルデータ連合学習モデルトレーニング装置を提供し、データ取得ユニット、セマンティック表示ユニット及びモデルトレーニングユニットを含み、データ取得ユニットは、マルチモーダルデータを取得し、前記マルチモーダルデータに、少なくとも1種類のシングルモーダルデータと、少なくとも1種類のペアPairマルチモーダルデータとが含まれ、セマンティック表示ユニットは、前記シングルモーダルデータと前記Pairマルチモーダルデータをデカップリング注意変換Transformerネットワークモデルに入力し、それぞれセマンティック要素のTokenセマンティック表現特徴とモーダル間のセマンティック表現特徴を生成し、モデルトレーニングユニットは、前記Tokenセマンティック表現特徴と前記モーダル間のセマンティック表現特徴に基づいて、前記デカップリング注意Transformerネットワークモデルをトレーニングする。
【0007】
本開示の第3の態様によれば、電子機器を提供し、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含み、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサによって実行される場合、前記少なくとも1つのプロセッサが前記第1態様のいずれかに記載の方法を実行できる。
【0008】
本開示の第4の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、前記コンピュータに前記第1の態様のいずれかに記載の方法を実行させる。
本開示の第5の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムは、コンピュータで実行される場合、前記コンピュータに前記第1の態様のいずれかに記載の方法を実行させる。
【0009】
なお、この部分に記載のコンテンツは、本開示の実施例の肝心または重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していないことを理解されたい。本開示の他の特徴は、以下の説明を通して容易に理解される。
【図面の簡単な説明】
【0010】
図面は、本技術案をよりよく理解するために使用され、本開示を限定するものではない。
図1】本出願の第1の実施例に係る概略図である。
図2】本出願の第2の実施例に係る概略図である。
図3】本出願の第2の実施例に係る概略図である。
図4】本出願の第3の実施例に係る概略図である。
図5】本出願の第4の実施例に係る概略図である。
図6】本出願の第4の実施例に係る別の概略図である。
図7】本開示の実施例に係るマルチモーダルデータ連合学習モデルトレーニング方法を実現するための電子機器のブロック図である。
【発明を実施するための形態】
【0011】
以下、図面と併せて本開示の例示的な実施例を説明し、理解を容易にするためにその中には本開示の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、明確及び簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
【0012】
関連技術では、マルチモーダルデータ応用シーンのタスク、例えば、グラフィック検索、ビジュアルクイズなどを処理するために、様々なマルチモーダルデータ事前トレーニングモデル、例えば、前記Tokenセマンティック表現特徴と前記モーダル間のセマンティック表現特徴に基づいて、前記デカップリング注意TransformerネットワークモデルをトレーニングするiLBERT(Vision-and-Language Bidirectional Encoder Representation from Transformers、ビジョン-言語-変換器からの双方向符号化表現)などを提案し、マルチモーダルデータ事前トレーニングモデルは、画像テキストペア(Image-Text Pairs)のデータに基づいて自己教師あり学習を行い、これによって画像テキストペア連携セマンティック表現特徴を学習する。しかしながら、相関が強い画像テキストペアデータのみが使用されることに限定され、マルチモーダルデータ事前トレーニングモデルは、小規模なデータのトレーニングのみを行うことができ、そのトレーニングによって得られたモデルは、シングルモーダルタスク(例えば、テキストタスクまたは画像タスク)において使用することが困難である。
【0013】
これにより、本開示の発明者は、シングルモーダルデータや相関が強い画像テキストペアデータに対する事前トレーニングモデルが、多くの欠陥があると発現した。1)特定のタイプのデータに基づいて、特定のセマンティック表現特徴のみを得ることができ、汎用性に欠けている。2)異なるモーダルデータを統一的にモデリングすることができず、モーダル間の相互増強でロバスト性がより高い汎用セマンティック表現能力を学習することができない。3)異なるモーダルデータに対するモデリング方式が異なり、モデルが汎用ではないため、異なるモーダルデータをセマンティック空間において正確かつ効果的に統一することができない。4)既存のマルチモード事前トレーニング方法が、相関が強い画像と画像記述データのみに向いており、データ規模が制限され、実際のアプリケーション需要に合致していない。
【0014】
どうのようにして、インターネットにおける自然に生成されたシングルモーダル(文字、ピクチャ、ビデオなど)及びマルチモーダルデータ(画像テキスト結合、ビデオテキスト結合等)を同時に効果的に用いて、深層ニューラルネットワークが人間のように様々なモーダル知識と情報を連携して理解し、ロバスト性がより高くて強大な汎用セマンティック表現能力を複数種類のモーダルデータから得るようにするかは、人工知能の発展にとって重大な意義を持っている。
【0015】
これに基づいて、本開示は、マルチモーダルデータ連合学習モデルトレーニング方法を提供し、図1は本開示の第1の実施例に係る概略図である。
【0016】
図1に示すように、当該方法は、以下のステップS1~S3を含む。
【0017】
S1、少なくとも1種類のシングルモーダルデータと少なくとも1種類のペアPairマルチモーダルデータを含むマルチモーダルデータを取得する。
【0018】
インターネットには多くの異なるタイプのデータが存在し、本開示の実施例では、検索エンジンを介してインターネットから画像データ、テキストデータ、オーディオデータ、画像テキストペアデータ、及びビデオテキストのペアのデータなど異なるタイプのデータをキャプチャすることができる。
【0019】
なお、シングルモーダルデータとは、テキストデータ、ピクチャデータなどの単一モーダルを指す。Pairマルチモーダルデータは、例えば、画像テキスト結合のデータ、ビデオテキストのペアのデータなどである。
【0020】
本開示の実施例では、マルチモーダルデータに、少なくとも1種類のシングルモーダルデータと、少なくとも1種類のペアPairマルチモーダルデータとが含まれ、1つまたは複数種類のシングルモーダルデータ及び1つまたは複数種類のペアPairマルチモーダルデータを含むことができ、本開示の実施例は、これに対して限定しない。
【0021】
S2、シングルモーダルデータとPairマルチモーダルデータをデカップリング注意変換Transformerネットワークモデルに入力し、それぞれセマンティック要素のTokenセマンティック表現特徴とモーダル間のセマンティック表現特徴を生成する。
【0022】
本開示の実施例によって提供されるデカップリング注意変換Transformerネットワークモデルは、シングルモーダルデータとPairマルチモーダルデータを同時に使用して連合学習することができ、エンドツーエンドで統一的にモーダル学習することができる。
【0023】
本開示の実施例では、シングルモーダルデータとPairマルチモーダルデータを当該デカップリング注意Transformerネットワークモデルに入力し、それぞれセマンティック要素のTokenセマンティック表現特徴とモーダル間のセマンティック表現特徴を生成し、Tokenセマンティック表現特徴がシングルモーダルデータに基づいて生成されたものであり、モーダル間のセマンティック表現特徴がPairマルチモーダルデータに基づいて生成されたものである。
【0024】
S3、Tokenセマンティック表現特徴とモーダル間のセマンティック表現特徴に基づいて、デカップリング注意Transformerネットワークモデルをトレーニングする。
【0025】
Tokenセマンティック表現特徴とモーダル間のセマンティック表現特徴が得られた後、デカップリング注意Transformerネットワークモデルをトレーニングして、取得されたシングルモーダルデータとPairマルチモーダルデータが含まれるマルチモーダルデータに対して統一的にモデリングし、トレーニングされたモデルがマルチモードデータを同時にマルチモーダルデータの理解タスクと生成タスクを処理し、例えば、ビジュアルクイズ、画像記述生成等及びシングルモーダルデータの理解タスクと生成タスク、例えば、テキスト分類、テキスト生成、画像分類などの能力を備えるようにする。
【0026】
本開示の実施例によって提供されるマルチモーダルデータ連合学習モデルトレーニング方法は、少なくとも1種類のシングルモーダルデータと少なくとも1種類のペアPairマルチモーダルデータを含むマルチモーダルデータを取得し、シングルモーダルデータとPairマルチモーダルデータをデカップリング注意変換Transformerネットワークモデルに入力し、それぞれセマンティック要素のTokenセマンティック表現特徴とモーダル間のセマンティック表現特徴を生成し、Tokenセマンティック表現特徴とモーダル間のセマンティック表現特徴に基づいて、デカップリング注意Transformerネットワークモデルをトレーニングする。これにより、デカップリング注意Transformerネットワークモデルが、複数種類の異なるモーダルデータを効果的に用いて互いに増強され、ロバスト性がより高くてより強大な汎用セマンティック表示能力をマルチモーダルデータから得て、統一的なネットワーク構造モデルを使用して異なるモーダルのデータを処理するとともに、異なるモーダルデータの理解タスクと生成タスクを実行することができ、より正確なシーン認知とより総合的な論理推理能力を持っている。
【0027】
図2は本開示の第2の実施例に係る概略図である。
【0028】
図2に示すように、本開示の実施例によって提供されるマルチモーダルデータ連合学習モデルトレーニング方法は、以下のステップS20~S27を含む。
【0029】
S20、少なくとも1種類のシングルモーダルデータと少なくとも1種類のペアPairマルチモーダルデータを含むマルチモーダルデータを取得する。
【0030】
いくつかの実施例では、少なくとも1つのシングルモーダルデータは、画像データとテキストデータを含み、少なくとも1つのPairマルチモーダルデータは、画像テキストペアデータを含み、本開示の実施例では、取得されたマルチモーダルデータは、画像データ、テキストデータ及び画像テキストペアデータを含む。
【0031】
S21、シングルモーダルデータとPairマルチモーダルデータをデカップリング注意変換Transformerネットワークモデルに入力し、それぞれセマンティック要素のTokenセマンティック表現特徴とモーダル間のセマンティック表現特徴を生成する。
【0032】
いくつかの実施例では、デカップリング注意Transformerネットワークモデルがモーダル内の注意メカニズム、モーダル間の注意メカニズム及びモーダル情報融合層が含まれるネットワーク構造を含む。
【0033】
具体的には、モーダル内の注意メカニズムはモーダル内部間のインタラクションを学習し、モーダル間の注意メカニズムはモーダル間情報インタラクションを学習し、モーダル情報融合層は異なるモーダル情報を融合してモーダル間のセマンティック表現特徴を得る。通常のTransformerに比べて、本開示の実施例では、デカップリング注意Transformer学習モデルは、モーダル内部とモーダル間のインタラクションをデカップリングし、すなわち、マルチモーダルデータのモーダル内部とモーダルとが互いに対話し、情報融合層で複数種類のモーダル情報融合を行い、複数の異なるモーダルのシングルモーダルデータ、及び異なる相関度の画像テキストペアデータに適用することができる。
【0034】
本開示の実施例では、S20とS21の説明は、上記実施例のS1とS2の説明を参照することができ、ここでは説明を省略する。
【0035】
S22、画像データを複数のTokenに分割し、多層のモーダル内の注意メカニズムで学習した後、画像データのTokenセマンティック表現特徴を生成する。
【0036】
具体的には、画像データ入力Vに対して、画像データ入力Vを複数のTokenに分割し、すなわち、Tokenが、分割画像の各対象領域の特徴を特徴付け、例示的には、各Tokenとともに画像全体の特徴構成シーケンスとする各画像のブロック画素を入力として使用し、V={[IMG]、V1、...、Vn}、nが正の整数であり、特殊符号[IMG]が、画像全体の特徴を表し、その後、多層のモーダル内の注意メカニズムで学習した後、画像データのTokenセマンティック表現特徴を生成する。
【0037】
S23、テキストデータを複数のTokenに分割し、多層のモーダル内の注意メカニズムで学習した後、テキストデータのTokenセマンティック表現特徴を生成する。
【0038】
具体的には、テキストデータ入力Wに対して、テキストデータ入力Wを複数のTokenに分割し、全てのToken全体を入力W={[CLS]、W1、...Wt、[SEP]}として、tが正の整数であり、特殊記号[CLS]と[SEP]がそれぞれテキストシーケンスの開始位置と終了位置を表し、その後、多層のモーダル内の注意メカニズムで学習した後、テキストデータのTokenセマンティック表現特徴を生成する。
【0039】
S24:画像テキストペアデータをそれぞれ分割して結合し、画像テキストペアデータの異なるモーダルの複数のTokenを生成し、多層のモーダル内の注意メカニズムと多層のモーダル間の注意メカニズムで順次に学習し、モーダル情報融合層で情報融合を行い、画像テキストペアデータのモーダル間のセマンティック表現特徴を生成する。
【0040】
具体的には、画像テキストペアデータ入力(V,W)に対して、画像テキストペアデータ入力(V,W)をそれぞれ分割して結合し、全体(V,W)={[IMG]、V1、...、Vn、[CLS]、W1、...Wt、[SEP]}として使用し、多層のモーダル内の注意メカニズムと多層のモーダル間の注意メカニズムで順次に学習し、モーダル情報融合層で情報融合を行い、画像テキストペアデータのモーダル間のセマンティック表現特徴を生成する。
【0041】
本開示の実施例では、デカップリング注意Transformer学習モデルは、画像データとテキストデータをそれぞれモーダル内の注意メカニズム学習で学習し、画像テキストペアデータをモーダル間の注意メカニズムで学習し、モーダル内の注意メカニズムとモーダル間の注意メカニズムをデカップリングし、シングルモーダルデータとPairマルチモーダルデータを同時に使用するできるため、複数の異なるモーダルデータや複数の異なる相関度の画像テキストデータに適用でき、マルチモーダルのセマンティック表示をエンドツーエンドで学習することができる。さらに、画像テキストペアデータを多層のモーダル内の注意メカニズムと多層のモーダル間の注意メカニズムで学習した後、モーダル情報融合層で情報融合を行い、異なるモーダルデータに対して適応的に情報融合を行い、Pairマルチモーダルセマンティック表現特徴をエンドツーエンドで生成し、モデルがロバスト性のより高いセマンティック表現能力を得るようにする。
【0042】
いくつかの実施例では、モーダル情報融合層で情報融合を行うステップは、ゲート付きメカニズムを採用して、画像テキストペアデータの異なるモーダル間の相関度に基づいて、異なるモーダルのモーダル間情報を制御して融合するステップを含む。
【0043】
画像テキストペアデータの異なるモーダル間の相関度はデータコンテンツによって決定されたものであり、インターネットにおける画像テキストペアデータには複数種類の関連形式が存在し、例えば、相関が強い画像テキストにおいて、テキストが画像に対する記述であり、相関が弱い画像テキストにおいてテキストが画像との相関が弱い。
【0044】
例示的には、強い相関と弱い相関は、以下のように理解することができる。フルーツデコレーションケーキの画像に、以下の2種類のテキストを付け加えて画像テキストペアを構成すると、それぞれ強い相関と弱い相関になる。強い相関の場合、テキストコンテンツが「フルーツデコレーションケーキの上にろうそくが何本か燃えていて、1人の女の子がろうそくを吹いている」であり、弱い相関の場合、テキストコンテンツが「マイベイビー、誕生日おめでとう!」であり、この2つのタイプのデータが実際のデータに広く存在するため、モデルが効率的にモデリングする能力が必要である。
【0045】
ゲート付き(gating)メカニズムで情報融合を行うことは融合構想であり、具体的な実現は複数種類の方法で行うことができる。例示的な実施例では、モーダル内の情報表示特徴Xとモーダル間情報表示特徴Yとを多層の非線形変換することにより、最終的に、モーダル内の情報表示とモーダル間情報表示との相関ゲートコントロール重みδ=sigmoid(MLP(A*X+B*Y))∈[0,1]を算出し、A、Bがいずれも変換行列であり、重みに基づいて重み付けを行ってモーダル間のセマンティック表現特徴Z=δ*X+(1-δ)*Yを得る。
【0046】
本開示の実施例では、検索エンジンによってインターネットから数億個の異なるタイプの画像テキストデータをキャプチャし、インターネットにおけるPairマルチモーダルデータ間のセマンティック相関度が千変万化するため、強い相関、弱い相関、さらには関連のないものもある。異なるタイプデータがモーダル間のインタラクションを適応的に学習することに対して、適応情報融合層でゲート付きメカニズムを採用して、エンドツーエンドで適応的に画像テキストデータ間の相関度に基づいて、モーダル間情報の融合度合いを適応的に制御することができる。
【0047】
図3に示すように、上記S24の後に、S25を実行する。
【0048】
S25、画像データのTokenセマンティック表現特徴に基づいて、画像再構成自己教師あり学習に基づいてデカップリング注意Transformerネットワークモデルをトレーニングする。
【0049】
画像再構成自己教師あり学習は、以下のように理解されることができる。1枚のピクチャの画像データの入力に対して、ピクチャを分割し、n個のTokenに分割し、各Tokenを符号化し、そのうちの少なくとも1つのTokenを取り出してモデルの入力としなく、残りのTokenを入力として、デカップリング注意Transformerネットワークモデルで、画像データのTokenセマンティック表現特徴を得て、取り出されたTokenを予測することができ、さらに予測されたTokenを取り出されたTokenと比較し、デカップリング注意Transformerネットワークモデルにおけるパラメータを調整し、デカップリング注意Transformerネットワークモデルをトレーニングする目的を達成する。
【0050】
S26、テキストデータのTokenセマンティック表現特徴に基づいて、マスク自己回帰自己教師あり学習に基づいてデカップリング注意Transformerネットワークモデルをトレーニングする。
【0051】
マスク自己回帰自己教師あり学習に基づいては、以下のように理解することができる。複数の文字が含まれるテキストデータの入力に対して、テキストデータを分割し、n個のTokenに分割し、各Tokenを符号化し、そのうちの少なくとも1つのTokenをマスクし、モデルの入力としなく、残りのTokenを入力とすると理解されてもよく、デカップリング注意Transformerネットワークモデルで、テキストデータのTokenセマンティック表現特徴を得て、マスクのTokenを予測することができ、さらに予測されたTokenをマスクのTokenと比較し、デカップリング注意Transformerネットワークモデルにおけるパラメータを調整し、デカップリング注意Transformerネットワークモデルをトレーニングする目的を達成する。
【0052】
S27、画像テキストペアデータのモーダル間のセマンティック表現特徴に基づいて、モーダル間の相関比較学習に基づいてデカップリング注意Transformerネットワークモデルをトレーニングする。
【0053】
モーダル間の相関比較学習に基づいて、以下のように理解することができる。画像テキストペアデータには画像データとテキストデータが含まれ、ピクチャの画像データの入力に対して、ピクチャを分割し、n個のTokenに分割し、各Tokenを符号化し、そのうちの少なくとも1つのTokenを取り出してモデルの入力とせず、残りのTokenを入力とし、複数の文字が含まれるテキストデータの入力に対して、テキストデータを分割し、n個のTokenに分割し、各Tokenを符号化し、そのうちの少なくとも1つのTokenをマスクし、モデルの入力とせず、残りのTokenを入力とする。
【0054】
画像データ入力のTokenとテキストデータ入力のTokenを共にデカップリング注意Transformerネットワークモデルに入力し、取り出された画像データ入力のTokenとマスクされたテキストデータ入力のTokenを予測する場合、画像データとテキストデータの相関、すなわちモーダル間の相関に合わせて共に予測し、画像データのTokenセマンティック表現特徴を得て、取り出された画像データのTokenを予測でき、テキストデータのTokenセマンティック表現特徴を得て、テキストデータマスクのTokenを予測でき、それぞれ比較分析を行い、デカップリング注意Transformerネットワークモデルにおけるパラメータを調整し、デカップリング注意Transformerネットワークモデルをトレーニングする目的を達成する。
【0055】
本開示の実施例では、画像において画像再構成自己教師あり学習を用いて、テキストにおいてマスク自己回帰自己教師あり学習を用いて、画像テキストペアにおいてモーダル間の相関比較学習を同時に用いて、これによって複数種類の異なるモーダルデータの統一的なエンドツーエンド学習を実現する。同時に、デカップリング注意Transformerネットワークモデルをトレーニングする中に、画像テキストペアデータに対して、画像テキストペアデータ間の相関に合わせて予測することができ、デカップリング注意Transformerネットワークモデルのロバスト性を向上させることができる。
【0056】
いくつかの実施例では、モーダル間の相関比較学習に基づいてデカップリング注意Transformerネットワークモデルをトレーニングするステップは、関連ランキングを採用して、モーダル間の相関比較学習に基づいて、デカップリング注意Transformerネットワークモデルをトレーニングするステップを含む。
【0057】
本開示の実施例では、モーダル間の相関比較学習は、関連ランキング思想を採用し、伝統的な画像テキストマッチング比較と区別し、複数種類の異なる相関度の画像テキストデータによりよく適応することができる。
【0058】
本開示の実施例によって提供されるマルチモーダルデータ連合学習モデルトレーニング方法は、ネットワーク上のシングルモーダルデータとPairマルチモーダルデータを同時に用いて、デカップリング注意Transformer学習モデルをトレーニングして、種類の異なるモーダルデータの相互増強を効果的に用いて、ロバスト性がより高くてより強大な汎用セマンティック表示能力をマルチモーダルデータから得て、統一的なネットワーク構造モデルを使用して異なるモーダルのデータを処理するとともに、異なるモーダルデータの理解タスクと生成タスクを実行することができ、より正確なシーン認知とより総合的な論理推理能力を持っている。
【0059】
図4は、本開示の第3の実施例に係る概略図である。
【0060】
図4に示すように、本開示の第3の実施例は、マルチモーダルデータ連合学習モデルトレーニング装置10をさらに提供し、当該モデルトレーニング装置10が、データ取得ユニット11、セマンティック表示ユニット12及びモデルトレーニングユニット13を含む。
【0061】
データ取得ユニット11は、少なくとも1種類のシングルモーダルデータと少なくとも1種類のペアPairマルチモーダルデータを含むマルチモーダルデータを取得する。
【0062】
セマンティック表示ユニット12は、シングルモーダルデータとPairマルチモーダルデータをデカップリング注意変換Transformerネットワークモデルに入力し、それぞれセマンティック要素のTokenセマンティック表現特徴とモーダル間のセマンティック表現特徴を生成する。
【0063】
モデルトレーニングユニット13は、Tokenセマンティック表現特徴とモーダル間のセマンティック表現特徴に基づいて、デカップリング注意Transformerネットワークモデルをトレーニングする。
【0064】
本開示の実施例によって提供されるマルチモーダルデータ連合学習モデルトレーニング装置10では、データ取得ユニット11は、少なくとも1種類のシングルモーダルデータと少なくとも1種類のペアPairマルチモーダルデータを含むマルチモーダルデータを取得する。セマンティック表示ユニット12は、シングルモーダルデータとPairマルチモーダルデータをデカップリング注意変換Transformerネットワークモデルに入力し、それぞれセマンティック要素のTokenセマンティック表現特徴とモーダル間のセマンティック表現特徴を生成する。モデルトレーニングユニット13は、Tokenセマンティック表現特徴とモーダル間のセマンティック表現特徴に基づいて、デカップリング注意Transformerネットワークモデルをトレーニングする。これにより、デカップリング注意Transformer学習モデルはトレーニングし、種類の異なるモーダルデータの相互増強を効果的に用いて、ロバスト性がより高くてより強大な汎用セマンティック表示能力をマルチモーダルデータから得て、統一的なネットワーク構造モデルを使用して異なるモーダルのデータを処理するとともに、異なるモーダルデータの理解タスクと生成タスクを実行することができ、より正確なシーン認知とより総合的な論理推理能力を持っている。
【0065】
図5は、本開示の第4の実施例に係る概略図である。
【0066】
図5に示すように、本開示の実施例によって提供されるマルチモーダルデータ連合学習モデルトレーニング装置20では、少なくとも1つのシングルモーダルデータは、画像データとテキストデータを含み、少なくとも1つのPairマルチモーダルデータは、画像テキストペアデータを含み、デカップリング注意Transformerネットワークモデルは、モーダル内の注意メカニズム、モーダル間の注意メカニズム及びモーダル情報融合層が含まれるネットワーク構造を含む。
【0067】
本開示の実施例によって提供されるモデルトレーニング装置20は、データ取得ユニット21、画像データセマンティック表示ユニット22、テキストデータセマンティック表示ユニット23及び画像テキストペアデータセマンティック表示ユニット24を含む。
【0068】
データ取得ユニット21は、少なくとも1種類のシングルモーダルデータと少なくとも1種類のペアPairマルチモーダルデータを含むマルチモーダルデータを取得する。
【0069】
画像データセマンティック表示ユニット22は、画像データを複数のTokenに分割し、多層のモーダル内の注意メカニズムで学習した後、画像データのTokenセマンティック表現特徴を生成する。
【0070】
テキストデータセマンティック表示ユニット23は、テキストデータを複数のTokenに分割し、多層のモーダル内の注意メカニズムで学習した後、テキストデータのTokenセマンティック表現特徴を生成する。
【0071】
画像テキストペアデータセマンティック表示ユニット24は、画像テキストペアデータをそれぞれ分割して結合し、画像テキストペアデータの異なるモーダルの複数のTokenを生成し、多層のモーダル内の注意メカニズムと多層のモーダル間の注意メカニズムで順次に学習し、モーダル情報融合層で情報融合を行い、画像テキストペアデータのモーダル間のセマンティック表現特徴を生成する。
【0072】
いくつかの実施例では、画像テキストペアデータセマンティック表示ユニット24は、さらにゲート付きメカニズムを採用して、前記画像テキストペアデータの異なるモーダル間の相関度に基づいて、異なるモーダルのモーダル間情報を制御して融合する。
【0073】
いくつかの実施例では、図6に示すように、本開示の実施例によって提供されるモデルトレーニング装置20は、さらに画像トレーニングサブユニット25、テキストトレーニングサブユニット26及び画像テキストペアトレーニングサブユニット27を含む。
【0074】
画像トレーニングサブユニット25は、画像データのTokenセマンティック表現特徴に基づいて、画像再構成自己教師あり学習に基づいてデカップリング注意Transformerネットワークモデルをトレーニングする。
【0075】
テキストトレーニングサブユニット26は、テキストデータのTokenセマンティック表現特徴に基づいて、マスク自己回帰自己教師あり学習に基づいてデカップリング注意Transformerネットワークモデルをトレーニングする。
【0076】
画像テキストペアトレーニングサブユニット27は、画像テキストペアデータのモーダル間のセマンティック表現特徴に基づいて、モーダル間の相関比較学習に基づいてデカップリング注意Transformerネットワークモデルをトレーニングする。
【0077】
いくつかの実施例では、本開示の実施例では、画像テキストペアトレーニングサブユニット27は、さらに関連ランキングを採用して、モーダル間の相関比較学習に基づいて、デカップリング注意Transformerネットワークモデルをトレーニングする。
【0078】
なお、本実施の図5のマルチモーダルデータ連合学習モデルトレーニング装置20は、上記実施例のマルチモーダルデータ連合学習モデルトレーニング装置10と、データ取得ユニット21は、上記実施例のデータ取得ユニット11と同じ機能及び構成を有してもよい。
【0079】
なお、上記マルチモーダル連合学習モデルトレーニング方法についての説明は、本実施例のマルチモーダル連合学習モデルトレーニング装置にも適用され、ここでは説明を省略する。
【0080】
本開示の実施例によって提供されるマルチモーダルデータ連合学習モデルトレーニング装置は、ネットワーク上のシングルモーダルデータとPairマルチモーダルデータを同時に用いて、デカップリング注意Transformer学習モデルをトレーニングして、種類の異なるモーダルデータの相互増強を効果的に用いて、ロバスト性がより高くてより強大な汎用セマンティック表示能力をマルチモーダルデータから得て、統一的なネットワーク構造モデルを使用して異なるモーダルのデータを処理するとともに、異なるモーダルデータの理解タスクと生成タスクを実行することができ、より正確なシーン認知とより総合的な論理推理能力を持っている。
【0081】
本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体、及びコンピュータプログラム製品をさらに提供する。
【0082】
図7は、本開示の実施例に係るマルチモーダルデータ連合学習モデルトレーニング方法を実現するための電子機器のブロック図である。
【0083】
電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、および他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、および他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示される部品、それらの接続と関係、およびそれらの機能は、単なる例であり、本明細書の説明および/または求められる本開示の実現を制限することを意図したものではない。
【0084】
図7に示すように、電子機器500は、読み取り専用メモリ(ROM)502に記憶されているコンピュータプログラムまたは記憶ユニット508からランダムアクセスメモリ(RAM)503にロードされたコンピュータプログラムに従って様々な適切な動作および処理を実行する計算ユニット501を含む。RAM 503には、電子機器500の動作に必要な各種のプログラムやデータも記憶されてもよい。計算ユニット501、ROM 502、及びRAM 503は、バス504を介して互いに接続されている。パス504には、入力/出力(I/O)インターフェース505も接続されている。
【0085】
電子機器500の複数のコンポーネントはI/Oインターフェース505に接続され、キーボード、マウスなどの入力ユニット506、各タイプのディスプレイ、スピーカなどの出力ユニット507、磁気ディスク、光ディスクなどの記憶ユニット508、及びネットワークカード、モデム、無線通信トランシーバなどの通信ユニット509を含む。通信ユニット509は、デバイス500が、インターネットなどのコンピュータネットワークおよび/または各種の電信ネットワークを介して他のデバイスと情報/データを交換することを可能にする。
【0086】
計算ユニット501は、処理および計算能力を有する様々な汎用および/または専用の処理コンポーネントであってもよい。計算ユニット501のいくつかの例は、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、各種の専用の人工知能(AI)計算チップ、各種のマシン運転学習モデルアルゴリズムの計算ユニット、デジタル信号プロセッサ(DSP)、およびいずれかの適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット501は、前文に記載の各方法及び処理、例えば、マルチモーダルデータ連合学習モデルトレーニング方法を実行する。
【0087】
例えば、いくつかの実施例では、マルチモーダルデータ連合学習モデルトレーニング方法を、記憶ユニット508などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施例では、コンピュータプログラムの一部または全部はROM502および/または通信ユニット509を介して電子機器500にロードおよび/またはインストールされてもよい。コンピュータプログラムがRAM 503にロードされ、計算ユニット501によって実行される場合、前文に記載のマルチモーダルデータ連合学習モデルトレーニング方法の1つまたは複数のステップが実行されてもよい。代替的に、他の実施例では、計算ユニット501はマルチモーダルデータ連合学習モデルトレーニング方法を実行するように、他のいずれかの適切な方式(例えば、ファームウェアを介して)によって配置されてもよい。
【0088】
本明細書で上記記載されたシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックス・プログラマブル・ロジック・デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラム可能なシステムで実行および/または解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび命令を受信し、データおよび命令を当該ストレージシステム、当該少なくとも1つの入力装置、および当該少なくとも1つの出力装置に伝送することができる。
【0089】
本開示のマルチモーダル連合学習モデルトレーニング方法を実行するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで書くことができる。これらのプログラムコードは、プロセッサ又はコントローラによって実行された際に、フローチャートおよび/またはブロック図に規定された機能/操作が実施されるように、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよい。プログラムコードは、完全に機械上で実行されるか、部分的に機械上で実行されるか、スタンドアロンソフトウェアパッケージとして、部分的に機械上で実行され、部分的にリモート機械上で実行され又は完全にリモート機械又はサーバ上で実行されてもよい。
【0090】
本開示のコンテクストでは、機械読み取り可能な媒体は、命令実行システム、装置、またはデバイスによって使用されるために、又は命令実行システム、装置、またはデバイスと組み合わせて使用するためのプログラムを含むか、又は記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体システム、装置又はデバイス、または上記コンテンツのいずれかの適切な組み合わせを含むことができるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、1つ又は複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、または上記コンテンツのいずれかの適切な組み合わせを含む。
【0091】
ユーザとのインタラクションを提供するために、ここで説明されるシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、ビジョンフィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力、または、触覚入力とを含む)でユーザからの入力を受信することができる。
【0092】
ここで説明されるシステムおよび技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインターフェース又は当該ウェブブラウザによってここで説明されるシステムおよび技術の実施形態とインタラクションできる)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントのいずれかの組み合わせを含むコンピューティングシステムで実行することができる。いずれかの形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、ブロックチェーンネットワークを含む。
【0093】
コンピュータシステムは、クライアントとサーバを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおける1つのホスト製品であり、従来の物理ホストとVPSサービス(「Virtual Private Server」,または「VPS」と省略する)に存在する管理の難しさ、ビジネス拡張性の弱いという欠陥を解決した。サーバは分散システムのサーバであってもよく、ブロックチェーンを組み込んだサーバであってもよい。
【0094】
文脈に特に要求がない限り、明細書および特許請求の範囲全体にわたって、「含む」という用語が「開放、包含する」というセマンティックと解釈され、すなわち「含むが、限定されない」である。本明細書の説明では、「いくつかの実施例」、「例示的な実施例」、「例示的」などという用語は、当該実施例に相関する特定の特徴、構造、材料または特性が本開示の少なくとも1つの実施例または例に含まれることを示すことを意図している。上記の用語の概略的な表現は、必ずしも同じ実施例または例を指すものではない。また、前記特定の特徴、構造、材料または特点は、任意の適切な形態で、任意の1つまたは複数の実施例または例に含まれることができる。
【0095】
「複数の」というセマンティックは、別途な説明がない限り、2つ以上である。「Aおよび/またはB」は、Aのみ、Bのみ、及びAとBの3つの組合せを含む。
【0096】
本明細書で「使用される」という表現は、追加のタスクまたはステップを実行するように、適用、構成されたデバイスを排除することなく、開放および包容性の言語を意味する。
【0097】
また、「に基づく」という表現は、1つまたは複数の条件または値に基づくプロセス、ステップ、計算、または他の動作が、実際には追加の条件に基づいてもよく、または、前記の値を超えてもよいため、開放および包容性を意味する。
【0098】
なお、上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができると理解されたい。例えば、本出願に記載の各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案の所望の結果を実現することができれば、本明細書ではここで限定されない。
【0099】
上記具体的な実施形態は、本開示の保護範囲を制限するものではない。当業者は、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができると理解されたい。任意の本開示の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれなければならない。
図1
図2
図3
図4
図5
図6
図7