特開2023-60846 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ ベイジン　バイドゥ　ネットコム　サイエンス　アンド　テクノロジー　カンパニー　リミテッドの特許一覧

特開2023-60846モデル決定方法、装置、電子機器及びメモリ

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
1C
2
3
4A
4B
5A
5B
5C
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023060846

(43)【公開日】2023-04-28

(54)【発明の名称】モデル決定方法、装置、電子機器及びメモリ

(51)【国際特許分類】

G06N 20/00 20190101AFI20230421BHJP

G06T 7/00 20170101ALI20230421BHJP

G06V 10/70 20220101ALI20230421BHJP

G06F 16/532 20190101ALI20230421BHJP

G06F 16/58 20190101ALI20230421BHJP

G06N 3/08 20230101ALN20230421BHJP

【ＦＩ】

G06N20/00

G06T7/00 350B

G06V10/70

G06F16/532

G06F16/58

G06N3/08

【審査請求】有

【請求項の数】22

【出願形態】ＯＬ

(21)【出願番号】P 2022166953

(22)【出願日】2022-10-18

(31)【優先権主張番号】202111212317.8

(32)【優先日】2021-10-18

(33)【優先権主張国・地域又は機関】CN

(71)【出願人】

【識別番号】514322098

【氏名又は名称】ベイジンバイドゥネットコムサイエンステクノロジーカンパニーリミテッド

【氏名又は名称原語表記】ＢｅｉｊｉｎｇＢａｉｄｕＮｅｔｃｏｍＳｃｉｅｎｃｅＴｅｃｈｎｏｌｏｇｙＣｏ．，Ｌｔｄ．

【住所又は居所原語表記】２／ＦＢａｉｄｕＣａｍｐｕｓ，Ｎｏ．１０，Ｓｈａｎｇｄｉ１０ｔｈＳｔｒｅｅｔ，ＨａｉｄｉａｎＤｉｓｔｒｉｃｔ，Ｂｅｉｊｉｎｇ１０００８５，Ｃｈｉｎａ

(74)【代理人】

【識別番号】100079108

【弁理士】

【氏名又は名称】稲葉良幸

(74)【代理人】

【識別番号】100109346

【弁理士】

【氏名又は名称】大貫敏史

(74)【代理人】

【識別番号】100117189

【弁理士】

【氏名又は名称】江口昭彦

(74)【代理人】

【識別番号】100134120

【弁理士】

【氏名又は名称】内藤和彦

(74)【代理人】

【識別番号】100139066

【弁理士】

【氏名又は名称】伊藤健太郎

(72)【発明者】

【氏名】ワン，ロンチャオ

(72)【発明者】

【氏名】サン，イーペン

(72)【発明者】

【氏名】ヤオ，クン

(72)【発明者】

【氏名】ハン，ジュンユ

(72)【発明者】

【氏名】リウ，ジントゥオ

(72)【発明者】

【氏名】ディン，エァールイ

【テーマコード（参考）】

5B175

5L096

【Ｆターム（参考）】

5B175DA02

5B175FB03

5B175HB03

5L096BA17

5L096HA11

5L096JA11

5L096KA04

(57)【要約】（修正有）

【課題】画像処理、画像認識などのシーンに適用できる、初期化モデルの訓練効率が低いという技術的問題を解決するモデル決定方法、モデル決定装置、画像処理装置、電子機器、プログラム及び記憶媒体を提供する。
【解決手段】方法は、画像サンプル及びテキストサンプルを取得する。テキストサンプルにおけるテキストは、画像サンプルのターゲット画像を文字で記述するために用いられる。方法はさらに、画像サンプルの画像特徴を第１キューに記憶し、かつ、テキストサンプルのテキスト特徴を第２キューに記憶し、第１キュー及び第２キューを訓練して、第１ターゲットモデルを取得し、第１ターゲットモデルを第２ターゲットモデルの初期化モデルとして決定する。
【選択図】図１Ａ

【特許請求の範囲】

【請求項1】

画像サンプル及びテキストサンプルを取得するステップであって、前記テキストサンプルにおけるテキストは、前記画像サンプルのターゲット画像を文字で記述するために用いられる、ステップと、
前記画像サンプルの画像特徴を第１キューに記憶し、かつ、前記テキストサンプルのテキスト特徴を第２キューに記憶するステップと、
前記第１キュー及び前記第２キューを訓練して、第１ターゲットモデルを得るステップと、
前記第１ターゲットモデルを第２ターゲットモデルの初期化モデルとして決定するステップと、を含む、
モデルの決定方法。

【請求項2】

前記第１キュー及び前記第２キューを訓練して、第１ターゲットモデルを得るステップは、
前記第１キュー及び前記第２キューに基づいて、ネガティブサンプルを決定するステップと、
前記ネガティブサンプルを訓練して、前記第１ターゲットモデルを得るステップと、を含む、
請求項１に記載の方法。

【請求項3】

前記ネガティブサンプルには、第１ネガティブサンプル及び第２ネガティブサンプルが含まれ、前記第１キュー及び前記第２キューに基づいてネガティブサンプルを決定するステップは、
前記第１キュー及び前記テキスト特徴に基づいて、前記第１ネガティブサンプルを決定するステップと、
前記第２キュー及び前記画像特徴に基づいて、前記第２ネガティブサンプルを決定するステップと、を含む、
請求項２に記載の方法。

【請求項4】

前記第１キュー及び前記テキスト特徴に基づいて前記第１ネガティブサンプルを決定するステップは、
前記第１キュー及び前記テキストサンプルのうちの現在バッチのサンプルの前記テキスト特徴に基づいて前記第１ネガティブサンプルを決定するステップを含む、
請求項３に記載の方法。

【請求項5】

前記第２キュー及び前記画像特徴に基づいて前記第２ネガティブサンプルを決定するステップは、
前記第２キュー及び前記画像サンプルのうちの現在バッチのサンプルの前記画像特徴に基づいて前記第２ネガティブサンプルを決定するステップを含む、
請求項３に記載の方法。

【請求項6】

前記ネガティブサンプルを訓練して、前記第１ターゲットモデルを得るステップは、
前記ネガティブサンプルにおける複数の前記画像特徴と複数の前記テキスト特徴とのマッチングを行って、複数のマッチング結果及び複数の非マッチング結果を得るステップであって、前記マッチング結果には、互いに正常にマッチングされた前記画像特徴及び前記テキスト特徴が含まれ、前記非マッチング結果には、互いにマッチングが失敗した前記画像特徴及び前記テキスト特徴が含まれる、ステップと、
複数の前記マッチング結果及び複数の前記非マッチング結果に基づいてモデルパラメータを決定するステップと、
前記モデルパラメータに基づいて前記第１ターゲットモデルを決定するステップと、を含む、
請求項２に記載の方法。

【請求項7】

前記画像サンプルは画像ノイズデータを含み、及び／又は、前記テキストサンプルはテキストノイズデータを含む、
請求項１に記載の方法。

【請求項8】

前記画像サンプルは注釈していない画像サンプルであり、及び／又は、前記テキストサンプルは注釈していないテキストサンプルである、
請求項１に記載の方法。

【請求項9】

被処理画像を取得するステップと、
前記被処理画像を、請求項１～８のいずれか１項に記載のモデル決定方法によって得られる第２ターゲットモデルに入力するステップと、
前記第２ターゲットモデルの処理結果を取得するステップと、を含む、
画像処理方法。

【請求項10】

画像サンプル及びテキストサンプルを取得するために用いられ、前記テキストサンプルにおけるテキストは、前記画像サンプルのターゲット画像を文字で記述するために用いられる、第１取得ユニットと、
前記画像サンプルの画像特徴を第１キューに記憶し、かつ、前記テキストサンプルのテキスト特徴を第２キューに記憶するための記憶ユニットと、
前記第１キュー及び前記第２キューを訓練して、第１ターゲットモデルを得るための訓練ユニットと、
前記第１ターゲットモデルを第２ターゲットモデルの初期化モデルとして決定するための決定ユニットと、を含む、
モデル決定装置。

【請求項11】

前記訓練ユニットは、
前記第１キュー及び前記第２キューに基づいて、ネガティブサンプルを決定するための決定モジュールと、
前記ネガティブサンプルを訓練して、前記第１ターゲットモデルを得るための訓練モジュールと、を含む、
請求項１０に記載の装置。

【請求項12】

前記ネガティブサンプルには、第１ネガティブサンプル及び第２ネガティブサンプルが含まれ、決定モジュールは、
前記第１キュー及び前記テキスト特徴に基づいて前記第１ネガティブサンプルを決定するための第１決定サブモジュールと、
前記第２キュー及び前記画像特徴に基づいて前記第２ネガティブサンプルを決定するための第２決定サブモジュールと、を含む、
請求項１１に記載の装置。

【請求項13】

前記第１決定サブモジュールは、前記第１キュー及び前記テキストサンプルのうちの現在バッチのサンプルの前記テキスト特徴に基づいて前記第１ネガティブサンプルを決定するステップにより、
前記第１キュー及び前記テキスト特徴に基づいて前記第１ネガティブサンプルを決定するために用いられる、
請求項１２に記載の装置。

【請求項14】

第２決定サブモジュールは、前記第２キュー及び前記画像サンプルのうちの現在バッチのサンプルの前記画像特徴に基づいて前記第２ネガティブサンプルを決定するステップにより、
前記第２キュー及び前記画像特徴に基づいて前記第２ネガティブサンプルを決定するために用いられる、
請求項１２に記載の装置。

【請求項15】

前記訓練モジュールは、
前記ネガティブサンプルの複数の前記画像特徴と複数の前記テキスト特徴とのマッチングを行って、複数のマッチング結果及び複数の非マッチング結果を得るために用いられ、前記マッチング結果には、互いに正常にマッチングされた前記画像特徴及び前記テキスト特徴が含まれ、前記非マッチング結果には、互いにマッチングが失敗した前記画像特徴及び前記テキスト特徴が含まれる、マッチングサブモジュールと、
複数の前記マッチング結果及び複数の前記非マッチング結果に基づいてモデルパラメータを決定するための第３決定サブモジュールと、
前記モデルパラメータに基づいて前記第１ターゲットモデルを決定するための第４決定サブモジュールと、を含む、
請求項１１に記載の装置。

【請求項16】

被処理画像を取得するための第２取得ユニットと、
前記被処理画像を、請求項１～８のいずれか１項に記載のモデル決定方法によって得られる第２ターゲットモデルに入力するための入力ユニットと、
前記第２ターゲットモデルの処理結果を取得するための第３取得ユニットと、を含む、
画像処理装置。

【請求項17】

少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続されるメモリとを含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記少なくとも１つのプロセッサが請求項１～８のいずれか１項に記載の方法を実行できるように、前記命令が前記少なくとも１つのプロセッサによって実行される、
電子機器。

【請求項18】

少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続されるメモリとを含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記少なくとも１つのプロセッサが請求項９に記載の方法を実行できるように、前記命令が前記少なくとも１つのプロセッサによって実行される、
電子機器。

【請求項19】

コンピュータ命令が記憶されている非一時的コンピュータ可読記憶媒体であって、前記コンピュータ命令は、前記コンピュータに請求項１～８のいずれか１項に記載の方法を実行させるために用いられる、
非一時的コンピュータ可読記憶媒体。

【請求項20】

コンピュータ命令が記憶されている非一時的コンピュータ可読記憶媒体であって、前記コンピュータ命令は、前記コンピュータに請求項９に記載の方法を実行させるために用いられる、
非一時的コンピュータ可読記憶媒体。

【請求項21】

コンピュータプログラムを含み、前記コンピュータプログラムがプロセッサによって実行されると、請求項１～８のいずれか１項に記載の方法が実施される、
コンピュータプログラム製品。

【請求項22】

コンピュータプログラムを含み、前記コンピュータプログラムがプロセッサによって実行されると、請求項９に記載の方法が実施される、
コンピュータプログラム製品。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、人工知能技術の分野に関し、特に、コンピュータビジョン及び深層学習の分野に関し、画像処理、画像認識などのシーンに適用でき、具体的には、モデル決定方法、装置、電子機器及びメモリに関する。

【背景技術】

【0002】

現在、グラフィックス及びテキストの予備訓練において、対比損失（ｌｏｓｓ）を用いて訓練して初期化モデルを得るのが一般的であるが、初期化モデルの指標が高くならないように、大量のコンピューティングリソースを用いてモデルを訓練する必要があり、かつ、多大な時間を要する。

【発明の概要】

【発明が解決しようとする課題】

【0003】

本開示は、モデル決定方法、装置、電子機器及びメモリを提供する。

【課題を解決するための手段】

【0004】

本開示の一態様によれば、モデル決定方法を提供する。当該方法は、画像サンプル及びテキストサンプルを取得するステップであって、テキストサンプルにおけるテキストは、画像サンプルのターゲット画像を文字で記述するために用いられる、ステップと、画像サンプルの画像特徴を第１キューに記憶し、かつ、テキストサンプルのテキスト特徴を第２キューに記憶するステップと、第１キュー及び第２キューを訓練して、第１ターゲットモデルを得るステップと、第１ターゲットモデルを第２ターゲットモデルの初期化モデルとして決定するステップと、を含み得る。

【0005】

本開示の一態様によれば、別のモデル決定方法を提供する。当該方法は、サーバにモデル訓練要求を送信するステップであって、モデル訓練要求には、画像サンプル及びテキストサンプルが含まれ、テキストサンプルにおけるテキストは、画像サンプルのターゲット画像を文字で記述するために用いられる、ステップと、サーバがモデル訓練要求に応答して送信する初期化モデルを受信するステップであって、初期化モデルは、サーバが画像サンプルの画像特徴を第１キューに記憶し、かつ、テキストサンプルのテキスト特徴を第２キューに記憶し、第１キュー及び第２キューを訓練することによって得られるものである、ステップと、を含み得る。

【0006】

本開示の一態様によれば、画像処理方法を提供する。当該方法は、被処理画像を取得するステップと、被処理画像を、本開示の実施例のモデル決定方法によって取得される第２ターゲットモデルに入力するステップと、第２ターゲットモデルの処理結果を取得するステップと、を含み得る。

【0007】

本開示の別の態様によれば、モデル決定装置をさらに提供する。当該装置は、画像サンプル及びテキストサンプルを取得するために用いられ、テキストサンプルにおけるテキストは、画像サンプルのターゲット画像を文字で記述するために用いられる、第１取得ユニットと、画像サンプルの画像特徴を第１キューに記憶し、かつ、テキストサンプルのテキスト特徴を第２キューに記憶するための記憶ユニットと、第１キュー及び第２キューを訓練して、第１ターゲットモデルを得るための訓練ユニットと、第１ターゲットモデルを第２ターゲットモデルの初期化モデルとして決定するための決定ユニットと、を含み得る。

【0008】

本開示の別の態様によれば、別のモデル決定装置をさらに提供する。当該装置は、サーバにモデル訓練要求を送信するために用いられ、モデル訓練要求には、画像サンプル及びテキストサンプルが含まれ、テキストサンプルにおけるテキストは、画像サンプルのターゲット画像を文字で記述するために用いられる、送信ユニットと、サーバがモデル訓練要求に応答して送信する初期化モデルを受信するために用いられ、初期化モデルは、サーバが画像サンプルの画像特徴を第１キューに記憶し、かつ、テキストサンプルのテキスト特徴を第２キューに記憶し、第１キュー及び前記第２キューを訓練することによって得られるものである、受信ユニットと、を含み得る。

【0009】

本開示の別の態様によれば、別の画像処理装置をさらに提供する。当該装置は、被処理画像を取得するための第２取得ユニットと、被処理画像を、本開示の実施例のモデル決定方法によって取得される第２ターゲットモデルに入力するための入力ユニットと、第２ターゲットモデルの処理結果を取得するための第３取得ユニットと、を含み得る。

【0010】

本開示の別の態様によれば、電子機器をさらに提供する。当該電子機器は、少なくとも１つのプロセッサと、少なくとも１つのプロセッサに通信可能に接続されるメモリとを含み、メモリには、少なくとも１つのプロセッサによって実行可能な命令が記憶されており、少なくとも１つのプロセッサが本開示の実施例のモデル決定方法を実行できるように、命令が少なくとも１つのプロセッサによって実行される。

【0011】

本開示の別の態様によれば、コンピュータ命令が記憶されている非一時的コンピュータ可読記憶媒体をさらに提供し、コンピュータ命令は、コンピュータに本開示の実施例のモデル決定方法を実行させるために用いられる。

【0012】

本明細書に記述の内容は、本開示の実施例の肝心な特徴又は重要な特徴を特定することを意図したものではなく、本開示の範囲を限定することを意図したものでもないことを理解されたい。本開示のその他の特徴は、以下の明細書によって容易に理解されるであろう。

【図面の簡単な説明】

【0013】

図面は、本解決手段をよりよく理解するためのものであり、本開示を限定するものではない。

【図1A】本開示の実施例によるモデル決定方法のフローチャートである。

【図1B】本開示の実施例による別のモデル決定方法のフローチャートである。

【図1C】本開示の実施例による画像処理方法のローチャートである。

【図2】本開示の実施例によるキュー技術に基づくグラフィックス及びテキストの予備訓練システムの模式図である。

【図3】本開示の実施例によるＤｅｉｔモデル構造の模式図である。

【図4A】本開示の実施例によるキューモジュールの模式図である。

【図4B】本開示の実施例による画像特徴とテキスト特徴とのマッチングを行う模式図である。

【図5A】本開示の実施例によるモデル決定装置の模式図である。

【図5B】本開示の実施例による別のモデル決定装置の模式図である。

【図5C】本開示の実施例による画像処理装置の模式図である。

【図6】本開示の実施例による電子機器の模式的なブロック図である。

【発明を実施するための形態】

【0014】

以下、図面を参照しながら、本開示の例示性実施例を説明するが、理解を容易にするために、この説明には本開示の実施例の様々な詳細が含まれており、それらを単なる例示的なものと見なすべきである。したがって、当業者であれば、本開示の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを理解できるだろう。同様に、分かりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造についての説明を省略する。

【0015】

図１Ａは、本開示の実施例によるモデル決定方法のフローチャートである。図１Ａに示すように、当該方法は、ステップＳ１０２～ステップＳ１０８を含み得る。

【0016】

ステップＳ１０２、画像サンプル及びテキストサンプルを取得し、ここで、テキストサンプルにおけるテキストは、画像サンプルのターゲット画像を文字で記述するために用いられる。

【0017】

本開示の上記のステップ１０２にて提供される技術案において、テキスト（ｔｅｘｔ）サンプルにおけるテキスト（テキストデータ）は、画像（ｉｍａｇｅ）サンプルにおけるターゲット画像（画像データ）を文字で記述するために用いられる。

【0018】

当該実施例のモデル決定方法は、グラフィックス及びテキストの予備訓練についてのモデル決定方法である。グラフィックス及びテキストの予備訓練は、大量のデータを必要とし、当該実施例では、画像サンプル及びテキストサンプルを取得して訓練サンプルとすることができ、当該テキストサンプルは画像サンプルに対応し、ここで、テキストサンプルには大量のテキスを含めることができ、画像サンプルには大量の画像を含めることができ、当該画像は写真を含めることができ、各テキストは、画像サンプルにおける大量の画像のターゲット画像を文字で記述するために用いられ、つまり、テキストサンプルにおける各テキストは、画像サンプルにおけるターゲット画像と１対１に対応し、当該テキストサンプルにおける各テキスト及び対応するターゲット画像は、画像テキストペアとも呼ばれる。

【0019】

選択可能に、当該実施例では、インターネットクローラーで上記の画像サンプル及びテキストサンプルをクローリングすることができる。

【0020】

選択可能に、当該実施例の上記の画像サンプル及びテキストサンプルは、手動で注釈及びクレンジングする必要がないため、人件費を節約することができる。

【0021】

ステップＳ１０４：画像サンプルの画像特徴を第１キューに記憶し、かつ、テキストサンプルのテキスト特徴を第２キューに記憶する。

【0022】

本開示の上記のステップ１０４にて提供される技術案において、画像サンプル及びテキストサンプルを取得した後、画像サンプルの画像特徴を第１キューに記憶し、かつ、テキストサンプルのテキスト特徴を第２キューに記憶し、ここで、第１キュー及び第２キューは、まとめてグラフィックス及びテキストのデュアルキューと称される。

【0023】

グラフィックス及びテキストの予備訓練におけるコントラストｌｏｓｓは、ネガティブ情報ペアをマイニングする能力に非常に依頼するため、各ミニバッチ（ｍｉｎｉｂａｔｃｈ）から十分なネガティブ情報ペアを収集するために、当該実施例では、第１キュー及び第２キューを含むデュアルキューモジュールを設けた。当該実施例は、先に画像サンプルの画像特徴を取得することができ、画像サンプルを画像エンコーダ（ＩｍａｇｅＥｎｃｏｄｅｒ）に入力することができ、画像サンプルから第１画像特徴が当該画像エンコーダによって抽出され、例えば、当該画像特徴は、Ｉ_１、Ｉ_２……Ｉ_Ｎであってもよく、さらに、第１キューに記憶され、つまり、当該実施例の第１キューは画像特徴のキューである。選択可能に、当該実施例の第１キューに記憶された画像特徴の数は限られており、第１キューが新しい画像特徴を記憶するのに不十分である場合、最初に記憶された画像特徴を第１キューから削除して、新しい画像特徴を記憶するためのスペースを確保することができ、それにより、第１キューによって画像特徴を記録及び更新する目的を実現して、初期化モデルの訓練速度及びモデル指標（訓練指標）を向上させ、当該モデル指標は、初期化モデルの訓練効果を示すための指標である。

【0024】

選択可能に、当該実施例の上記の画像エンコーダは、データ効率のよい画像（Ｄｅｉｔ）モデルを使用して第１画像特徴を抽出してもよく、つまり、Ｄｅｉｔは、変形モデル（Ｔｒａｎｓｆｏｒｍｅｒ）を自然言語処理（ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ、ＮＬＰと略称）からコンピュータビジョン（ＣｏｍｐｕｔｅｒＶｉｓｉｏｎ、ＣＶと略称）に適用した。

【0025】

当該実施例は、さらに、テキストサンプルのテキスト特徴を取得でき、テキストサンプルをテキストエンコーダ（ＴｅｘｔＥｎｃｏｄｅｒ）に入力することができ、テキストサンプルからテキスト特徴が当該テキストエンコーダによって抽出されることができ、当該テキスト特徴は、Ｔ_１、Ｔ_２……Ｔ_Ｎであってもよく、さらに、第２キューに記憶され、つまり、当該実施例の第２キューはテキスト特徴のキューである。選択可能に、当該実施例の第２キューに記憶されたテキスト特徴の数は限られており、第２キューが新しいテキスト特徴を記憶するのに十分でない場合、最初に記憶されたテキスト特徴を第２キューから削除して、新しい画像特徴を記憶するためのスペースを確保することができ、それにより、第２キューによってテキスト特徴を記録及び更新する目的を実現して、初期化モデルの訓練速度及びモデル指標を向上させる。

【0026】

選択可能に、当該実施例の上記のテキストエンコーダは、ＲｏＢＥＲＴａモデルを使用してテキスト特徴を抽出してもよく、ここで、ＲｏＢＥＲＴａモデルは、言語表現モデル（ＢＥＲＴ）を基にアップグレードされたものであり、モデルの具体的な詳細レベルにおいて、最適化関数を改善することと、訓練戦略レベルにおいて、動的マスク方法を使用してモデルを訓練して、次の語句の予測モデル（ＮｅｘｔＳｅｎｔｅｎｃｅＰｒｅｄｉｃｔｉｏｎ、ＮＳＰと略称）の訓練戦略の不足を証明し、より大きいバッチサイズ（ｂａｔｃｈｓｉｚｅ）を用いることと、また、データレベルにおいて、より大きなデータセットを使用する一方、バイトペアエンコーディング（Ｂｙｔｅ‐ＰａｉｒＥｎｃｏｄｉｎｇ、ＢＰＥと略称）を使用してテキストデータを処理することと、を含む。

【0027】

ステップＳ１０６：第１キュー及び第２キューを訓練して、第１ターゲットモデルを得る。

【0028】

本開示の上記のステップ１０６にて提供される技術案において、画像サンプルの画像特徴を第１キューに記憶し、かつ、テキストサンプルのテキスト特徴を第２キューに記憶した後、第１キュー及び第２キューを訓練して、第１ターゲットモデルを得る。

【0029】

当該実施例では、第１キュー及び第２キューを訓練することができ、選択可能に、コントラスト学習モデルによって、第１キューや画像サンプルにおける現在バッチの画像特徴、第２キューやテキストサンプルにおける現在バッチのテキスト特徴に対してコントラスト学習訓練を行って、バッチサイズ（ｂａｔｃｈｓｉｚｅ）を等価的に大きくし、それにより、コンピューティングリソースを節約するとともに、初期化モデルのモデル指標を向上させることもできる。ここで、現在バッチとは、現在、バッチ訓練が行われている画像サンプルの画像特徴のバッチを言う。

【0030】

ステップＳ１０８：第１ターゲットモデルを第２ターゲットモデルの初期化モデルとして決定する。

【0031】

本開示の上記のステップ１０８にて提供される技術案において、第１キュー及び第２キューを訓練して、第１ターゲットモデルを得た後、第１ターゲットモデルを第２ターゲットモデルの初期化モデルとして決定することができる。

【0032】

当該実施例では、第１ターゲットモデルを第２ターゲットモデルの初期化モデルとして決定し、当該初期化モデルは、訓練して第２ターゲットモデルを得るために用いられ、当該第２ターゲットモデルは、画像検出モデル、画像分割モデル、画像分類モデルなどであり得る。

【0033】

なお、当該実施例の上記の第２ターゲットモデルは、画像検出モデル、画像分割モデル、画像分類モデルであり、本開示の実施例の１つの例にすぎず、本開示の実施例の第２ターゲットモデルが単に画像検出モデル、画像分割モデル、画像分類モデルであることを表すものではなく、初期化モデルの訓練によって取得できるいずれのモデルも全部当該実施例の範囲内にあり、ここでは一つ一つ例示しない。

【0034】

本願の上記のステップＳ１０２～ステップＳ１０８により、画像サンプル及びテキストサンプルを取得し、ここで、テキストサンプルにおけるテキストは、画像サンプルのターゲット画像を文字で記述するために用いられ、画像サンプルの画像特徴を第１キューに記憶し、かつ、テキストサンプルのテキスト特徴を第２キューに記憶し、第１キュー及び第２キューを訓練して、第１ターゲットモデルを取得し、第１ターゲットモデルを第２ターゲットモデルの初期化モデルとして決定する。つまり、当該実施例の予備訓練は、デュアルキューで画像特徴及びテキスト特徴をそれぞれ保存して、初期化モデルの訓練に用いるため、コンピューティングリソースを大幅に節約することができ、初期化モデルの訓練効率が低いという技術的問題を解決し、初期化モデルの訓練効率を向上させるという技術的効果に達した。

【0035】

以下、当該実施例の上記の方法についてさらに紹介する。

【0036】

選択可能な実施形態として、第１キュー及び第２キューを訓練して、第１ターゲットモデルを得るステップＳ１０６は、第１キュー及び第２キューに基づいてネガティブサンプルを決定するステップと、ネガティブサンプルを訓練して、第１ターゲットモデルを得るステップと、を含む。

【0037】

当該実施例では、第１キュー及び第２キューを訓練して、第１ターゲットモデルを得ることが実現されると、第１キュー及び第２キューに基づいてネガティブサンプルを取得することができ、さらに、ネガティブサンプルを訓練して、損失計算に参加させることができることにより、第１ターゲットモデルを取得し、大量のコンピューティングリソースを節約し、さらに、初期化モデルの訓練速度及び訓練指標を向上させ、ここで、当該訓練指標は、初期化モデルの訓練効果を表すための指標である。

【0038】

選択可能な実施形態として、ネガティブサンプルには、第１ネガティブサンプル及び第２ネガティブサンプルが含まれ、ここで、第１キュー及び第２キューに基づいてネガティブサンプルを決定するステップは、第１キュー及びテキスト特徴に基づいて第１ネガティブサンプルを決定するステップと、第２キュー及び画像特徴に基づいて第２ネガティブサンプルを決定するステップと、を含む。

【0039】

当該実施例では、画像サンプルの画像特徴を第１キューに記憶した後、第１キュー及びテキスト特徴に基づいて第１ネガティブサンプルを決定してもよいし、第１キュー及びテキストサンプルのうちのターゲットバッチ（ｂａｔｃｈ）サンプルのテキスト特徴で第１ネガティブサンプルが構成されてもよく、上記のネガティブサンプルには当該第１ネガティブサンプルが含まれる。選択可能に、テキストサンプルのテキスト特徴を第２キューに記憶するステップにおいて、第２キュー及び画像サンプルのうちのターゲットバッチサンプルの画像特徴で第２ネガティブサンプルが構成されてもよく、上記のネガティブサンプルには第２ネガティブサンプルが含まれ、当該第２ネガティブサンプル及び第１ネガティブサンプルは、ｌｏｓｓ計算に関与する。ネガティブサンプルの数が初期化モデルの訓練効果に大きく影響するため、上記の方法によりネガティブサンプルの数を大幅に増やし、初期化モデルの訓練速度及びモデルの指標を向上させることができる。

【0040】

選択可能な実施形態として、第１キュー及びテキスト特徴に基づいて第１ネガティブサンプルを決定するステップは、第１キュー及びテキストサンプルのうちの現在バッチのサンプルのテキスト特徴に基づいて第１ネガティブサンプルを決定するステップを含む。

【0041】

当該実施例では、第１キュー及びテキスト特徴に基づいて第１ネガティブサンプルを決定するステップが実施される場合、テキストサンプルのうちの現在バッチのサンプルのテキスト特徴を取得することができ、つまり、現在ｂａｔｃｈのテキスト特徴を取得してから、第１キュー及び現在バッチのサンプルのテキスト特徴で第１ネガティブサンプルが構成されて、ネガティブサンプルの数を増やす。

【0042】

選択可能な実施形態として、第２キュー及び画像特徴に基づいて第２ネガティブサンプルを決定するステップは、第２キュー及び画像サンプルのうちの現在バッチのサンプルの画像特徴に基づいて第２ネガティブサンプルを決定するステップを含む。

【0043】

当該実施例では、第２キュー及び画像特徴に基づいて第２ネガティブサンプルを決定するステップが実施される場合、テキストサンプルのうちの現在バッチのサンプルのテキスト特徴を取得することができ、つまり、現在ｂａｔｃｈの画像特徴を取得してから、第２キュー及び現在バッチのサンプルの画像特徴で第２ネガティブサンプルが構成されて、ネガティブサンプルの数を増やす。

【0044】

選択可能な実施形態として、ネガティブサンプルを訓練して、第１ターゲットモデルを得るステップは、ネガティブサンプルの複数の画像特徴と複数のテキスト特徴とのマッチングを行って、互いに正常にマッチングされた画像特徴及びテキスト特徴を含む複数のマッチング結果と、互いにマッチングが失敗した画像特徴及びテキスト特徴を含む複数の非マッチング結果を得るステップと、複数のマッチング結果及び複数の非マッチング結果に基づいてモデルパラメータを決定するステップと、モデルパラメータに基づいて第１ターゲットモデルを決定するステップと、を含む。

【0045】

当該実施例では、ネガティブサンプルを訓練して、第１ターゲットモデルを得るステップが実施される場合、ネガティブサンプルの複数の画像特徴と複数のテキスト特徴とをそれぞれマッチングさせ、例えば、当該画像特徴はＩ_１、Ｉ_２・・・Ｉ_Ｎであってもよく、テキスト特徴はＴ_１、Ｔ_２・・・Ｔ_Ｎであってもよく、上記のＩ_１、Ｉ_２・・・Ｉ_Ｎ及びＴ_１、Ｔ_２・・・Ｔ_Ｎをそれぞれマッチングさせて、複数のマッチング結果及び複数の非マッチング結果を取得し、マッチング結果には、Ｉ_１・Ｔ_１、Ｉ_２・Ｔ_２・・・Ｉ_Ｎ・Ｔ_Ｎなどの互いに正常にマッチングされた画像特徴及びテキスト特徴が含まれてもよく、非マッチング結果には、Ｉ_１・Ｔ_２、Ｉ_１・Ｔ_３・・・Ｉ_１・Ｔ_Ｎ、Ｉ_２・Ｔ_１、Ｉ_２・Ｔ_３・・・Ｉ_２・Ｔ_Ｎなどの、マッチングが失敗した画像特徴及びテキスト特徴が含まれてもよい。

【0046】

上記の複数のマッチング結果及び複数の非マッチング結果を決定した後、複数のマッチング結果及び複数の非マッチング結果に基づいてモデルパラメータを決定することができる。選択可能に、当該実施例は、損失関数（ＩｎｆｏＮＣＥｌｏｓｓ）を使用して、複数のマッチング結果及び複数の非マッチング結果を利用して実現され、例えば、下記の式によって実現される。

【数1】

ここで、ｘ_ｉは、ネットワーク出力結果がｉ番目のタイプに属する概率を表すために用いられ、ｘ_ｊは、ネットワーク出力結果がｊ番目のタイプに属する確率を表すために用いられ、選択可能に、当該実施例では、上記のｅｘｐ（ｘ_ｉ）は、複数の画像特徴と複数のテキスト特徴とをマッチングさせたマッチング結果を表すために用いられてもよく、Σ_ｊｅｘｐ（ｘ_ｊ）は、複数の画像特徴と複数のテキスト特徴との非マッチング結果を表すために用いられてもよい。

【0047】

そのため、当該実施例は、第１キュー及び第２キューを加えた後、ｉｎｆｏＮＣＥｌｏｓｓのネガティブサンプルを増やしたことに相当するため、コンピューティングリソースを多く節約することができる。

【0048】

モデルパラメータを決定した後、当該実施例は、当該モデルパラメータによって第１ターゲットモデルを生成することができる。

【0049】

選択可能に、当該実施例の上記のコントラスト学習モデルは、主にＩｎｆｏＮＣＥｌｏｓｓを使用して、第１ターゲットモデルを生成することができる。

【0050】

選択可能な実施形態として、画像サンプルには画像ノイズデータが含まれ、及び／又は、テキストサンプルにはテキストノイズデータが含まれる。

【0051】

当該実施例では、グラフィックス及びテキストの予備訓練は、大量のデータを必要とし、画像サンプル及びテキストサンプルを取得するには、一定のノイズデータを許容し、画像サンプルには画像ノイズデータが含まれ、テキストサンプルには第２テキストノイズデータが含まれることが可能であり、つまり、当該実施例では、人件費を節約するために、画像サンプルの画像ノイズデータ及びテキストサンプルのテキストノイズデータを特別に処理しなくてもよい。

【0052】

選択可能な実施形態として、画像サンプルは、注釈のない画像サンプルであり、及び／又は、テキストサンプルは、注釈のないテキストサンプルである。

【0053】

当該実施例では、人件費を節約するために、注釈のないテキストサンプル及び画像サンプルを大量用いて訓練サンプルとし、手動で注釈及びクレンジングする必要がなく、さらに、テキストエンコーダにより、注釈のない大量のテキストサンプルからテキスト特徴を抽出して第２キューに記憶し、画像エンコーダにより、注釈のない大量の画像サンプルから画像特徴を抽出して第１キューに記憶し、第１キュー及び第２キューを訓練して、初期化モデルを得る。

【0054】

図１Ｂは、本開示の実施例による別のモデル決定方法のフローチャートである。図１Ｂに示すように、当該方法は、ステップＳ１００２と、ステップＳ１００４とを含む。

【0055】

ステップＳ１００２：サーバにモデル訓練要求を送信し、ここで、モデル訓練要求には、画像サンプル及びテキストサンプルが含まれ、テキストサンプルにおけるテキストは、画像サンプルのターゲット画像を文字で記述するために用いられる。

【0056】

本開示の上記のステップ１００２にて提供される技術案において、訓練して出来上がり精度が高い初期化モデルを得ることができるために、大量の画像サンプル及びテキストサンプルを訓練する必要があり、訓練過程全体のデータ量及び演算量が大きい。ユーザ機器（例えば、スマートフォン、タブレット、ノート型パソコン、パームトップコンピュータ、パーソナルコンピュータなど）のリソース消費を減らすために、サービスによってモデルの訓練を行ってもよく、ユーザの使用を容易にするために、ユーザ機器に訓練済みのモデルのみを配置すればよい。

【0057】

当該実施例では、上記のモデル訓練要求は、ユーザのモデル使用要件に応じて生成されてもよく、当該モデル訓練要求には、処理する必要のある画像サンプル及びテキストサンプルが含まれ、さらに、達成されると期待する処理結果などが含まれてもよい。

【0058】

選択可能に、当該実施例では、ユーザ機器にグラフィックユーザインタフェースを提供でき、ユーザがグラフィックユーザインタフェースの入力領域にモデル訓練要求を入力することにより、ユーザ機器は、ネットワークを介してモデル訓練要求をサーバに送信することができる。よりねらいがあるために、サーバは、ユーザのタイプに応じて異なるモデル訓練スキームをユーザに提供することができ、ユーザが入力領域内で選択するため、ユーザ機器は、ユーザの回転結果にしたがってモデル訓練要求を生成して、ネットワークを介してサーバに送信することができる。

【0059】

ステップＳ１００４：サーバがモデル訓練要求に応答して送信する初期化モデルを受信するステップであって、ここで、初期化モデルは、サーバが画像サンプルの画像特徴を第１キューに記憶し、かつ、テキストサンプルのテキスト特徴を第２キューに記憶し、第１キュー及び第２キューを訓練することによって得られるものである。

【0060】

本開示の上記のステップ１００４にて提供される技術案において、サーバがモデル訓練要求に応答するステップは、サーバが、先に、画像サンプルの画像特徴を取得することであってもよいし、画像サンプルを画像エンコーダに入力して、当該画像エンコーダによって画像サンプルから第１画像特徴を抽出し、さらに、第１キューに記憶することであってもよい。選択可能に、第１キューが新しい画像特徴を記憶するのに不十分である場合、サーバは、最初に記憶された画像特徴を第１キューから削除して、新しい画像特徴を記憶するためのスペースを確保することができ、それにより、第１キューによって画像特徴を記録及び更新する目的を実現して、初期化モデルの訓練速度及びモデル指標を向上させる。

【0061】

当該実施例のサーバは、テキストサンプルのテキスト特徴を取得することもでき、サーバは、テキストサンプルをテキストエンコーダに入力することができ、当該テキストエンコーダによってテキストサンプルからテキスト特徴を抽出し、さらに、第２キューに記憶する。選択可能に、第２キューが新しいテキスト特徴を記憶するのに不十分である場合、サーバは、最初に記憶されたテキスト特徴を第２キューから削除して、新しい画像特徴を記憶するためのスペースを確保することができ、それにより、第２キューによって、テキスト特徴を記録及び更新する目的を実現して、初期化モデルの訓練速度及びモデル指標を向上させる。

【0062】

サーバが画像サンプルの画像特徴を第１キューに記憶し、かつ、テキストサンプルのテキスト特徴を第２キューに記憶した後、サーバが第１キュー及び第２キューを訓練するステップは、コントラスト学習モデルによって、第１キューや画像サンプルにおける現在バッチの画像特徴、第２キューやテキストサンプルにおける現在バッチのテキスト特徴に対してコントラスト学習訓練を行って、バッチサイズ（ｂａｔｃｈｓｉｚｅ）を等価的に大きくし、それにより、初期化モデルを得ることができ、こうすると、コンピューティングリソースを節約するとともに、初期化モデルのモデル指標を向上させることもできる。

【0063】

さらに、ユーザ機器の演算負荷を大幅に低減するために、訓練済みの初期化モデルをサーバに直接配置してもよく、ユーザ機器は、特定のインターフェースを介してサーバに接続され、ネットワークを介してサーバにモデル取得要求を送信し、ユーザ機器はネットワークを介して、サーバがモデル取得要求に応答して送信した初期化モデルを取得し、それを第２ターゲットモデルの初期化モデルとし、モデル予備訓練の目的が実現された。

【0064】

図１Ｃは、本開示の実施例による画像処理方法のフローチャートである。図１Ｃに示すように、当該方法は、ステップＳ１０００２～ステップＳ１０００６を含める。

【0065】

ステップＳ１０００２：被処理画像を取得する。

【0066】

本開示の上記のステップ１０００２にて提供される技術案において、被処理画像は、画像処理を行う必要のある画像であってもよく、例えば、画像検出、画像分割、画像分類、画像認識などの処理を行う必要のある画像であり、当該処理タイプは、画像適用シーンにしたがって柔軟に決定でき、例えば、道路シーン、教育シーン、植生予測シーン、天気予測シーンなどにしたがって柔軟に決定し、ここでは特に限定しない。

【0067】

選択可能に、当該実施例は、被処理画像は、画像収集機器によって収集されることができ、例えば、被処理画像は、一定のスペースに配置されたカメラによって収集される。

【0068】

ステップＳ１０００４：被処理画像を、本開示の実施例のモデル決定方法によって取得される第２ターゲットモデルに入力する。

【0069】

本開示の上記のステップ１０００４にて提供される技術案において、収集された被処理画像を第２ターゲットモデルに入力し、選択可能に、当該実施例の第２ターゲットモデルは、初期化モデルを訓練することによって得られ、当該初期化モデルは、画像サンプルの画像特徴を第１キューに記憶し、かつ、テキストサンプルのテキスト特徴を第２キューに記憶し、第１キュー及び第２キューを訓練することによって得られるものであり、ここで、テキストサンプルにおけるテキストは、画像サンプルのターゲット画像を文字で記述するために用いられ、例えば、当該初期化モデルは、リカレントニューラルネットワークモデルであってもよく、ここでは特に限定しない。

【0070】

選択可能に、当該実施例では、初期化モデルを訓練して、第２ターゲットモデルを得るステップが実施される場合、大量の画像サンプルを含み得るサンプルデータを事前に大量収集することができ、それに注釈して、画像検出、画像分割、画像分類、画像認識などの画像処理に関連する複数のタグを得ることができる。その後、サンプルデータ及び対応するタグで初期化モデルを訓練して、第２ターゲットモデルを得る。

【0071】

選択可能に、当該実施例では、サンプルデータにおいて、畳み込みニューラルネットワークで各サンプルデータから特徴を抽出して、複数の特徴を含む特徴ベクトルを得ることができ、例えば、当該特徴ベクトルには、上記のタグに関連する特徴が含まれ、特徴ベクトル及び対応するタグで初期化モデルを訓練して、ターゲットパラメータを得ることができ、当該ターゲットパラメータは、モデル最適化パラメータであってもよく、第２ターゲットモデルは当該ターゲットパラメータ及び初期化モデルによって決定されてもよい。

【0072】

選択可能に、当該実施例は、分散型コンセンサスアルゴリズム、ノイズ除去などのアルゴリズムにしたがって、サンプルデータを前処理してから、前処理後のデータに対して特徴抽出、特徴変換、特徴正規化、特徴組み合わせなどを行って、初期化モデルを訓練するための特徴を得ることができる。選択可能に、当該実施例は、さらに、最適化アルゴリズム、仮説関数、損失関数、決定境界、収束速度、反復戦略などで特徴を一層処理することができ、処理後の特徴で初期化モデルを訓練して、第２ターゲットモデルを得る。

【0073】

選択可能に、当該実施例では、第２ターゲットモデルの後、さらに、第２ターゲットモデルに対して交差検証、ターゲット評価、オーバーフィッティング、アンダーフィッティングなどの評価を行うこともでき、それにより、最終的な第２ターゲットモデルを決定して、第２ターゲットモデルにより、入力画像に対する画像検出、画像分割、画像分類、画像認識などの処理が実現される。

【0074】

ステップＳ１０００６：第２ターゲットモデルの処理結果を取得する。

【0075】

本開示の上記のステップ１０００６にて提供される技術案において、第２ターゲットモデルは、被処理画像を処理することができ、例えば、第２ターゲットモデルに対して画像検出、画像分割、画像分類、画像認識などの処理を行って、画像検出結果、画像分割結果、画像分類結果、画像認識結果などを含む処理結果を得て、それを出力し、例えば、画像検出結果、画像分割結果、画像分類結果、画像認識結果などを一層分析するために、グラフィックユーザインタフェースで表示する。

【0076】

当該実施例では、予備訓練は、キュー技術に基づくグラフィックス及びテキストの予備訓練の最適化を用いて、画像及びテキスト特徴を保存するとともに、ｉｎｆｏｎｃｅｌｏｓｓの計算に用いられる。グラフィックス及びテキストのデュアルキューを加えた後、ｉｎｆｏＮＣＥｌｏｓｓのネガティブサンプルを増やしたことに相当し、つまり、デュアルキュー技術でｂａｔｃｈｓｉｚｅを等価的に大きくすることにより、コンピューティングリソースを大幅に節約することができ、かつ、初期化モデルのモデル指標を提供することができ、初期化モデルの訓練効率が低いという技術的問題を解決し、初期化モデルの訓練効率を向上させるという技術的効果に達した。

【0077】

以下、好ましい実施形態と合わせて、本開示の実施例の上記の技術案について、さらに例を上げて説明する。

【0078】

関連技術において、グラフィックス及びテキストの予備訓練は、大量のグラフィックス及びテキストサンプル及び大量のコンピューティングリソースを必要とする。グラフィックス及びテキストの予備訓練は、コントラストｌｏｓｓを用いて訓練することができ、ここで、ネガティブサンプルの数は、モデルの効果に大きく影響するため、ｂａｔｃｈｓｉｚｅが大きいほど、モデルの効果がよくなる。しかし、ｂａｔｃｈｓｉｚｅが大きくなると、より大きなビデオメモリを必要とすることを意味する。そして、関連技術におけるグラフィックス及びテキストの予備訓練は、大量のＧＰＵなどのコンピューティングリソースを必要とし、訓練時間が非常に長く、予備訓練モデル指標が低いため、モデル指標を継続的に向上させるためには最適化スキームを必要とする。

【0079】

また、関連技術におけるグラフィックス及びテキストの予備訓練は、大量の画像プロセッサ（ＴＰＵ）、分散型などのような大量のコンピューティングリソースを用いてモデルを訓練し、そして、関連技術の予備訓練は、膨大な時間の消費を必要とし、訓練過程も非常に長く、モデルの指標を向上させる必要がある。

【0080】

以上の問題に対して、当該実施例では、デュアルキュー技術でｂａｔｃｈｓｉｚｅを等価的に大きくして、訓練リソースを節約するとともに、モデル指標を向上させることもできる。以下では、当該実施例の上記の方法を一層紹介する。

【0081】

図２は、本開示の実施例によるキュー技術に基づくグラフィックス及びテキストの予備訓練システムの模式図である。図２に示すように、大量の画像サンプル及びテキストサンプル（ＮｏｉｓｙＰｒｏｄｕｃｔＩｍａｇｅ－ＴｅｘｔＤａｔａ）を収集し、ここで、画像サンプルには写真が含まれ、テキストサンプルには写真に対応するテキストデータが含まれる。当該実施例のグラフィックス及びテキストの予備訓練は、大量のデータを必要とし、かつ、一定のノイズを許容する。当該実施例では、注釈のない大量のテキストサンプル及び画像サンプルを訓練サンプルとして採用してもよく、手動で注釈及びクレンジングする必要がなく、画像サンプルをテキストエンコーダに入力して、画像サンプルの画像特徴を抽出し、画像特徴を画像特徴キューに記憶し、対応するテキストサンプルを画像エンコーダに入力して、テキストサンプルのテキスト特徴を抽出し、テキスト特徴をテキスト特徴キューに記憶し、さらに、コントラスト学習モデルによって、画像特徴キュー、現在ｂａｔｃｈの画像特徴、テキスト特徴キュー、現在ｂａｔｃｈのテキスト特徴に対してコントラスト学習を行うことにより、初期化モデルを得る。

【0082】

当該実施例では、上記のテキストエンコーダモジュールは、ＲｏＢＥＲＴａモデルを使用してテキスト特徴を抽出し、ＲｏＢＥＲＴａモデルは、ＢＥＲＴモデルを基にアップグレードしたものである。画像エンコーダは、Ｄｅｉｔモデルを使用して画像特徴を抽出し、図３に示すように、ここで、図３は、本開示の実施例によるＤｅｉｔモデル構造の模式図であり、データタイプトークン（ｃｌａｓｓｔｏｋｅｎ）、パッチトークン（ｐａｔｃｈｔｏｋｅｎｓ）、蒸留トークン（ｄｉｓｔｉｎｇｕｉｓｈｔｏｋｅｎ）を入力することにより、自己注意機構（ｓｅｌｆａｔｔｅｎｔｉｏｎ）及び完全接続ネットワーク（ＦＦＮ）の処理を経て、得られた出力結果は、画像特徴を得るために用いられることができる。当該実施例のＤｅｉｔは、ｔｒａｎｓｆｏｒｍｅｒをＮＬＰからコンピュータビジョンに応用したものである。

【0083】

当該実施例では、グラフィックス及びテキストの予備訓練におけるコントラストｌｏｓｓは、そのネガティブ情報ペアをマイニングする能力に非常に依頼するため、各ｍｉｎｉｂａｔｃｈから十分なネガティブ情報ペアを収集するために、本開示では、それぞれ画像特徴及び文字特徴を記憶するための２つのキューを追加した。訓練過程全体において、実例のｅｍｂｅｄｄｉｎｇは、実際には、比較的遅い速度で変化する。このような現象に基づいて、本開示では、最も近い小バッチ処理の深層特性を記録及び更新するためのクロスバッチ処理メモリモジュールを提案し、それにより、小バッチ処理にわたって情報をマイニングできる実例は、訓練速度及びモデル指標を向上させる。ここで、最近の小バッチ処理とは、キューの長さが一定であり、現在記憶されている特徴量がキューの長さに達すると、新しい特徴を記憶するために、最初にキューに記憶された特徴が破棄される。

【0084】

図４Ａは、本開示の実施例によるキューモジュールの模式図である。図４Ａに示すように、当該実施例のキューモジュールには、画像特徴キュー及びテキスト特徴キューが含まれ、ここで、画像特徴キューは、エンコーダ（Ｅｎｃｏｄｅｒ）によって処理されてから得られる画像サンプルの特徴を記憶するために用いられ、それには、ネガティブ画像サンプル（ＮｅｇａｔｉｖｅＩｍａｇｅｓ）の特徴及び現在バッチの画像（Ｉｍａｇｅ）サンプルの画像特徴が含まれ、テキスト特徴キューは、エンコーダによって処理されて得られるテキストサンプルの特徴を記憶するために用いられ、それには、ネガティブテキストサンプル（ＴｅｘｔｓＩｍａｇｅｓ）の特徴及び現在バッチにおけるテキスト（Ｔｅｘｔ）サンプルの画像特徴が含まれる。選択可能に、グラフィック特徴キュー及び現在ｂａｔｃｈのテキスト特徴でネガティブサンプルが構成され、テキスト特徴キュー及び現在ｂａｔｃｈの画像特徴でネガティブサンプルが構成され、この２つの部分のネガティブサンプルは、ｌｏｓｓ計算に関与し、こうすると、ネガティブサンプルの数を大幅に増やし、さらに、初期化モデルの訓練速度及び訓練指標を向上させることができる。

【0085】

当該実施例のコントラスト学習モジュールは、主にＩｎｆｏＮＣＥｌｏｓｓを使用してもよく、その計算式は下記のとおりである。

【数2】

ここで、ｘ_ｉは、ネットワーク出力結果がｉ番目のタイプに属する概率を表すために用いられ、ｘ_ｊは、ネットワーク出力結果がｊ番目のタイプに属する確率を表すために用いられ、上記のｅｘｐ（ｘ_ｉ）は、画像特徴とテキスト特徴とをマッチングさせたマッチング結果を表すために用いられてもよく、Σ_ｊｅｘｐ（ｘ_ｊ）は、画像特徴とテキスト特徴とのマッチングが失敗したマッチング結果を表すために用いられてもよい。図４Ｂに示すように、ここで、図４Ｂは、本開示の実施例による画像特徴とテキスト特徴とのマッチングを行う模式図である。図４に示すように、入力された画像サンプルから画像特徴Ｉ_１、Ｉ_２・・・Ｉ_Ｎが画像エンコーダによって抽出され、入力されたテキストサンプルからテキスト特徴Ｔ_１、Ｔ_２・・・Ｔ_Ｎがテキストエンコーダによって抽出されることにより、画像特徴Ｉ_１、Ｉ_２・・・Ｉ_ＮとＴ_１、Ｔ_２・・・Ｔ_Ｎとをそれぞれマッチングさせて、マッチング結果を取得し、ここで、対角線上のマッチング結果はテキスト特徴と画像特徴とが正常にマッチングした結果であり、対角線以外のマッチング結果は、テキスト特徴と画像特徴とのマッチングが失敗したマッチング結果である。

【0086】

当該実施例のＩｎｆｏＮＣＥｌｏｓｓに上のキューモジュールを合わせて、ネガティブサンプルの数を等価的に大きくし、初期化モデルの訓練指標を向上させることができる。

【0087】

当該実施例の予備訓練は、キュー技術に基づくグラフィックス及びテキストの予備訓練の最適化方法を採用し、デュアルキューを利用して画像サンプルの画像特徴及びテキストサンプルのテキスト特徴をそれぞれ保存して、ｉｎｆｏｎｃｅＮＣＥｌｏｓｓの計算に使用する。なお、当該実施例では、グラフィックス及びテキストのデュアルキューを加えた後、ｉｎｆｏＮＣＥｌｏｓｓのネガティブサンプルを増やしたことに相当し、それにより、コンピューティングリソースを大幅に節約することができ、かつ、初期化モデルのモデル指標を向上させることができる。

【0088】

本開示の実施例は、さらに、図１Ａに示す実施例のモデル決定方法を実行するためのモデル決定装置を提供する。

【0089】

図５Ａは、本開示の実施例によるモデル決定装置の模式図である。図５Ａに示すように、モデル決定装置５０は、第１取得ユニット５１、記憶ユニット５２、訓練ユニット５３及び決定ユニット５４を含み得る。

【0090】

第１取得ユニット５１は、画像サンプル及びテキストサンプルを取得するために用いられ、ここで、テキストサンプルにおけるテキストは、画像サンプルのターゲット画像を文字で記述するために用いられる。

【0091】

記憶ユニット５２は、画像サンプルの画像特徴を第１キューに記憶し、かつ、テキストサンプルのテキスト特徴を第２キューに記憶するために用いられる。

【0092】

訓練ユニット５３は、第１キュー及び第２キューを訓練して、第１ターゲットモデルを得るために用いられる。

【0093】

決定ユニット５４は、第１ターゲットモデルを第２ターゲットモデルの初期化モデルとして決定するために用いられる。

【0094】

選択可能に、訓練ユニットは、第１キュー及び第２キューに基づいてネガティブサンプルを決定するための決定モジュールと、ネガティブサンプルを訓練して、第１ターゲットモデルを得るための訓練モジュールとを含む。

【0095】

選択可能に、ネガティブサンプルには、第１ネガティブサンプル及び第２ネガティブサンプルが含まれ、ここで、決定モジュールは、第１キュー及びテキスト特徴に基づいて第１ネガティブサンプルを決定するための第１決定サブモジュールと、第２キュー及び画像特徴に基づいて第２ネガティブサンプルを決定するための第２決定サブモジュールと、を含む。

【0096】

選択可能に、第１決定サブモジュールは、第１キュー及びテキストサンプルのうちの現在バッチのサンプルのテキスト特徴に基づいて第１ネガティブサンプルを決定するステップにより、第１キュー及びテキスト特徴に基づいて第１ネガティブサンプルを決定するために用いられる。

【0097】

選択可能に、第２決定サブモジュールは、第２キュー及び画像サンプルのうちの現在バッチのサンプルの画像特徴に基づいて第２ネガティブサンプルを決定するステップにより、第２キュー及び画像特徴に基づいて第２ネガティブサンプルを決定するために用いられる。

【0098】

選択可能に、訓練モジュールは、ネガティブサンプルの複数の画像特徴と複数のテキスト特徴とのマッチングを行って、複数のマッチング結果及び複数の非マッチング結果を得るために用いられ、ここで、マッチング結果には、互いに正常にマッチングされた画像特徴及びテキスト特徴が含まれ、非マッチング結果には、互いにマッチングが失敗した画像特徴及びテキスト特徴が含まれるマッチングサブモジュールと、複数のマッチング結果及び複数の非マッチング結果に基づいてモデルパラメータを決定するための第３決定サブモジュールと、モデルパラメータに基づいて第１ターゲットモデルを決定するための第４決定サブモジュールと、を含む。

【0099】

選択可能に、画像サンプルには、画像ノイズデータが含まれ、及び／又は、テキストサンプルにはテキストノイズデータが含まれる。

【0100】

選択可能に、画像サンプルは、注釈のない画像サンプルであり、及び／又は、テキストサンプルは、注釈のないテキストサンプルである。

【0101】

本開示の実施例は、さらに、図１Ｂに示す実施例のモデル決定方法を実行するためのモデル決定装置を提供する。

【0102】

図５Ｂは、本開示の実施例による別のモデル決定装置の模式図である。図５Ｂに示すように、モデル決定装置５００は、送信ユニット５０２及び受信ユニット５０４を含み得る。

【0103】

送信ユニット５０２は、サーバにモデル訓練要求を送信するために用いられ、ここで、前記モデル訓練要求には、画像サンプル及びテキストサンプルが含まれ、前記テキストサンプルにおけるテキストは、前記画像サンプルのターゲット画像を文字で記述するために用いられる。

【0104】

受信ユニット５０４は、前記サーバが前記モデル訓練要求に応答して送信した初期化モデルを受信するために用いられ、ここで、前記初期化モデルは、前記サーバが前記画像サンプルの画像特徴を第１キューに記憶し、かつ、前記テキストサンプルのテキスト特徴を第２キューに記憶し、前記第１キュー及び前記第２キューを訓練することによって得られるものである。

【0105】

本開示の実施例は、さらに、図１Ｃに示す実施例の画像処理方法を実行するための画像処理装置を提供する。

【0106】

図５Ｃは、本開示の実施例による画像処理装置の模式図である。図５Ｃに示すように、画像処理装置５０００は、第２取得ユニット５００１、入力ユニット５００２及び第３取得ユニット５００３を含み得る。

【0107】

第２取得ユニット５００１は、被処理画像を取得するために用いられる。

【0108】

入力ユニット５００２は、被処理画像を、本開示の実施例のモデル決定方法によって取得される第２ターゲットモデルに入力するために用いられる。

【0109】

第３取得ユニット５００３は、第２ターゲットモデルの処理結果を取得するために用いられる。

【0110】

当該実施例では、予備訓練は、デュアルキューで画像特徴及びテキスト特徴をそれぞれ保存して、初期化モデルの訓練に用いるため、コンピューティングリソースを大幅に節約することができ、初期化モデルの訓練効率が低いという技術的問題を解決し、初期化モデルの訓練効率を向上させるという技術的効果に達した。

【0111】

なお、上記の各ユニット及びモジュールは、ソフトウェア又はハードウェアによって実装されてもよく、後者にとって、上記のユニット及びモジュールがいずれも同じプロセッサに位置する方式、又は、上記の各ユニット及びモジュールが任意の組み合わせ形態でそれぞれ異なるプロセッサに位置する方式で実装されてもよいが、これらに限定されない。

【0112】

本開示の技術案において、係るユーザの個人情報の取得、記憶及び適用などは、いずれも関連の法規制の規定に準拠しており、公序良俗に反するものではない。

【0113】

本開示の実施例によれば、本開示は、電子機器をさらに提供する。当該電子機器は、少なくとも１つのプロセッサと、少なくとも１つのプロセッサに通信可能に接続されるメモリとを含み、ここで、メモリには、少なくとも１つのプロセッサによって実行可能な命令が記憶されており、少なくとも１つのプロセッサが本開示の実施例のモデル決定方法を実行できるように、命令が少なくとも１つのプロセッサによって実行される。

【0114】

選択可能に、上記の電子機器は、さらに、伝送機器及び入出力機器を含み、ここで、当該伝送機器は上記のプロセッサに接続され、当該入出力機器は上記のプロセッサに接続される。

【0115】

本開示の実施例によれば、本開示は、さらに、コンピュータ命令が記憶されている非一時的コンピュータ可読記憶媒体を提供し、ここで、コンピュータ命令は、コンピュータに本開示の実施例のモデル決定方法を実行させるために用いられる。

【0116】

選択可能に、本実施例において、上記の不揮発性記憶媒体は、画像サンプル及びテキストサンプルを取得するステップであって、ここで、テキストサンプルにおけるテキストは、画像サンプルのターゲット画像を文字で記述するために用いられる、ステップＳ１と、画像サンプルの画像特徴を第１キューに記憶し、かつ、テキストサンプルのテキスト特徴を第２キューに記憶するステップＳ２と、第１キュー及び第２キューを訓練して、第１ターゲットモデルを得るステップＳ３と、第１ターゲットモデルを第２ターゲットモデルの初期化モデルとして決定するステップＳ４と、を実行するためのコンピュータプログラムを記憶するように構成されてもよい。

【0117】

選択可能に、本実施例において、上記の不揮発性記憶媒体は、さらに、サーバにモデル訓練要求を送信するステップであって、ここで、モデル訓練要求には、画像サンプル及びテキストサンプルが含まれ、テキストサンプルにおけるテキストは、画像サンプルのターゲット画像を文字で記述するために用いられる、ステップＳ１と、Ｓ２、サーバがモデル訓練要求に応答して送信する初期化モデルを受信するステップであって、ここで、初期化モデルは、サーバが画像サンプルの画像特徴を第１キューに記憶し、かつ、テキストサンプルのテキスト特徴を第２キューに記憶し、第１キュー及び第２キューを訓練することによって得られるものである、ステップＳ２と、を実行するためのコンピュータプログラムを記憶するように構成されてもよい。

【0118】

選択可能に、本実施例において、上記の不揮発性記憶媒体は、さらに、被処理画像を取得するステップＳ１と、被処理画像を、本開示の実施例のモデル決定方法によって取得される第２ターゲットモデルに入力するステップＳ２と、第２ターゲットモデルの処理結果を取得するステップＳ３と、を実行するためのコンピュータプログラムを記憶するように構成されてもよい。

【0119】

選択可能に、本実施例において、上記の非一時的コンピュータ可読記憶媒体は、電子もの、磁気もの、光学もの、電磁もの、赤外線もの、又は半導体システム、装置や機器、又は上記内容の任意の適切な組み合わせを含み得るが、これらに限定されない。可読記憶媒体のさらなる具体的例示は、１つ又は複数のワイヤに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光記憶装置、磁気記憶装置、又は上記内容のいずれの適切な組み合わせを含む。

【0120】

本開示の実施例によれば、本開示は、さらに、コンピュータプログラムを含むコンピュータプログラム製品を提供し、当該コンピュータプログラムがプロセッサによって実行されると、画像サンプル及びテキストサンプルを取得するステップであって、ここで、テキストサンプルにおけるテキストは、画像サンプルのターゲット画像を文字で記述するために用いられる、ステップＳ１と、画像サンプルの画像特徴を第１キューに記憶し、かつ、テキストサンプルのテキスト特徴を第２キューに記憶するステップＳ２と、第１キュー及び第２キューを訓練して、第１ターゲットモデルを得るステップＳ３と、第１ターゲットモデルを第２ターゲットモデルの初期化モデルとして決定するステップＳ４と、を実施できる。

【0121】

選択可能に、上記のコンピュータプログラムがプロセッサによって実行されると、さらに、サーバにモデル訓練要求を送信するステップであって、ここで、モデル訓練要求には、画像サンプル及びテキストサンプルが含まれ、テキストサンプルにおけるテキストは、画像サンプルのターゲット画像を文字で記述するために用いられる、ステップＳ１と、サーバがモデル訓練要求に応答して送信する初期化モデルを受信するステップであって、ここで、初期化モデルは、サーバが画像サンプルの画像特徴を第１キューに記憶し、かつ、テキストサンプルのテキスト特徴を第２キューに記憶し、第１キュー及び第２キューを訓練することによって得られるものである、ステップＳ２と、を実現できる。

【0122】

選択可能に、上記のコンピュータプログラムがプロセッサによって実行されると、さらに、被処理画像を取得するステップＳ１と、被処理画像を、本開示の実施例のモデル決定方法によって取得される第２ターゲットモデルに入力するステップＳ２と、第２ターゲットモデルの処理結果を取得するステップＳ３と、を実現できる。

【0123】

選択可能に、本実施例の具体的な例示は、上記の実施例及び選択可能な実施形態に説明されている例示を参照でき、本実施例では詳細な説明を省略する。

【0124】

当該実施例の、本開示のモデル決定方法を実施するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組み合わせを用いて編集されてもよい。これらのプログラムコードは、プログラムコードがプロセッサ又はコントローラによって実行されると、フローチャート及び／又はブロック図で定義された機能／操作が実施されるように、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルモデル決定装置のプロセッサ又はコントローラに提供できる。プログラムコードは、完全に機械上で実行されても、部分的に機械上で実行されてもよいし、独立型ソフトウェアパッケージとして、一部が機械上で実行されるとともに、一部がリモート機械上で実行されてもよいし、完全にリモート機械もしくはサーバ上で実行されてもよい。

【0125】

図６は、本開示の実施例による電子機器の模式的なブロック図である。電子機器は、例えばラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを示すことを目的とする。電子機器は、例えばパーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の類似するコンピューティングデバイスなどの様々な形態のモバイルデバイスを示すこともできる。本明細書に示す構成要素、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書に説明及び／又は要求される本開示の実施を制限することを意図するものではない。

【0126】

図６に示すように、機器６００は、コンピューティングユニット６０１を含み、読み取り専用メモリ（ＲＯＭ）６０２に記憶されているコンピュータプログラム、又は記憶ユニット６０８からランダムアクセスメモリ（ＲＡＭ）６０３にロードされたコンピュータプログラムに応じて、様々な適切な動作及び処理を実行することができる。ＲＡＭ６０３には、機器６００の操作に必要な様々なプログラムやデータも記憶できる。コンピューティングユニット６０１、ＲＯＭ６０２、及びＲＡＭ６０３は、バス６０４を介して互に接続される。入力／出力（Ｉ／Ｏ）インターフェース６０５もバス６０４に接続される。

【0127】

キーボード、マウスなどの入力ユニット６０６と、様々なタイプのディスプレイ、スピーカなどの出力ユニット６０７と、磁気ディスク、光ディスクなどの記憶ユニット６０８と、ネットワークカード、モデム、無線通信送受信機などの通信ユニット６０９とを含む機器６００の複数の構成要素は、Ｉ／Ｏインターフェース６０５に接続される。通信ユニット６０９は、インターネットなどのコンピュータネットワーク及び／又は様々な電気通信ネットワークを介して、機器６００が他のデバイスと情報／データを交換することを可能にする。

【0128】

コンピューティングユニット６０１は、処理及びコンピューティング能力を有する様々な汎用及び／又は専用処理コンポーネントであり得る。コンピューティングユニット６０１のいくつかの例示は、中央処理ユニット（ＣＰＵ）、グラフィックスプロセッサ（ＧＰＵ）、様々な専用人工知能（ＡＩ）コンピューティングチップ、様々な機械学習モデルアルゴリズムを実行するコンピューティングユニット、デジタルシグナルプロセッサ（ＤＳＰ）、及びいずれの適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。コンピューティングユニット６０１は、以上に説明された各方法及び各処理、例えばモデル決定方法を実行する。例えば、いくつかの実施例において、モデル決定方法は、例えば記憶ユニット６０８などの機械読み取り可能な媒体に有形に含まれるコンピュータソフトウェアプログラムとして実装されてもよい。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ＲＯＭ６０２及び／又は通信ユニット６０９を介して機器６００にロード及び／又はインストールされてもよい。コンピュータプログラムは、ＲＡＭ６０３にロードされてコンピューティングユニット６０１によって実行されると、以上に説明されたモデル決定方法の１つ又は複数のステップを実行することができる。代替のものとして、他の実施例において、コンピューティングユニット６０１は、他のいずれの適切な方式で（例えば、ファームウェアを用いて）、モデル決定方法を実行するように構成されてもよい。

【0129】

本明細書の以上に説明されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、専用集積回路（ＡＳＩＣ）、専用標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、複雑プログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組合せで実装され得る。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムで実施されることを含み、当該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び／又は解釈されることができ、当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、かつ、当該記憶システム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置にデータ及び命令を送信することができる。

【0130】

本開示の方法を実施するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組み合わせで編集されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルモデル決定装置のプロセッサ又はコントローラに提供されてもよく、プログラムコードがプロセッサ又はコントローラによって実行されると、フローチャート及び／又はブロック図で定義された機能／操作が実施される。プログラムコードは、完全に機械上で実行されても、部分的に機械上で実行されてもよいし、独立型ソフトウェアパッケージとして、一部が機械上で実行されるとともに、一部がリモート機械上で実行されてもよいし、完全にリモート機械もしくはサーバ上で実行されてもよい。

【0131】

本開示の文脈上に、機械読み取り可能な媒体は、命令実行システム、装置或いはデバイスの使用に提供されるか、又は命令実行システム、装置或いはデバイスと結合して使用されるプログラムを含むか、又は記憶することができる有形媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子もの、磁気もの、光学もの、電磁もの、赤外線もの、又は半導体システム、装置やデバイス、又は上記内容の任意の適切な組み合わせを含み得るが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、１つ又は複数のワイヤに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光記憶装置、磁気記憶装置、又は記内容のいずれの適切な組み合わせを含む。

【0132】

ユーザとのインタラクションを提供するために、コンピュータ上で本明細書に説明されるシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって、コンピュータに入力することが可能になる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられることもでき、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形態（音響入力と、音声入力と、触覚入力とを含む）でユーザからの入力を受信することができる。

【0133】

本明細書で説明するシステム及び技術は、バックエンド構成要素を含むコンピューティングシステム（例えば、データサーバとして）、又はミドルウェア構成要素を含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンド構成要素を含むコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザにより本明細書で説明するシステム及び技術の実施形態とインタラクションする）、又はこのようなバックエンド構成要素、ミドルウェア構成要素、又はフロントエンド構成要素の任意の組み合わせを含むコンピューティングシステムに実装されることができる。システムの構成要素は、いずれの形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）を介して互いに接続されることができる。通信ネットワークの例示には、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、及びインターネットが含まれる。

【0134】

コンピュータシステムは、クライアントとサーバとを含み得る。クライアント及びサーバは、一般に、互いに遠く離れており、通常は、通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行されるとともに、互いにクライアント－サーバの関係を有するコンピュータプログラムにより、クライアントとサーバとの関係が生成される。サーバは、クラウドサーバであってもよいし、分散型システムのサーバであってもよいし、ブロックチェーンと組み合わせたサーバであってもよい。

【0135】

上記に示される様々な形態のフローを使用して、ステップの並べ替え、追加、又は削除を行うことができることを理解されたい。例えば、本開示に記載された各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよく、本開示に開示される技術案が所望の結果を実現する限り、本明細書に限定されない。

【0136】

上記の具体的な実施形態は、本開示の保護範囲を制限するものではない。当業者には、設計要件及び他の要因に基づいて、様々な修正、コンビネーション、サブコンビネーション、及び置換を行うことができることを理解されたい。本開示の精神と原則の範囲内で行われる修正、等価置換及び改良などは、いずれも本開示の保護範囲に含まれるべきである。

【図1A】