IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特開2024-150438画像生成方法及び装置、電子機器並びに記憶媒体
<>
  • 特開-画像生成方法及び装置、電子機器並びに記憶媒体 図1
  • 特開-画像生成方法及び装置、電子機器並びに記憶媒体 図2
  • 特開-画像生成方法及び装置、電子機器並びに記憶媒体 図3
  • 特開-画像生成方法及び装置、電子機器並びに記憶媒体 図4
  • 特開-画像生成方法及び装置、電子機器並びに記憶媒体 図5
  • 特開-画像生成方法及び装置、電子機器並びに記憶媒体 図6
  • 特開-画像生成方法及び装置、電子機器並びに記憶媒体 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024150438
(43)【公開日】2024-10-23
(54)【発明の名称】画像生成方法及び装置、電子機器並びに記憶媒体
(51)【国際特許分類】
   G06T 11/80 20060101AFI20241016BHJP
   G06F 40/279 20200101ALI20241016BHJP
   G06F 40/216 20200101ALI20241016BHJP
   G06Q 50/10 20120101ALI20241016BHJP
【FI】
G06T11/80 A
G06F40/279
G06F40/216
G06Q50/10
【審査請求】未請求
【請求項の数】21
【出願形態】OL
【外国語出願】
【公開請求】
(21)【出願番号】P 2024098388
(22)【出願日】2024-06-19
(31)【優先権主張番号】202310809065.X
(32)【優先日】2023-07-03
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100229448
【弁理士】
【氏名又は名称】中槇 利明
(72)【発明者】
【氏名】ジアチェン リウ
(72)【発明者】
【氏名】シンイエン シヤオ
(72)【発明者】
【氏名】ホワ ウー
(72)【発明者】
【氏名】グオハオ リー
(72)【発明者】
【氏名】ウエイ リー
(72)【発明者】
【氏名】ホーン ジュウ
(72)【発明者】
【氏名】チヤオチヤオ ショーァ
(72)【発明者】
【氏名】ヤージュエン リュイ
(57)【要約】
【課題】本開示は、画像生成方法及び装置、電子機器及び記憶媒体を提供し、人工知能技術分野に関し、特に自然言語処理、深層学習、大規模言語モデルなどの分野に関する。
【解決手段】実現案として、現在の対話データを取得し、ここで、現在の対話データは現在ラウンドの対話のユーザ入力データと、履歴ラウンドの対話の履歴対話データを含むことと、現在の対話データに基づいて、現在ラウンドの対話におけるユーザの要求タイプを確定することと、要求タイプが画像処理要求であることに応答して、画像処理要求を実現するためのアクションシーケンスを確定することであって、ここで、アクションシーケンスは、少なくとも1つの画像処理アクションを含むことと、アクションシーケンスを実行することで、ターゲット画像を生成することと、ターゲット画像に基づいて、ユーザ入力データに対応する応答データを生成することとを含む。本開示は対話型画像生成を実現することができる。
【選択図】図3
【特許請求の範囲】
【請求項1】
画像生成方法であって、
現在の対話データを取得することであって、ここで、前記現在の対話データは現在ラウンドの対話のユーザ入力データと、履歴ラウンドの対話の履歴対話データを含むことと、
前記現在の対話データに基づいて、前記現在ラウンドの対話におけるユーザの要求タイプを確定することと、
前記要求タイプが画像処理要求であることに応答して、前記画像処理要求を実現するためのアクションシーケンスを確定することであって、ここで、前記アクションシーケンスは、少なくとも1つの画像処理アクションを含むことと、
前記アクションシーケンスを実行することで、ターゲット画像を生成することと、
前記ターゲット画像に基づいて、前記ユーザ入力データに対応する応答データを生成することとを含む、画像生成方法。
【請求項2】
前記現在の対話データに基づいて、前記現在ラウンドの対話におけるユーザの要求タイプを確定することは、
前記現在の対話データに基づいて、第1の言語モデルに入力するための第1の入力データを確定することと、
前記第1の入力データを前記第1の言語モデルに入力することで、前記第1の言語モデルによって出力される前記要求タイプを取得することとを含む、請求項1に記載の方法。
【請求項3】
前記現在の対話データに基づいて、第1の言語モデルに入力するための第1の入力データを確定することは、
プリセットの第1のテンプレートを取得することであって、ここで、前記第1のテンプレートは、前記要求タイプを識別するように前記第1の言語モデルをガイドするための第1のガイド情報と充填すべき第1のスロットとを含むことと、
前記現在の対話データを前記第1のスロットに充填することで、前記第1の入力データを取得することとを含む、請求項2に記載の方法。
【請求項4】
前記現在の対話データに基づいて、前記現在ラウンドの対話におけるユーザの要求タイプを確定することは、
前記現在の対話データを分類モデルに入力することで、前記分類モデルによって出力される前記要求タイプを取得することを含む、請求項1に記載の方法。
【請求項5】
前記画像処理要求を実現するためのアクションシーケンスを確定することは、
プリセットの第2のテンプレートを取得することであって、ここで、前記第2のテンプレートは、前記アクションシーケンスを生成するように第2の言語モデルをガイドするための第2のガイド情報と充填すべき第2のスロットとを含むことと、
前記画像処理要求を前記第2のスロットに充填させることで、前記第2の言語モデルに入力するための第2の入力データを取得することと、
前記第2の入力データを前記第2の言語モデルに入力することで、前記第2の言語モデルによって出力される前記アクションシーケンスを取得することとを含む、請求項1に記載の方法。
【請求項6】
前記画像処理要求を実現するためのアクションシーケンスを確定することは、
プリセットの複数の画像処理要求と複数のアクションシーケンスとの対応関係に基づいて、前記画像処理要求を実現するためのアクションシーケンスを確定することを含む、請求項1に記載の方法。
【請求項7】
前記アクションシーケンスを実行することで、ターゲット画像を生成することは、
前記現在の対話データから前記画像処理要求を実現するためのターゲットデータを抽出することと、
前記アクションシーケンス中のいずれか1つの画像処理アクションに対して、
前記ターゲットデータに基づいて、前記画像処理アクションの入力パラメータ値を確定することと、
前記入力パラメータ値に基づいて、前記画像処理アクションを実行することで、前記画像処理アクションの結果画像を取得することとを含む、請求項1に記載の方法。
【請求項8】
前記ターゲット画像に基づいて、前記ユーザ入力データに対応する応答データを生成することは、
前記ターゲット画像とプリセットの第3のテンプレートを第3の言語モデルに入力することで、前記第3の言語モデルによって出力される、前記ターゲット画像を解釈するための解釈データを取得することであって、ここで、前記第3のテンプレートは前記解釈データを生成するように前記第3の言語モデルをガイドするために使用されることと、
前記ターゲット画像と前記解釈データを前記応答データとすることとを含む、請求項1に記載の方法。
【請求項9】
前記ターゲット画像に基づいて、前記ユーザ入力データに対応する応答データを生成することは、
前記ターゲット画像をImage to Textモデルに入力することで、前記Image to Textモデルによって出力される前記ターゲット画像の記述テキストを取得することと、
前記記述テキストを第4の言語モデルに入力することで、前記第4の言語モデルによって出力される、前記ターゲット画像を解釈するための解釈データを取得することと、
前記ターゲット画像と前記解釈データを前記応答データとすることとを含む、請求項1に記載の方法。
【請求項10】
画像生成装置であって、
現在の対話データを取得するように構成される取得モジュールであって、ここで、前記現在の対話データは現在ラウンドの対話のユーザ入力データと、履歴ラウンドの対話の履歴対話データを含むものと、
前記現在の対話データに基づいて、前記現在ラウンドの対話におけるユーザの要求タイプを確定するように構成される第1の確定モジュールと、
前記要求タイプが画像処理要求であることに応答して、前記画像処理要求を実現するためのアクションシーケンスを確定するように構成される第2の確定モジュールであって、ここで、前記アクションシーケンスは、少なくとも1つの画像処理アクションを含むものと、
前記アクションシーケンスを実行することで、ターゲット画像を生成するように構成される実行モジュールと、
前記ターゲット画像に基づいて、前記ユーザ入力データに対応する応答データを生成するように構成される生成モジュールとを含む、画像生成装置。
【請求項11】
前記第1の確定モジュールは、
前記現在の対話データに基づいて、第1の言語モデルに入力するための第1の入力データを確定するように構成される第1の確定ユニットと、
前記第1の入力データを前記第1の言語モデルに入力することで、前記第1の言語モデルによって出力される前記要求タイプを取得するように構成される第1の入力ユニットとを含む、請求項10に記載の装置。
【請求項12】
前記第1の確定ユニットは、
プリセットの第1のテンプレートを取得するように構成される取得サブユニットであって、ここで、前記第1のテンプレートは、前記要求タイプを識別するように前記第1の言語モデルをガイドするための第1のガイド情報と充填すべき第1のスロットとを含むものと、
前記現在の対話データを前記第1のスロットに充填することで、前記第1の入力データを取得するように構成される充填サブユニットとを含む、請求項11に記載の装置。
【請求項13】
前記第1の確定モジュールは、
前記現在の対話データを分類モデルに入力することで、前記分類モデルによって出力される前記要求タイプを取得するように構成される第2の入力ユニットを含む、請求項10に記載の装置。
【請求項14】
前記第2の確定モジュールは、
プリセットの第2のテンプレートを取得するように構成される取得ユニットであって、ここで、前記第2のテンプレートは、前記アクションシーケンスを生成するように第2の言語モデルをガイドするための第2のガイド情報と充填すべき第2のスロットとを含むものと、
前記画像処理要求を前記第2のスロットに充填させることで、前記第2の言語モデルに入力するための第2の入力データを取得するように構成される充填ユニットと、
前記第2の入力データを前記第2の言語モデルに入力することで、前記第2の言語モデルによって出力される前記アクションシーケンスを取得する第3の入力ユニットとを含む、請求項10に記載の装置。
【請求項15】
前記第2の確定モジュールは、
プリセットの複数の画像処理要求と複数のアクションシーケンスとの対応関係に基づいて、前記画像処理要求を実現するためのアクションシーケンスを確定するように構成される第2の確定ユニットを含む、請求項10に記載の装置。
【請求項16】
前記実行モジュールは、
前記現在の対話データから前記画像処理要求を実現するためのターゲットデータを抽出するように構成される抽出ユニットと、
前記アクションシーケンス中のいずれか1つの画像処理アクションに対して、前記ターゲットデータに基づいて、前記画像処理アクションの入力パラメータ値を確定するように構成される第3の確定ユニットと、
前記入力パラメータ値に基づいて、前記画像処理アクションを実行することで、前記画像処理アクションの結果画像を取得するように構成される実行ユニットとを含む、請求項10に記載の装置。
【請求項17】
前記生成モジュールは、
前記ターゲット画像とプリセットの第3のテンプレートを第3の言語モデルに入力することで、前記第3の言語モデルによって出力される、前記ターゲット画像を解釈するための解釈データを取得するように構成される第4の入力ユニットであって、ここで、前記第3のテンプレートは前記解釈データを生成するように前記第3の言語モデルをガイドするために使用されるものと、
前記ターゲット画像と前記解釈データを前記応答データとするように構成される第4の確定ユニットとを含む、請求項10に記載の装置。
【請求項18】
前記生成モジュールは、
前記ターゲット画像をImage to Textモデルに入力することで、前記Image to Textモデルによって出力される、前記ターゲット画像の記述テキストを取得するように構成される第5の入力ユニットと、
前記記述テキストを第4の言語モデルに入力することで、前記第4の言語モデルによって出力される、前記ターゲット画像を解釈するための解釈データを取得するように構成される第6の入力ユニットと、
前記ターゲット画像と前記解釈データを前記応答データとするように構成される第5の確定ユニットとを含む、請求項10に記載の装置。
【請求項19】
電子機器であって、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信接続されたメモリとを含み、ここで、
前記メモリは、前記少なくとも1つのプロセッサによって実行可能な命令を記憶し、前記命令は前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサに請求項1~9のいずれか一項に記載の方法を実行させることができる、ことを特徴とする電子機器。
【請求項20】
コンピュータ命令が記憶された非一時的コンピュータ可読記憶媒体であって、前記コンピュータ命令は、コンピュータに請求項1~9のいずれか1項に記載の方法を実行させる、非一時的コンピュータ可読記憶媒体。
【請求項21】
コンピュータプログラム命令を含むコンピュータプログラム製品であって、前記コンピュータプログラム命令はプロセッサによって実行されると、請求項1~9のいずれか一項に記載の方法を実現する、コンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、人工知能技術分野に関し、特に自然言語処理、深層学習、大規模言語モデルなどの技術分野に関し、具体的には、画像生成方法及び装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム製品に関する。
【背景技術】
【0002】
人工知能(Artificial Intelligence、AI)は、コンピュータに人間のいくつかの思惟過程及び知能的行動(例えば、学習、推理、思考、計画など)を模倣させるように研究する科目であり、ハードウェア面の技術もあれば、ソフトウェア面の技術もある。人工知能のハードウェア技術は、一般的にセンサ、人工知能専用チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理などの技術を含み、人工知能ソフトウェア技術は、主にコンピュータ視覚技術、音声認識技術、自然言語処理技術及び機械学習/深層学習、ビッグデータ処理技術、ナレッジグラフ技術などのいくつかの大きな方向を含む。
【0003】
大規模言語モデル(Large Language Model、LLM、大規模モデルとも呼ばれる)は、大量のテキストデータを使用してトレーニングされた深層学習モデルであり、それは自然言語テキストを生成するか又は自然言語テキストの意味を理解することができる。大規模言語モデルは、例えば、対話、質問応答、テキスト分類、テキスト生成など、複数タイプの自然言語タスクを処理することができるため、人工知能への重要な経路の1つである。いくつかの大規模言語モデルは更にマルチモーダルデータ処理能力を有し、例えば、テキスト、画像、ビデオなどのマルチモーダルデータを処理することができる。
【0004】
当該部分で説明される方法は、必ずしも以前に想定された方法又は採用された方法ではない。特に断りのない限り、当該部分に記載されているいずれかの方法は、当該部分に含まれることだけで従来技術であると考えられるべきではない。同様に、特に断りのない限り、当該部分で言及されている課題は、従来の技術で承認されたものであると考えるべきではない。
【発明の概要】
【0005】
本開示は、画像生成方法及び装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム製品を提供する。
【0006】
本開示の一態様によれば、画像生成方法を提供し、この方法は、現在の対話データを取得することであって、ここで、前記現在の対話データは現在ラウンドの対話のユーザ入力データと、履歴ラウンドの対話の履歴対話データを含むことと、前記現在の対話データに基づいて、前記現在ラウンドの対話における前記ユーザの要求タイプを確定することと、前記要求タイプが画像処理要求であることに応答して、前記画像処理要求を実現するためのアクションシーケンスを確定することであって、ここで、前記アクションシーケンスは、少なくとも1つの画像処理アクションを含むことと、前記アクションシーケンスを実行することで、ターゲット画像を生成することと、前記ターゲット画像に基づいて、前記ユーザ入力データに対応する応答データを生成することとを含む。
【0007】
本開示の一態様によれば、画像生成装置を提供し、この装置は、現在の対話データを取得するように構成される取得モジュールであって、ここで、前記現在の対話データは現在ラウンドの対話のユーザ入力データと、履歴ラウンドの対話の履歴対話データを含むものと、前記現在の対話データに基づいて、前記現在ラウンドの対話における前記ユーザの要求タイプを確定するように構成される第1の確定モジュールと、前記要求タイプが画像処理要求であることに応答して、前記画像処理要求を実現するためのアクションシーケンスを確定するように構成される第2の確定モジュールであって、ここで、前記アクションシーケンスは、少なくとも1つの画像処理アクションを含むものと、前記アクションシーケンスを実行することで、ターゲット画像を生成するように構成される実行モジュールと、前記ターゲット画像に基づいて、前記ユーザ入力データに対応する応答データを生成するように構成される生成モジュールとを含む。
【0008】
本開示の一態様によれば、電子機器を提供し、前記電子機器は、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信接続されたメモリとを含み、前記メモリは、前記少なくとも1つのプロセッサによって実行可能な命令を記憶しており、前記命令は前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサに上述の方法を実行させることができる。
【0009】
本開示の一態様によれば、コンピュータに上記に記載の方法を実行させるためのコンピュータ命令が記憶された非一時的コンピュータ可読記憶媒体を提供する。
【0010】
本開示の一態様によれば、プロセッサによって実行されると、上記に記載の方法を実現するコンピュータプログラム命令を含むコンピュータプログラム製品を提供する。
【0011】
本願の1つ又は複数の実施例によれば、対話型画像生成を実現することができ、画像生成の効率と利便性を向上させる。
【0012】
理解すべきこととして、当該部分に説明される内容は、本開示の実施例の要点又は重要な特徴を識別することを意図しておらず、本開示の保護範囲を限定するためのものではない。本開示の他の特徴は、以下の明細書によって容易に理解されるであろう。
【図面の簡単な説明】
【0013】
図面は、実施例を例示的に示し、明細書の一部を構成し、明細書の文字による説明とともに、実施例の例示的な実施形態を説明するために用いられる。図示の実施例は例示的目的のみであり、特許請求の範囲を限定するものではない。全ての図面において、同一の符号は、類似しているが、必ずしも同じとは限らない要素を指す。
図1】本開示の実施例による、本明細書で説明される様々な方法を実施することができる例示的なシステムを示す概略図である。
図2】本開示の実施例による対話型画像処理システムを示す概略図である。
図3】本開示の実施例による画像生成方法を示すフローチャートである。
図4】本開示の実施例による画像生成過程を示す概略図である。
図5】本開示の実施例による画像生成効果を示す概略図である。
図6】本開示の実施例によるテキスト生成モデルのトレーニング装置の構成を示すブロック図である。
図7】本開示の実施例を実現するために使用できる例示的な電子機器の構造を示すブロック図である。
【発明を実施するための形態】
【0014】
以下、図面に合わせて本開示の例示的な実施例を説明するが、それに含まれる本開示の実施例における様々な詳細は理解を助けるためのものであるので、それらは単に例示的なものと考えられるべきである。したがって、当業者であれば、本開示の範囲及び精神から逸脱することなく、本明細書で説明された実施例に対して様々な変更及び修正を行うことができることを認識すべきである。同様に、明瞭性と簡潔性のために、以下の説明では公知の機能及び構造についての説明を省略している。
【0015】
本願では、特に明記しない限り、様々な要素を説明するための「第1」、「第2」などの用語は、これらの要素の位置関係、タイミング関係、又は重要性関係を限定することを意図していない。このような用語は、一要素を別の要素から区別するためにのみ使用される。いくつかの例では、第1の要素と第2の要素は、要素の同じ例を指してもよく、場合によっては、コンテキストの説明に基づいて、異なる例を指してもよい。
【0016】
本開示の様々な例の説明で使用される用語は、特定の例を説明することのみを目的としており、限定することを意図していない。コンテキストで別途に明確に示されていない限り、特に要素の数を限定せず、要素は1つであってもよいし、複数であってもよい。なお、本開示で使用される用語「及び/又は」は、リストされたアイテムのいずれか及び可能な全ての組み合わせをカバーする。「複数」は2つ以上を意味する。
【0017】
本開示の技術案において、関連するユーザ個人情報の取得、記憶と応用などは、全て関連法律法規の規定に合致し、かつ公順良俗に違反しない。
【0018】
画像処理タスクは画像生成タスクと画像編集タスクに分けられることができる。
【0019】
画像生成タスクについて、AIGC(AI Generated Content、AI生成コンテンツ)技術分野が画像生成において大きな潜在性を示しているため、短時間内に全員の関心を集めていた。現在、AIアルゴリズムは分間レベル以内に画像作成を完了でき、画像制作に関わる産業の生産方式は破壊されつつある。
【0020】
しかしながら、現在の主流の画像生成スキームは、Text to Imageモデルを使用して、入力されたテキストに基づいて画像を生成する技術、即ち、「Text to Image」技術であり、人間が入力したテキストを「プロンプト」(プロンプトワード)と呼ばれている。Text to Imageモデルは敵対的生成ネットワーク(Generative Adversarial Network、GAN)に基づくText to Imageモデルと、Transformerに基づくText to Imageモデルと、拡散生成(Diffusion)に基づくText to Imageモデルとを含む。Text to Image技術は比較的理想的な結果を取得することが可能になるために、明確で細かく最適化されたプロンプトを提供する必要がある。そのため、この主流の技術は抽象化で使用の条件が高いため、画像処理の効率が低く、コストが高くなる。同時に、複数ラウンドのインタラクションをサポートできないため、ユーザの要求を満たしにくいことが多い。
【0021】
画像編集タスクは通常、従来の画像編集ツール(例えば、PhotoShop(登録商標)、CorelDRAW(登録商標)などのソフトウェア)を使用して実現される。ユーザは画像編集ツールにおいて対応する機能を選択して使用することで、コンテンツの追加、コンテンツの削除、コンテンツの抽出、画像サイズや色の調整などのアクションを自主的に完了する。画像編集ツールを使用するにはユーザは専門的なトレーニングが必要であるため、画像編集の効率が低下し、コストが高くなり、ユーザの要求を満たしにくい。
【0022】
以上のことから分かるように、関連技術における画像処理案は汎用性がなく、使用の条件が高いとともに、ユーザとの複数ラウンドのインタラクションをサポートしないか又は容易にしないため、画像処理の効率が低くなり、コストが高くなり、ユーザの要求を満たしにくい。
【0023】
上記の問題に対して、本開示の実施例は対話型画像生成方法を提供し、ユーザは、対話の方式で画像処理システムと複数ラウンドのインタラクションを行うと、画像処理を完了することができるため、使用しやすく、追加の学習コストを払う必要がなく、画像処理の効率と利便性が大幅に向上した。以下、図面を参照して本開示の実施例について詳細に説明する。
【0024】
図1は、本開示の実施例による、本明細書に記載された様々な方法及び装置を、その中で実施することができる例示的なシステム100の概略図を示す。図1を参照すると、該システム100は、1つ以上のクライアントデバイス101、102、103、104、105及び106と、サーバ120と、1つ以上のクライアントデバイスをサーバ120に結合する1つ以上の通信ネットワーク110を含む。クライアントデバイス101、102、103、104、105及び106は、1つ以上のアプリケーションを実行するように構成されることが可能である。
【0025】
本開示の実施例では、サーバ101、102、103、104、105、106及び/又は120は、画像生成方法を実現可能にする1つ以上のサービス又はソフトウェアアプリケーションを実行することができる。
【0026】
いくつかの実施例では、サーバ120は、非仮想環境と仮想環境を含むことができる他のサービス又はソフトウェアアプリケーションも提供することができる。いくつかの実施例では、これらのサービスは、webベースのサービス又はクラウドサービスとして提供することができ、例えば、ソフトウェアアズアサービス(SaaS)モデルでクライアントデバイス101、102、103、104、105及び/又は106のユーザに提供される。
【0027】
図1に示す構成では、サーバ120は、サーバ120により実行される機能を実現する1つ以上のアセンブリを含んでもよい。これらのアセンブリは、1つ以上のプロセッサで実行できるソフトウェアアセンブリ、ハードウェアアセンブリ、又はそれらの組み合わせを含んでもよい。クライアントデバイス101、102、103、104、105及び/又は106を操作するユーザは、これらのアセンブリが提供するサービスを利用するために、1つ以上のクライアントアプリケーションを順次利用してサーバ120とやり取りをすることができる。様々な異なるシステム配置が可能であり、システム100とは異なってもよいことを理解されたい。したがって、図1は、本明細書に記載された様々な方法を実施するためのシステムの一例であり、限定することを意図していない。
【0028】
クライアントデバイス101、102、103、104、105及び/又は106は、クライアントデバイスのユーザがクライアントデバイスとインタラクションするインターフェースを提供することができる。クライアントデバイスは、該インターフェースを介してユーザに情報を出力することもできる。図1では6つのクライアントデバイスしか図示されていないが、当業者であれば理解できるように、本開示はいかなる数のクライアントデバイスもサポートできる。
【0029】
クライアントデバイス101、102、103、104、105及び/又は106は、携帯型ハンドヘルドデバイス、汎用コンピュータ(例えば、パーソナルコンピュータやノートパソコン)、ワークステーションコンピュータ、ウェアラブルデバイス、スマートスクリーンデバイス、セルフサービス端末デバイス、サービスロボット、車載機器、ゲームシステム、シンクライアント、各種のメッセージングデバイス、センサ、又はその他の検知デバイスなどの様々なタイプのコンピュータデバイスを含んでもよい。これらのコンピュータデバイスは、MICROSOFT(登録商標) Windows、APPLE(登録商標) iOS、類UNIX(登録商標)オペレーティングシステム、Linux(登録商標)又は類Linux(登録商標)オペレーティングシステムなどの様々なタイプ及びバージョンのソフトウェアアプリケーションやオペレーティングシステムを実行したり、MICROSOFT Windows Mobile OS、iOS、Windows Phone、Android(登録商標)などの各種のモバイルオペレーティングシステムを含んだりすることができる。携帯型ハンドヘルドデバイスには、携帯電話、インテリジェントフォン、タブレット、パーソナルデジタルアシスタント(PDA)などを含んでもよい。ウェアラブルデバイスは、ヘッドマウント型ディスプレイ(例えば、スマートグラス)と他の装置を含んでもよい。ゲームシステムは、様々なハンドヘルド型のゲームデバイス、インターネット対応のゲームデバイスなどを含んでもよい。クライアントデバイスは、例えば、インターネット(Internet)関連アプリケーション、通信アプリケーション(例えば、電子メールアプリケーション)、ショートメッセージサービス(SMS)アプリケーション、様々なアプリケーションを実行でき、且つ様々な通信プロトコルを使用できる。
【0030】
ネットワーク110は、当業者に知られている任意のタイプのネットワークであってもよく、それは、データ通信をサポートするために、複数の利用可能なプロトコルのいずれか1つ(TCP/IP、SNA、IPXなどを含むがこれらに限定されない)を使用することができる。例として、1つ又は複数のネットワーク110は、ローカルエリアネットワーク(LAN)、イーサネット(登録商標)ベースのネットワーク、トークンループ、ワイドエリアネットワーク(WAN)、インターネット、仮想ネットワーク、仮想プライベートネットワーク(VPN)、イントラネット、エクストラネット、ブロックチェーンネットワーク、公衆交換電話網(PSTN)、赤外線ネットワーク、無線ネットワーク(例えば、ブルートゥース(登録商標)、Wi-Fi)、及び/又はこれら及び/又はその他のネットワークの任意の組み合わせであってもよい。
【0031】
サーバ120は、1つ以上の汎用コンピュータ、専用サーバコンピュータ(例えば、PC(パーソナルコンピュータ)サーバ、UNIX(登録商標)サーバ、ミッドレンジサーバ)、ブレードサーバ、大型コンピュータ、サーバクラスタ、又はその他のいかなる適切な配置及び/又は組み合わせを含んでもよい。サーバ120は、仮想オペレーティングシステムを実行する1つ以上の仮想マシン、又は仮想化に関わる他のコンピューティングアーキテクチャ(例えば、サーバの仮想記憶デバイスを維持するために仮想化された論理記憶デバイスの1つ以上のフレキシブルプール)を含んでもよい。様々な実施例では、サーバ120は、以下に説明する機能を提供する1つ以上のサービス又はソフトウェアアプリケーションを実行することができる。
【0032】
サーバ120における計算ユニットは、上記した任意のオペレーティングシステム及び任意の商用サーバオペレーティングシステムを含む1つ以上のオペレーティングシステムを実行することができる。サーバ120は、HTTPサーバ、FTPサーバ、CGIサーバ、JAVA(登録商標)サーバ、データベースサーバなど、様々な追加のサーバアプリケーション及び/又は中間層アプリケーションのいずれか1つを実行することもできる。
【0033】
いくつかの実施例では、サーバ120は、クライアントデバイス101、102、103、104、105及び/又は106のユーザから受信したデータフィード及び/又はイベントの更新を分析及び統合するための1つ以上のアプリケーションを含んでもよい。サーバ120は、クライアントデバイス101、102、103、104、105及び/又は106の1つ以上のディスプレイデバイスを介してデータフィード及び/又はリアルタイムイベントを表示する1つ以上のアプリケーションを含んでもよい。
【0034】
いくつかの実施例では、サーバ120は、分散型システムのサーバであってもよいし、ブロックチェーンを組み込んだサーバであってもよい。サーバ120は、クラウドサーバであってもよいし、人工知能技術を備えたインテリジェントクラウドコンピューティングサーバやインテリジェントクラウドホストであってもよい。クラウドサーバはクラウドコンピューティングサービスシステムにおけるホスト製品であり、従来の物理ホストと仮想専用サーバ(VPS、Virtual Private Server)サービスに存在する管理難度が大きく、業務拡張性が弱いという欠陥を解決する。
【0035】
システム100は、1つ以上のデータベース130を含むこともできる。いくつかの実施例では、これらのデータベースはデータやその他の情報を記憶するために使用できる。例えば、データベース130のうちの1つ以上は、オーディオファイルやビデオファイルのような情報を記憶するために使用できる。データベース130は、様々な位置に配置することができる。例えば、サーバ120が使用するデータベースは、サーバ120のローカルにあってもよいし、サーバ120から離れて、ネットワーク又は専用の接続を介してサーバ120と通信してもよい。データベース130は、様々なタイプであってもよい。いくつかの実施例では、サーバ120が使用するデータベースは、リレーショナルデータベースであってもよい。これらのデータベースのうちの1つ以上は、命令に応じてデータベースとデータベースからのデータを記憶、更新、検索できる。
【0036】
いくつかの実施例では、データベース130のうちの1つ以上は、アプリケーションによって使用され、アプリケーションのデータを記憶することもできる。アプリケーションで使用されるデータベースは、キー値リポジトリ、オブジェクトリポジトリ、ファイルシステムでサポートされる汎用リポジトリなど、様々なタイプのデータベースであってもよい。
【0037】
図1のシステム100は、本開示に基づいて説明した様々な方法及び装置を応用することができるように、様々な方法で構成し操作することができる。
【0038】
図2は本開示の実施例による対話型画像処理の概略図を示す。
【0039】
図2に示されるように、ユーザ210は、クライアントデバイス(例えば、図1に示すクライアントデバイス101~106)を介して画像処理システム220と対話することができる。画像処理システム220は、例えば、サーバ(例えば、図1に示すサーバ120)に配置されるアプリケーションであってもよい。
【0040】
各ラウンドの対話において、ユーザ210は、現在ラウンドの入力データ230を画像処理システム220に送信する。画像処理システム220はこの入力データ230に応答し、ユーザの画像処理要求を確定し、対応する画像処理アクションを実行することにより、ユーザの要求に合うターゲット画像を取得する。さらに、画像処理システム220は、ターゲット画像のテキスト式の解釈データを生成することができ、ターゲット画像及びその解釈データを応答データ240として、ユーザにフィードバックする。
【0041】
ユーザ210は、画像処理システム220と複数ラウンドの対話を行うことができる。対応的に、画像処理システム220は、複数ラウンドの対話過程においてユーザの要求を徐々に理解することができ、自体の画像生成と画像編集能力によって、ユーザの要求を満たす。
【0042】
本開示の実施例において、ユーザ210は、任意の技術的な背景が必要なく、Text to Imageのプロンプトワードの構築及び最適化方法を学ぶなど、特定の技術的知識を学ぶ必要もなく、自然言語(具体的には、音声入力又はテキスト入力の方式で表現することができる)によって自分の画像処理要求を表現する。理解できるように、必要に応じて、自然言語の他、要求を表現する補助方法として様々な画像を入力することもできる。例えば、ユーザは対話インターフェースで1つの画像を入力又は指定し、テキストの方式で画像処理要求を表現することができる。画像と合わせる要求テキストのいくつかの例を以下に示す。
【0043】
1. この画像のスタイルで作成してください。
【0044】
2. この画像の人物のアクションを参照して作成してください。
【0045】
3. 前回のラウンドで生成された画像について、画面がより生き生きとしたように調整する。
【0046】
また、ユーザはシステムによってフィードバックされた画像処理結果に対して、評価し、最適化の要求を更に表現することができる。このように、ユーザ210は、画像処理結果を徐々に反復することができ、これに自身の要求を満足させる一方、画像処理システム220は、自己最適化の根拠として、例えば、大規模言語モデル、各画像処理アクションによって呼び出される画像処理モデルなどの最適化の根拠として、ユーザの評価内容を記録することもできる。
【0047】
ユーザは、様々な画像処理要求を表現することができ、それに応じて、画像処理システム220は、様々な画像処理能力を有する。図2に示されるように、画像処理は画像生成と画像編集の2つのタイプに分けられることができる。
【0048】
画像生成とは、ユーザの要求に応じて、画像処理システム220が画像を作成することを指し、主に3つの方法を含む:
1. Text to Image:自然言語であるプロンプトワード(プロンプト)を入力として、新しい画像を生成する。これは通常、最も一般的な画像生成要求である。
2. Image to Image:画像を入力として、新しい画像を生成する。例えば、線画の抽出などである。
3. テキストと画像混合で画像生成:自然言語と画像(複数ある可能)の両方を入力として、新しい画像を生成する。例えば、参照画像Aのスタイルと参照画像Bの構図に従って、テキストのプロンプトに基づいて画像を描く。
【0049】
画像編集とは、既存の画像(通常は履歴ラウンドの対話で生成された画像である)に対して、指定される変更を行うことで、新しい画像を取得することを指す。理解できるように、画像編集により、新しい画像を取得するため、画像編集は本質的に画像生成にも属する。画像編集操作は以下の5つのタイプを含むが、これらに限定されない。
【0050】
1. 新しいコンテンツの追加:画像の指定位置に新しい要素を追加し、自然言語がインタラクションする場合には、追加した新しいコンテンツの位置は、システムによって自動的に確定することができる(例えば、画像に1つの月を追加すると、月の位置が自動的に選択されることができる)。
【0051】
2. コンテンツの削除:画像から指定されるコンテンツを削除し、位置又はコンテンツによって指定されてもよい。
【0052】
3. コンテンツの修正:画像内の指定されるコンテンツについて、色、形状、スタイルなどを修正する。
【0053】
4. コンテンツの抽出:画像中の背景、前景などのコンテンツ要素を抽出する。
【0054】
5. 全画像の調整:具体的なコンテンツや領域を指定するのではなく、画像全体を調整し、例えば、スタイルを変換し、解像度を向上させ、縦横比を修正するなど。
【0055】
画像編集の過程において、インタラクション方式は自然言語(例えば、画像中の太陽を削除すること)による方式だけでなく、画像に対してインタラクティブな操作(例えば、スクリーンスワイプジェスチャで、新しいコンテンツを追加する必要がある領域をペイントする)による方式も含むことができる。
【0056】
注意すべきこととして、従来の画像編集ツールとは異なり、画像処理システム220における各画像編集能力は、本質的にいずれも画像全体又は画像一部への作成を含む。例えば、従来の「切り抜き」は画像から指定される内容を抽出することができるが、本システムの「コンテンツ抽出」は、抽出されたコンテンツを分離した上で、画像作成によって背景部分を補完することができる。
【0057】
図3は本開示の実施例による画像生成方法300のフローチャートを示す。方法300の各ステップの実行主体は通常、サーバ、例えば、図1に示すサーバ120である。より具体的には、方法300は、サーバ内に配置される画像処理システム(例えば、図2に示す画像処理システム220)に基づいてサーバによって実行されることができる。いくつかの実施例において、方法300の実行主体は、クライアントデバイス、例えば、図1に示すクライアントデバイス101~106であってもよい。
【0058】
図3に示すように、方法300は、ステップS310~S350を含む。
【0059】
ステップS310では、現在の対話データを取得する。ここで、現在の対話データは現在ラウンドの対話のユーザ入力データと、履歴ラウンドの対話の履歴対話データを含む。
【0060】
ステップS320では、現在の対話データに基づいて、現在ラウンドの対話におけるユーザの要求タイプを確定する。
【0061】
ステップS330では、要求タイプが画像処理要求であることに応答して、画像処理要求を実現するためのアクションシーケンスを確定する。ここで、アクションシーケンスは、少なくとも1つの画像処理アクションを含む。
【0062】
ステップS340では、アクションシーケンスを実行することで、ターゲット画像を生成する。
【0063】
ステップS350では、ターゲット画像に基づいて、ユーザ入力データに対応する応答データを生成する。
【0064】
本開示の実施例によれば、対話型画像生成方法を提供し、ユーザは、対話の方式で画像処理システムと複数ラウンドのインタラクションを行うことができる。
【0065】
各ラウンドの対話において、現在のユーザ入力データとコンテキスト情報(即ち、履歴対話データ)に基づいて、ユーザの画像処理要求を自動的に識別し、対応するアクションシーケンスを実行しターゲット画像を取得し、ターゲット画像を現在ラウンドの対話の応答データとしてユーザにフィードバックする。
【0066】
ユーザは専門的な学習が必要なく、システムとの自然言語対話を複数ラウンド行う方式で画像処理を完了することができるため、使用の条件を大幅に低減させ、画像処理の効率と利便性を向上させる。
【0067】
以下、方法300の各ステップを詳細に説明する。
【0068】
ステップS310に対して、各履歴ラウンドの対話は、ユーザの履歴入力データと、画像処理システムによって該履歴入力データに応答しフィードバックされた履歴応答データとを含むことが理解されたい。
【0069】
いくつかの実施例によれば、ステップS310における現在の対話データ、ユーザ入力データ及び履歴対話データはいずれもテキスト、音声、又は画像のうちの少なくとも1つを含むことができる。現在の対話データ、ユーザ入力データ及び履歴対話データは音声である場合、音声認識技術を利用し、この音声をテキストに変換することができることにより、後続のデータ処理ステップを簡略化させ、計算効率を向上させることが理解されたい。
【0070】
いくつかの実施例によれば、ステップS320は、ステップS321及びS322を含んでもよい。
【0071】
ステップS321では、現在の対話データに基づいて、第1の言語モデルに入力するための第1の入力データを確定する。
【0072】
ステップS322では、第1の入力データを第1の言語モデルに入力することで、第1の言語モデルによって出力される要求タイプを取得する。
【0073】
第1の言語モデルは大規模言語モデルであり、それは通常、エンコーダー(Encoder)とデコーダー(Decoder)とを備えるN層のTransformerネットワークを含む。大規模言語モデルは大量の自然言語データを利用し事前トレーニング(pre-traning)を行うことによって得られるものである。事前トレーニングは大規模言語モデルに大量のアプリオリな知識と常識を持たせるようになり、これによって、様々なタスクにおけるそのパフォーマンスを向上させる。
【0074】
上記実施例によれば、事前トレーニングされる大規模言語モデルを利用してユーザの要求を識別することは、要求識別の正確性と柔軟性を向上させることができる。
【0075】
いくつかの実施例によれば、ステップS321では、現在の対話データを直接第1の入力データとしてもよい。
【0076】
他のいくつかの実施例によれば、ステップS321では、プリセットの第1のテンプレートを利用して第1の入力データを生成することができる。具体的には、ステップS321は、ステップS3211とS3212を含んでもよい。
【0077】
ステップS3211では、プリセットの第1のテンプレートを取得する。第1のテンプレートは、要求タイプを識別するように第1の言語モデルをガイドするための第1のガイド情報と充填すべき第1のスロットとを含む。
【0078】
ステップS3212では、現在の対話データを第1のスロットに充填することで、第1の入力データを取得する。
【0079】
上記実施例によれば、プリセットの第1のテンプレートを利用しユーザの要求を識別するように大規模言語モデルをガイドすることは、要求識別の正確性を向上させることができる。
【0080】
いくつかの実施例によれば、第1のテンプレートは現在の対話データを充填するための第1のスロットと候補要求タイプを充填するための第1のスロットとを含むことができる。これによって、現在の対話データに基づいて複数の候補要求タイプの中から適切な要求タイプを選択するように大規模言語モデルをガイドすることができ、大規模言語モデルが未知の要求タイプを生成し、後続の画像処理ステップに悪影響を与えることを避ける。
【0081】
例えば、第1のテンプレートは「「__」、上記の対話コンテンツに基づいて、適切な要求タイプを「__」で選択してください」であってもよい。この第1のテンプレートにおける下線は、充填すべき第1のスロットを示し、ここで、一番目の第1のスロットは現在の対話データを充填するためのものであり、二番目の第2のスロットは複数の候補要求タイプを充填するためのものである。この第1のテンプレートにおける下線以外の文字は第1のガイド情報である。
【0082】
いくつかの実施例によれば、第1の入力データを第1の言語モデルに入力した後、第1の言語モデルは要求タイプを識別して出力することができることに加えて、現在の対話データから該要求タイプを実現するためのターゲットデータを一緒に抽出して出力することもできる。理解できるように、異なる要求タイプに対して、関心が必要なデータコンテンツが異なる可能性がある。例えば、現在の対話データにはユーザの雑談データ「つまらないからチャットしましょうよ」が含まれる可能性があり、これらの雑談データは画像処理要求に対して注意を必要としない冗長な情報に属する。上記実施例によれば、ターゲットデータを抽出することで、現在の対話データにおける無関係な情報をフィルタリングすることができるため、画像処理の効率と正確性を向上させる。
【0083】
以下の表1は、要求タイプとそれに対応するターゲットデータの例をいくつか示している。
【0084】
【表1】
【0085】
いくつかの実施例によれば、ステップS320はステップS323を含んでもよい。
【0086】
ステップS323では、現在の対話データを分類モデルに入力することで、分類モデルによって出力される要求タイプを取得する。
【0087】
分類モデルは、例えば、テキスト分類モデル、画像分類モデルなどであってもよい。分類モデルは、現在の対話データにおけるテキスト又は画像形式のデータを、複数の候補要求タイプのうちのある1つの要求タイプにマッピングすることができる。分類モデルは、例えば、ニューラルネットワークモデルであってもよい。大規模言語モデルに比べて、分類モデルはパラメータの数がより少なく、モデルがより軽くなる。分類モデルを利用して要求タイプを迅速に確定することができる。
【0088】
ステップS320によって確定された要求タイプが画像処理要求であれば、この画像処理要求を実現するために実行する必要があるアクションシーケンスを更に確定する。
【0089】
本開示の実施例では、画像処理要求とは、画像処理に関わる要求を指す。例えば、表1に示される複数の要求タイプのうち、画像生成要求、画像編集要求、画像最適化要求、画像作成の評価要求が、いずれも画像処理要求である。
【0090】
アクションシーケンスは少なくとも1つの画像処理アクションを含み、且つアクションシーケンスにおける少なくとも1つの画像処理アクションは一定の順序で実行する必要がある。アクションシーケンスの2つの例を以下に示す:
1. まず、ユーザのプロンプトを最適化し、次に4つの画像結果を生成し、最後に最適な1つを選択し、ユーザにフィードバックする。
2. まず、ユーザの編集要求によって指定される領域を識別し、次に、部分画面を完了することによって再描画する。
【0091】
いくつかの実施例によれば、ステップS330は、ステップS331及びS332を含んでもよい。
【0092】
ステップS331では、画像処理要求に基づいて、第2の言語モデルに入力するための第2の入力データを確定する。
【0093】
ステップS332では、第2の入力データを第2の言語モデルに入力することで、第2の言語モデルによって出力されるアクションシーケンスを取得する。
【0094】
第2の言語モデルは事前トレーニングされた大規模言語モデルである。いくつかの実施例では、第2の言語モデルは上記の第1の言語モデルと同じ大規模言語モデルである。上記実施例によれば、事前トレーニングされた大規模言語モデルを利用してアクションシーケンスを生成することは、アクションシーケンスの計画の正確性と柔軟性を向上させることができる。
【0095】
いくつかの実施例によれば、ステップS330はステップS333~S335を含んでもよい。
【0096】
ステップS333では、プリセットの第2のテンプレートを取得し、ここで、前記第2のテンプレートは、前記アクションシーケンスを生成するように第2の言語モデルをガイドするための第2のガイド情報と充填すべき第2のスロットとを含む。第2のテンプレートは例えば、「__をどのように実現するか?」であってもよく、ここで、下線は、画像処理要求を充填するための第2のスロットを示し、他の文字は第2のガイド情報である。
【0097】
ステップS335では、前記画像処理要求を前記第2のスロットに充填させることで、前記第2の言語モデルに入力するための第2の入力データを取得する。
【0098】
ステップS336では、前記第2の入力データを前記第2の言語モデルに入力することで、前記第2の言語モデルによって出力される前記アクションシーケンスを取得する。
【0099】
上記実施例によれば、大規模言語モデルを利用してアクションシーケンスを自動的に計画することは、高い正確性と柔軟性を有する。
【0100】
いくつかの実施例によれば、複数の画像処理要求と複数のアクションシーケンスの対応関係を事前に設置することができる。それに応じて、ステップS330では、プリセットの複数の画像処理要求と複数のアクションシーケンスとの対応関係に基づいて、前記画像処理要求を実現するためのアクションシーケンスを確定することができる。これにより、余分な計算が必要なく、アクションシーケンスを迅速に取得することができる。
【0101】
説明すべきこととして、上記のプリセットの対応関係において、1つの画像処理要求は複数のアクションシーケンスに対応することができる。それに応じて、ステップS330では、画像処理要求に対応する複数のアクションシーケンスの中からいずれか1つを選択することができ、且つステップS340で実行される。
【0102】
アクションシーケンスは、少なくとも1つの画像処理アクションを含む。表2は、画像処理アクションの例をいくつか示している。
【0103】
【表2-1】
【表2-2】
【0104】
いくつかの実施例によれば、ステップS340は、現在の対話データから前記画像処理要求を実現するためのターゲットデータを抽出することと、アクションシーケンス中のいずれか1つの画像処理アクションに対して:ターゲットデータに基づいて、この画像処理アクションの入力パラメータ値を確定することと、入力パラメータ値に基づいて、この画像処理アクションを実行することで、この画像処理アクションの結果画像を取得することとを含むことができる。各画像処理アクションの入力パラメータは、例えば、上記の表2を参照することができる。
【0105】
上記実施例によれば、現在の対話データから肝心なターゲットデータを抽出し、ターゲットデータを利用して画像処理アクションを実行することで、無関係な情報をフィルタリングし、画像処理の効率と正確性を向上させることができる。
【0106】
いくつかの実施例によれば、ターゲットデータは第1の言語モデルより抽出して取得することができる。即ち、ステップS320では、第1の入力データを第1の言語モデルに入力することで、第1の言語モデルによって出力される画像処理要求と、この画像処理要求を実現するためのターゲットデータとを取得することができる。
【0107】
いくつかの実施例によれば、画像処理アクションは、対応する画像処理モデルを呼び出すことによって実行されることができる。例えば、クロスモーダル画像生成モデルを呼び出すことによって画像生成アクションを完了し、クロスモーダル画像編集モデルを呼び出すことによって画像編集アクションを完了し、結果画像を取得することができる。
【0108】
クロスモーダル画像生成モデルはテキストと画像を入力として、画像を出力として、入力を画像生成の条件とする。本開示の実施例はクロスモーダル画像生成モデルの具体的な実現方式について厳しい要求がない。現在の技術で、効果が最優のモデルは拡散生成モデルに基づくクロスモーダル画像生成モデルである。技術の発展に伴い、このモデルをより効果の優れるモデルに置き換えることもできる。このモデルは一般的な「Text to Image」モデルではないことに注意されたい。このモデルの入力端は、テキスト、画像、及びそれらの混合であってもよく、画像は参照画像、クッション画像、特徴画像である可能性もあり、入力形式は柔軟である。
【0109】
クロスモーダル画像編集モデルはテキスト、画像、編集オプションを入力とし、入力される画像に対して指定される編集変更を行う。本開示の実施例はクロスモーダル画像編集モデルの具体的な実現要求について厳しい要求がなく、異なる編集オプションを異なる編集モデルに対応することさえもできる。しかしながら、画像編集モデルによって提供される能力は、アクションフロー計画における選択可能な編集アクションをカバーできる必要がある。
【0110】
上記の2つのモデルにおいて、いずれもテキスト入力を処理する必要があり、即ち、テキスト入力をテキストベクトルとして理解し、且つ後続の計算に参加し、ここでは、大規模言語モデルの理解能力を使用する必要がある。
【0111】
ステップS350では、ターゲット画像に基づいて、ユーザ入力データに対応する応答データを生成する。
【0112】
いくつかの実施例によれば、ターゲット画像を直接応答データとしてユーザにフィードバックすることができる。
【0113】
別のいくつかの実施例によれば、応答データはターゲット画像とターゲット画像の解釈データとを含む。解釈データは、例えば、ターゲット画像の記述、システムによってターゲット画像を生成するプロセスとロジックなどを含む。ターゲット画像のみを応答データとする場合と比較して、ターゲット画像と解釈データとを一緒にユーザにフィードバックすることは、ターゲット画像のコンテンツと、システムによってターゲット画像を生成するプロセスとロジックをユーザにより効果的に解釈することができ、これによって、ユーザはその後、ターゲット画像を意図的に最適化することを容易にする。
【0114】
いくつかの実施例によれば、ステップS350は、ステップS351及びS352を含んでもよい。
【0115】
ステップS351では、ターゲット画像とプリセットの第3のテンプレートを第3の言語モデルに入力することで、前記第3の言語モデルによって出力される、前記ターゲット画像を解釈するための解釈データを取得し、ここで、前記第3のテンプレートは前記解釈データを生成するように前記第3の言語モデルをガイドするために使用される。
【0116】
ステップS352では、前記ターゲット画像と前記解釈データを前記応答データとする。
【0117】
第3の言語モデルは画像とテキストのクロスモーダルデータ処理能力を有する大規模言語モデルである。即ち、この大規模言語モデルの入力とデータは画像、テキスト、又は両方の混合であってもよい。上記実施例によれば、画像とテキストのクロスモーダルデータ処理能力を有する大規模言語モデルを利用して応答データを生成することは、応答データ生成の効率と一貫性を向上させることができる。
【0118】
いくつかの実施例によれば、第3の言語モデルは上記の第1の言語モデル又は第2の言語モデルと同じモデルであってもよい。
【0119】
いくつかの実施例によれば、第3のテンプレートは、例えば、「この画像のコンテンツと芸術性を記述し、この画像に対するユーザの感想と最適化の方向を尋ねてください」であってもよい。
【0120】
いくつかの実施例によれば、ステップS351では、アクションシーケンス、ターゲット画像、及び第3のテンプレートを一緒に第3の言語モデルに入力し、これによって、第3の言語モデルが画像処理結果とアクションフローの過程を合わせて解釈データを生成するようにし、システム生成のプロセスとロジックをユーザにより効果的に解釈することができるため、ユーザは次回ラウンドの対話でターゲット画像を意図的に最適化することを容易にする。
【0121】
いくつかの実施例によれば、ステップS350はステップS353~S355を含んでもよい。
【0122】
ステップS353では、前記ターゲット画像をImage to Textモデルに入力することで、前記Image to Textモデルによって出力される前記ターゲット画像の記述テキストを取得する。
【0123】
ステップS354では、前記記述テキストを第4の言語モデルに入力することで、前記第4の言語モデルによって出力される、前記ターゲット画像を解釈するための解釈データを取得する。第4の言語モデルは事前トレーニングされた大規模言語モデルである。
【0124】
ステップS355では、前記ターゲット画像と前記解釈データを前記応答データとする。
【0125】
上記実施例によれば、まず、Image to Textモデルを利用してターゲット画像の記述テキストを生成し、次に大規模言語モデルを利用して応答データを生成する。該実施例はシングルモーダル(テキスト)データ処理能力のみを有する大規模言語モデルに適用することができる。
【0126】
いくつかの実施例によれば、Image to Textモデルは画像エンコーダー(Image Encoder)とテキストデコーダー(Text Decoder)とを含むTransformer構造として実現することができる。
【0127】
いくつかの実施例によれば、第4の言語モデルは上記の第1の言語モデル、第2の言語モデル又は第3の言語モデルと同じモデルであってもよい。
【0128】
図4は本開示の実施例による画像生成過程の概略図を示す。図4に示すように、この画像生成過程は、ステップS461~S464を含む。
【0129】
ステップS461では、各ラウンドの対話において、現在のユーザと画像処理システムのインタラクションコンテキスト410(すなわち、現在の対話データ)を取得し、且つ大規模言語モデル420を利用してインタラクションコンテキスト410によって表現されるユーザの要求を理解する。これにより、複数ラウンドの要求理解を実現する。
【0130】
ステップS462では、大規模言語モデル420は、ステップS461で理解されるユーザの要求に基づいて、アクションフロー(即ち、アクションシーケンス)を計画する。
【0131】
ステップS463では、クロスモーダル画像生成モデル430及び/又はクロスモーダル画像編集モデル440を呼び出すことによって、アクションフローを実行することで、ターゲット画像を取得する。
【0132】
ステップS464では、大規模言語モデル420は、ターゲット画像に対応する記述データを生成するとともに、ターゲット画像及びその記述データをユーザ450にフィードバックする。
【0133】
図5は本開示の実施例による画像生成効果の概略図を示す。図5に示す実施例で、ユーザは、画像処理システムと複数ラウンドの対話を行う。
【0134】
第1ラウンドの対話で、ユーザは、対話インターフェースに「自由に画像を1つ生成してくれ」というコンテンツ500を入力する。画像処理システムはコンテンツ500に応答して、本開示の実施例による方法300を利用してターゲット画像512及びその解釈データ「1つの画像を生成した。images/aaa.pngで見つけることができる。」を生成する。ターゲット画像512とその解釈データとの組み合わせをユーザ入力コンテンツ500の応答510とする。
【0135】
第2ラウンドの対話で、ユーザは、対話インターフェースに「あなたが知っているスター・ウォーズについて教えてください」というコンテンツ520を入力する。画像処理システムはコンテンツ520に応答して、本開示の実施例による方法300を利用してターゲット画像532及びその解釈データ「スター・ウォーズに関する画像を1つ生成しました。images/bbb.pngで見つけることができる。ご質問に対して、スター・ウォーズは銀河内の様々な勢力の戦いと冒険を描いたサイエンスフィクション映画である。」を生成する。ターゲット画像532とその解釈データとの組み合わせをユーザ入力コンテンツ520の応答530とする。
【0136】
第3ラウンドの対話で、ユーザは、対話インターフェースに「先ほど生成したスター・ウォーズに関する画像の背景を星空に変更する」というコンテンツ540を入力する。画像処理システムはコンテンツ540に応答して、本開示の実施例による方法300を利用してターゲット画像552及びその解釈データ「画像編集ツールでスター・ウォーズ画像の背景を星空に変更した。新しい画像のパスはimage/ccc.pngである。」を生成する。ターゲット画像552とその解釈データとの組み合わせをユーザ入力コンテンツ540の応答550とする。
【0137】
第4ラウンドの対話で、ユーザは、対話インターフェースに「画像全体の色をより鮮やかにする」というコンテンツ560を入力する。画像処理システムはコンテンツ560に応答して、本開示の実施例による方法300を利用してターゲット画像572及びその解釈データ「画像編集ツールで画像の色をより鮮やかにした。新しい画像のパスはimage/ddd.pngである。」を生成する。ターゲット画像572とその解釈データとの組み合わせをユーザ入力コンテンツ560の応答570とする。
【0138】
第5ラウンドの対話で、ユーザは、対話インターフェースに「いいえ、スター・ウォーズのその画像の色をより鮮やかにするという意味である」というコンテンツ580を入力する。画像処理システムはコンテンツ580に応答して、本開示の実施例による方法300を利用してターゲット画像592及びその解釈データ「分かった。画像編集ツールでスター・ウォーズ画像の色をより鮮やかにした。新しい画像のパスはimage/eee.pngである。」を生成する。ターゲット画像592とその解釈データとの組み合わせをユーザ入力コンテンツ580の応答590とする。
【0139】
本開示の実施例によれば、画像処理システムは、ユーザとラウンド数を制限しないような複数ラウンドのインタラクションを行うことができ、インタラクション過程において、ユーザが完全かつ正確な実際の要求を表現するように継続的にガイドし、且つ複数のステップを経て、ユーザの要求を満たすという理想的な結果に徐々に近づき、画像生成タスクと画像編集タスクの両方を完了することができるため、AI画像作成アプリケーションの汎用性を大幅に向上させる。
【0140】
本開示の実施例による画像処理システムは、大規模言語モデルの能力により、ユーザの特別な学習を必要せず、自然言語でこのシステムとコミュニケーションすることができるため、AI画像作成の使用条件を大幅に低減させる。
【0141】
大規模言語モデルを使用する各ステップ又はモジュールにおいて、プロンプト最適化、インコンテキスト(コンテキスト例)学習などの方式によって大規模言語モデルの使用効果を更に向上させることができる。例えば、まず、コンテキスト例を使用しない場合に、大規模言語モデルを呼び出し、様々なタイプのタスクに対する大規模言語モデルの処理効果を評価することができる。効果の悪いタスクタイプに対して、コンテキスト例を構成することによって、このタイプのタスクに対する大規模言語モデルの処理効果を向上させる。
【0142】
本開示の実施例によれば、画像生成装置を更に提供する。図6は本開示の実施例による画像生成装置600の構成のブロック図を示す。図6に示すように、装置600は、取得モジュール610と、第1の確定モジュール620と、第2の確定モジュール630と、実行モジュール640と、生成モジュール650とを含む。
【0143】
取得モジュール610は現在の対話データを取得するように構成され、ここで、前記現在の対話データは現在ラウンドの対話のユーザ入力データと、履歴ラウンドの対話の履歴対話データを含む。
【0144】
第1の確定モジュール620は前記現在の対話データに基づいて、前記現在ラウンドの対話における前記ユーザの要求タイプを確定するように構成される。
【0145】
第2の確定モジュール630は、前記要求タイプが画像処理要求であることに応答して、前記画像処理要求を実現するためのアクションシーケンスを確定するように構成され、ここで、前記アクションシーケンスは、少なくとも1つの画像処理アクションを含む。
【0146】
実行モジュール640は前記アクションシーケンスを実行することで、ターゲット画像を生成するように構成される。
【0147】
生成モジュール650は、前記ターゲット画像に基づいて、前記ユーザ入力データに対応する応答データを生成するように構成される。
【0148】
本開示の実施例によれば、対話型画像生成方法を提供し、ユーザは、対話の方式で画像処理システムと複数ラウンドのインタラクションを行うことができる。
【0149】
各ラウンドの対話において、現在のユーザ入力データとコンテキスト情報(即ち、履歴対話データ)に基づいて、ユーザの画像処理要求を自動的に識別し、対応するアクションシーケンスを実行しターゲット画像を取得し、ターゲット画像を現在ラウンドの対話の応答データとしてユーザにフィードバックする。
【0150】
ユーザは専門的な学習が必要なく、システムとの自然言語対話を複数ラウンド行う方式で画像処理を完了することができるため、使用の条件を大幅に低減させ、画像処理の効率と利便性を向上させる。
【0151】
いくつかの実施例によれば、前記第1の確定モジュールは、前記現在の対話データに基づいて、第1の言語モデルに入力するための第1の入力データを確定するように構成される第1の確定ユニットと、前記第1の入力データを前記第1の言語モデルに入力することで、前記第1の言語モデルによって出力される前記要求タイプを取得するように構成される第1の入力ユニットとを含む。
【0152】
いくつかの実施例によれば、前記第1の確定ユニットは、プリセットの第1のテンプレートを取得するように構成される取得サブユニットであって、ここで、前記第1のテンプレートは、前記要求タイプを識別するように前記第1の言語モデルをガイドするための第1のガイド情報と充填すべき第1のスロットとを含むものと、前記現在の対話データを前記第1のスロットに充填することで、前記第1の入力データを取得するように構成される充填サブユニットとを含む。
【0153】
いくつかの実施例によれば、前記第1の確定モジュールは、前記現在の対話データを分類モデルに入力することで、前記分類モデルによって出力される前記要求タイプを取得するように構成される第2の入力ユニットを含む。
【0154】
いくつかの実施例によれば、前記第2の確定モジュールは、プリセットの第2のテンプレートを取得するように構成される取得ユニットであって、ここで、前記第2のテンプレートは、前記アクションシーケンスを生成するように第2の言語モデルをガイドするための第2のガイド情報と充填すべき第2のスロットとを含むものと、前記画像処理要求を前記第2のスロットに充填させることで、前記第2の言語モデルに入力するための第2の入力データを取得するように構成される充填ユニットと、前記第2の入力データを前記第2の言語モデルに入力することで、前記第2の言語モデルによって出力される前記アクションシーケンスを取得する第3の入力ユニットとを含む。
【0155】
いくつかの実施例によれば、前記第2の確定モジュールは、プリセットの複数の画像処理要求と複数のアクションシーケンスとの対応関係に基づいて、前記画像処理要求を実現するためのアクションシーケンスを確定するように構成される第2の確定ユニットを含む。
【0156】
いくつかの実施例によれば、前記実行モジュールは、前記現在の対話データから前記画像処理要求を実現するためのターゲットデータを抽出するように構成される抽出ユニットと、前記アクションシーケンス中のいずれか1つの画像処理アクションに対して、前記ターゲットデータに基づいて、前記画像処理アクションの入力パラメータ値を確定するように構成される第3の確定ユニットと、前記入力パラメータ値に基づいて、前記画像処理アクションを実行することで、前記画像処理アクションの結果画像を取得するように構成される実行ユニットとを含む。
【0157】
いくつかの実施例によれば、前記生成モジュールは、前記ターゲット画像とプリセットの第3のテンプレートを第3の言語モデルに入力することで、前記第3の言語モデルによって出力される、前記ターゲット画像を解釈するための解釈データを取得するように構成される第4の入力ユニットであって、ここで、前記第3のテンプレートは前記解釈データを生成するように前記第3の言語モデルをガイドするために使用されるものと、前記ターゲット画像と前記解釈データを前記応答データとするように構成される第4の確定ユニットとを含む。
【0158】
いくつかの実施例によれば、前記生成モジュールは、前記ターゲット画像をImage to Textモデルに入力することで、前記Image to Textモデルによって出力される、前記ターゲット画像の記述テキストを取得するように構成される第5の入力ユニットと、前記記述テキストを第4の言語モデルに入力することで、前記第4の言語モデルによって出力される、前記ターゲット画像を解釈するための解釈データを取得するように構成される第6の入力ユニットと、前記ターゲット画像と前記解釈データを前記応答データとするように構成される第5の確定ユニットとを含む。
【0159】
理解すべきこととして、図6に示される装置600の各モジュール又はユニットは、図3を参照して説明された方法300中の各ステップに対応することができる。したがって、上記の方法300に対して説明した操作、特徴及び利点は、装置600とそれに含まれるモジュール及びユニットに同様に適用される。簡潔のために、いくつかの操作、特徴及び利点はここでは説明を省略する。
【0160】
特定の機能は上記で特定のモジュールを参照して論じられているが、本明細書で論じた各モジュールの機能は複数のモジュールに分割されてもよく、及び/又は複数のモジュールの少なくともいくつかの機能は単一のモジュールに組み合わせてもよいことに留意されたい。
【0161】
本明細書では、ソフトウェアハードウェア要素又はプログラムモジュールの一般的なコンテキストで様々な技術を説明することができることも理解されたい。上記の図6で説明された各ユニットに関しては、ハードウェアにおいて、あるいはソフトウェア及び/又はファームウェアと組み合わされたハードウェアにおいて実装することができる。例えば、これらのユニットは、1つ又は複数のプロセッサにおいて実行され、コンピュータ可読記憶媒体に記憶されるように構成されたコンピュータプログラムコード/命令として実装することができる。選択的に、これらのユニットはハードウェアロジック/回路として実装することができる。例えば、いくつかの実施例において、モジュール610~650のうちの1つ又は複数は、チップオンシステム(System on Chip、SoC)に一緒に実装されてもよい。SoCは、集積回路チップ(例えば、プロセッサ(例えば、中央処理ユニット(Central Processing Unit、CPU)、マイクロコントローラ、マイクロプロセッサ、デジタル信号プロセッサ(Digital Signal Processor、DSP)などを含む)、メモリ、1つ又は複数の通信インターフェース、及び/又は他の回路中の1つ又は複数のコンポーネント)を含んでもよく、オプションで受信したプログラムコードの実行、及び/又は埋め込みファームウェアを含むことで機能を実行することができる。
【0162】
本開示の実施例によれば、電子機器を更に提供し、前記電子機器は、少なくとも1つのプロセッサと、上記少なくとも1つのプロセッサに通信接続されたメモリとを含み、このメモリは、上記少なくとも1つのプロセッサによって実行可能な命令を記憶し、この命令は、上記少なくとも1つのプロセッサによって実行されることにより、上記少なくとも1つのプロセッサに本開示の実施例による画像生成方法を実行させる。
【0163】
本開示の実施例によれば、コンピュータに本開示の実施例における画像生成方法を実行させるためのコンピュータ命令が記憶された非一時的コンピュータ可読記憶媒体を更に提供する。
【0164】
本開示の実施例によれば、コンピュータプログラム命令を含むコンピュータプログラム製品を提供し、該コンピュータプログラム命令は、プロセッサによって実行されると、本開示の実施例における画像生成方法を実現する。
【0165】
次に、図7を参照して、本開示のサーバ又はクライアントとして機能する電子機器700の構成ブロック図について説明し、それは、本開示の各態様に応用可能なハードウェア装置の一例である。電子機器は、様々な形態のデジタル電子コンピュータ、例えば、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ステージ、個人用デジタル補助装置、サーバ、ブレードサーバ、大型コンピュータ、その他の適切なコンピュータを示す。電子機器は更に、様々な形態の移動装置、例えば、個人用デジタル補助装置、セルラー電話、スマートフォン、ウェアラブルデバイスとその他の類似する計算装置を示してよい。本明細書に示される部品、これらの接続関係及びこれらの機能は例示的なものに過ぎず、本明細書に説明した及び/又は請求した本開示の実現を制限しない。
【0166】
図7に示すように、電子機器700は、計算ユニット701を含み、それはリードオンリーメモリ(ROM)702に記憶されたコンピュータプログラム又は記憶ユニット708からランダムアクセスメモリ(RAM)703にロードされるコンピュータプログラムによって、種々の適当な動作と処理を実行することができる。また、RAM703には、電子機器700の動作に必要な各種プログラムやデータが記憶されていてもよい。計算ユニット701、ROM702、RAM703は、バス704を介して互いに接続されている。入力/出力(I/O)インターフェース705もバス704に接続されている。
【0167】
電子機器700における複数の部品はI/Oインターフェース705に接続され、入力ユニット706、出力ユニット707、記憶ユニット708及び通信ユニット709を含む。入力ユニット706は、電子機器700に情報を入力することが可能な任意のタイプの装置であってもよく、入力ユニット706は、入力された数字又は文字情報と、電子機器のユーザ設定及び/又は機能制御に関するキー信号入力を生成することができ、マウス、キーボード、タッチスクリーン、トラックボード、トラックボール、操作レバー、マイク及び/又はリモコンを含んでもよいが、これらに限定されない。出力ユニット707は、情報を提示することが可能な任意のタイプの機器であってもよく、ディスプレイ、スピーカ、映像/オーディオ出力端末、バイブレータ、及び/又はプリンタを含んでもよいが、これらに限定されない。記憶ユニット708は、磁気ディスク、光ディスクを含んでもよいが、これらに限定されない。通信ユニット709は、電子機器700が例えば、インターネットであるコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して他の装置と情報/データを交換することを可能にし、モデム、ネットワークカード、赤外線通信装置、無線通信送受信機、及び/又はチップセット、例えば、ブルートゥース(登録商標)装置、802.11装置、Wi-Fi装置、WiMAX装置、セルラー通信装置及び/又は類似物を含んでもよいが、これらに限定されない。
【0168】
計算ユニット701は処理及びコンピューティング能力を有する様々な汎用及び/又は専用の処理コンポーネントであってもよい。計算ユニット701のいくつかの例として、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、様々な専用人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ(DSP)、及び任意の適当なプロセッサ、コントローラ、マイクロコントローラなどを含んでもよいが、これらに限定されない。計算ユニット701は上記内容で説明した各方法と処理、例えば、方法300を実行する。例えば、いくつかの実施例において、方法300は記憶ユニット708のような機械可読媒体に有形に組み込まれたコンピュータソフトウェアプログラムとして実装されてもよい。いくつかの実施例において、コンピュータプログラムの一部の又は全てはROM702及び/又は通信ユニット709を経由して電子機器700にロード及び/又はインストールされてよい。コンピュータプログラムがRAM703にロードされて計算ユニット701によって実行されると、上記で説明した方法300及び方法300の1つ又は複数のステップを実行することできる。代替的に、他の実施例において、計算ユニット701は、他のいずれかの適当な方法で(例えば、ファームウェアを用いて)、方法300を実行するように構成される。
【0169】
本明細書で上述したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールド・プログラマブル・ゲート・アレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、複雑なプログラマブル論理デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はこれらの組み合わせにおいて実装することができる。これらの様々な実施形態は、1つ以上のコンピュータプログラムにおいて実施され、該1つ以上のコンピュータプログラムは少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行し及び/又は解釈してもよく、該プログラマブルプロセッサは専用又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、少なくとも1つの出力装置からデータと命令を受信し、データと命令を該記憶システム、該少なくとも1つの入力装置、該少なくとも1つの出力装置に送信してよいこと、を含んでもよい。
【0170】
本開示の方法を実施するプログラムコードは1つ以上のプログラミング言語のいかなる組み合わせで書かれてよい。これらのプログラムコードを汎用コンピュータ、特殊目的のコンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供してよく、よってプログラムコードはプロセッサ又はコントローラにより実行されるときにフロー図及び/又はブロック図に規定の機能/操作を実施する。プログラムコードは完全に機械で実行してよく、部分的に機械で実行してよく、独立ソフトウェアパッケージとして部分的に機械で実行し且つ部分的に遠隔機械で実行してよく、又は完全に遠隔機械又はサーバで実行してよい。
【0171】
本開示のコンテキストにおいて、機械可読媒体は有形の媒体であってもよく、命令実行システム、装置又はデバイスに使用される又は命令実行システム、装置又はデバイスに結合されて使用されるプログラムを具備又は記憶してよい。機械可読媒体は機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子、磁気、光学、電磁、赤外線、又は半導体システム、装置又はデバイス、又は上記内容のいかなる適切な組み合わせを含んでもよいが、これらに限定されない。機械可読記憶媒体のより具体的な例は、1つ以上のリード線による電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM又はフラッシュメモリ)、光ファイバー、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、光記憶機器、磁気記憶機器、又は上記内容のいかなる適切な組み合わせを含む。
【0172】
ユーザとのインタラクションを提供するために、コンピュータにはここで説明したシステムと技術を実施してよく、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)監視モニタ)、及びキーボードとポインティング装置(例えば、マウスやトラックボール)を備え、ユーザは該キーボードと該ポインティング装置を介してコンピュータに入力してよい。その他のタイプの装置は更に、ユーザとのインタラクションを提供するためのものであってもよく、例えば、ユーザに提供するフィードバックはいかなる形態の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、いかなる形態(音入力、音声入力、又は触覚入力を含む)でユーザからの入力を受信してよい。
【0173】
ここで述べたシステムや技術は、バックステージ部材を含む計算システム(例えば、データサーバとして)や、ミドルウェア部材を含む計算システム(例えば、アプリケーションサーバ)や、フロントエンド部材を含む計算システム(例えば、グラフィカルユーザインターフェースやウェブブラウザを有するユーザコンピュータであり、ユーザが、そのグラフィカルユーザインターフェースやウェブブラウザを通じて、それらのシステムや技術の実施形態とのインタラクションを実現できる)、あるいは、それらのバックステージ部材、ミドルウェア部材、あるいはフロントエンド部材の任意の組み合わせからなる計算システムに実施されてもよい。システムの部材は、任意の形式や媒体のデジタルデータ通信(例えば、通信ネットワーク)により相互に接続されてもよい。通信ネットワークの一例は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、インターネットとブロックチェーンネットワークを含む。
【0174】
コンピュータシステムは、クライアント側とサーバを含んでもよい。クライアント側とサーバは、一般的に相互に遠く離れ、通常、通信ネットワークを介してインタラクションを行う。互いにクライアント側-サーバという関係を有するコンピュータプログラムを対応するコンピュータで運転することによってクライアント側とサーバとの関係を生成する。サーバは、クラウドサーバであってもよく、分散型システムのサーバであっても、又はブロックチェーンと組み合わされたサーバであってもよい。
【0175】
理解すべきこととして、前述した様々な形態のフローを用いて、ステップを改めて順位付け、増加又は削除してよい。例えば、本開示に記載された各ステップは、並列的に実行してもよいし、順次実行してもよいし、異なる順序で実行してもよく、本開示に開示された技術案が所望する結果を実現できれば、本文はこれに限定されないことである。
【0176】
本願の実施例又は例は図面を参照して説明されたが、上記の方法、システム、及び装置は単なる例示的な実施形態又は例であり、本発明の範囲はこれらの実施形態又は例によって制限されるものではなく、授権後の特許請求の範囲及びその均等範囲のみによって限定されることを理解されたい。実施例又は例の様々な要素は省略されてもよく、又はそれらの均等要素によって代替されてもよい。なお、各ステップは、本開示で説明した順序とは異なる順序で実行されてもよい。さらに、実施例又は例の様々な要素は、様々な方法で組み合わせられてもよい。重要なのは、技術の進化に伴い、ここで説明される多くの要素は、本開示の後に現れる同等の要素に置き換えることができるということである。
図1
図2
図3
図4
図5
図6
図7
【外国語明細書】