(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024003750
(43)【公開日】2024-01-15
(54)【発明の名称】言語モデルの訓練方法、装置、電子デバイス及び記憶媒体
(51)【国際特許分類】
G06F 40/216 20200101AFI20240105BHJP
G10L 15/183 20130101ALI20240105BHJP
【FI】
G06F40/216
G10L15/183
【審査請求】有
【請求項の数】21
【出願形態】OL
(21)【出願番号】P 2023036351
(22)【出願日】2023-03-09
(31)【優先権主張番号】202210742554.3
(32)【優先日】2022-06-27
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】110000877
【氏名又は名称】弁理士法人RYUKA国際特許事務所
(72)【発明者】
【氏名】ワン、ハイフェン
(72)【発明者】
【氏名】ティアン、ハオ
(72)【発明者】
【氏名】ウ、フア
(72)【発明者】
【氏名】ウ、ティアン
(72)【発明者】
【氏名】リウ、ジン
(72)【発明者】
【氏名】ク、インチ
(72)【発明者】
【氏名】イン、ウェンジエ
(72)【発明者】
【氏名】ディン、ユチェン
【テーマコード(参考)】
5B091
【Fターム(参考)】
5B091EA01
(57)【要約】 (修正有)
【課題】異種データの統一的なモデリングが可能な言語モデルの訓練方法、装置、電子デバイス及び記憶媒体を提供する。
【解決手段】訓練方法は、非テキストフォーマットのサンプルデータをテキストフォーマットのサンプルデータに変換し、変換された前記テキストフォーマットのサンプルデータに基づいて言語モデルを訓練する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
非テキストフォーマットのサンプルデータをテキストフォーマットのサンプルデータに変換することと、
変換された前記テキストフォーマットのサンプルデータに基づいて言語モデルを訓練することと、
を含む言語モデルの訓練方法。
【請求項2】
非テキストフォーマットのサンプルデータをテキストフォーマットのサンプルデータに変換することは、
前記非テキストフォーマットのサンプルデータに構造化データが含まれる場合、前記構造化データにおける各部分のデータを連結して前記テキストフォーマットのサンプルデータに変換し、或いは、
前記非テキストフォーマットのサンプルデータにピクチャが含まれる場合、前記ピクチャに対応する文字を抽出して前記テキストフォーマットのサンプルデータを得る、
ことを含む請求項1に記載の言語モデルの訓練方法。
【請求項3】
前記ピクチャに対応する文字を抽出して前記テキストフォーマットのサンプルデータを得ることは、
光学文字認識方法を用いて、前記ピクチャにおける文字を認識して前記テキストフォーマットのサンプルデータを取得し、及び/又は
事前訓練された情報抽出モデルを用いて、前記ピクチャに対応する文字を抽出して前記テキストフォーマットのサンプルデータを取得する、
ことを含む請求項2に記載の言語モデルの訓練方法。
【請求項4】
非テキストフォーマットのサンプルデータをテキストフォーマットのサンプルデータに変換することの前に、
オンラインログからユーザがクリックした前記非テキストフォーマットのサンプルデータを正のサンプルデータとしてマイニングする、
ことを更に含む請求項1に記載の言語モデルの訓練方法。
【請求項5】
変換された前記テキストフォーマットのサンプルデータに基づいて言語モデルを訓練することの後に、
非テキストフォーマットのサンプルデータが適用される所定シナリオのテストセットに基づいて、訓練された前記言語モデルの正確性が第1所定要件を満たしているか否かを検出し、
第1所定要件を満たしていない場合に、前記所定シナリオのサンプルデータをマイニングし、
前記所定シナリオのサンプルデータに基づいて前記言語モデルを訓練する、
ことを更に含む請求項1に記載の言語モデルの訓練方法。
【請求項6】
変換された前記テキストフォーマットのサンプルデータに基づいて言語モデルを訓練することの後に、
前記言語モデルがセマンティック検索モデルである場合に、セマンティック検索のテストセットと、ソースデータがテキストフォーマットであるサンプルデータを用いて訓練されたオリジナルセマンティック検索モデルとに基づいて、前記セマンティック検索モデルのリコール結果が第2所定要件内にあるか否かを検出し、
第2所定要件内にない場合に、前記リコール結果に基づいて前記セマンティック検索モデルを訓練する、
ことを更に含む請求項1に記載の言語モデルの訓練方法。
【請求項7】
変換された前記テキストフォーマットのサンプルデータに基づいて言語モデルを訓練することの後に、
異なる設定における複数の参照言語モデルを取得し、
テストセットのテストサンプルと前記複数の参照言語モデルとに基づいて、前記言語モデルの処理能力が第3所定要件を満たしているか否かを検出し、
第3所定要件を満たしていない場合に、前記テストサンプルに基づいて前記言語モデルを訓練する、
ことをさらに含む請求項1に記載の言語モデルの訓練方法。
【請求項8】
テストセットのテストサンプルと前記複数の参照言語モデルとに基づいて、前記言語モデルの処理能力が第3所定要件を満たしているか否かを検出することは、
前記テストセットにおけるテストサンプルに基づいて、前記言語モデルに対応するテスト処理結果を取得し、
前記テストサンプル及び前記複数の参照言語モデルに基づいて総合処理結果を取得し、
前記総合処理結果と前記テスト処理結果とに基づいて、前記言語モデルの処理能力が前記第3所定要件を満たしているか否かを検出する、
ことを含む請求項7に記載の言語モデルの訓練方法。
【請求項9】
前記言語モデルは、事前訓練されたモデルであり、
変換された前記テキストフォーマットのサンプルデータに基づいて言語モデルを訓練することは、
変換された前記テキストフォーマットのサンプルデータに基づいて、事前訓練された前記言語モデルを微調整する、
ことを含む請求項1から8のいずれか1項に記載の言語モデルの訓練方法。
【請求項10】
言語モデルの訓練装置であって、
非テキストフォーマットのサンプルデータをテキストフォーマットのサンプルデータに変換する変換モジュールと、
変換された前記テキストフォーマットのサンプルデータに基づいて言語モデルを訓練する訓練モジュールと、
を備える言語モデルの訓練装置。
【請求項11】
前記変換モジュールは、
前記非テキストフォーマットのサンプルデータに構造化データが含まれる場合、前記構造化データにおける各部分のデータを連結して前記テキストフォーマットのサンプルデータに変換し、或いは、
前記非テキストフォーマットのサンプルデータにピクチャが含まれる場合、前記ピクチャに対応する文字を抽出して前記テキストフォーマットのサンプルデータを取得する、
請求項10に記載の言語モデルの訓練装置。
【請求項12】
前記変換モジュールは、
光学文字認識方法を用いて、前記ピクチャにおける文字を認識して前記テキストフォーマットのサンプルデータを取得し、及び/又は
事前訓練された情報抽出モデルを用いて、前記ピクチャに対応する文字を抽出して前記テキストフォーマットのサンプルデータを取得する、
請求項11に記載の言語モデルの訓練装置。
【請求項13】
オンラインログからユーザがクリックした前記非テキストフォーマットのサンプルデータを正のサンプルデータとしてマイニングするマイニングモジュールを更に備える、
請求項10に記載の言語モデルの訓練装置。
【請求項14】
検出モジュールをさらに備え、
前記検出モジュールは、非テキストフォーマットのサンプルデータが適用される所定シナリオのテストセットに基づいて、訓練された前記言語モデルの正確性が第1所定要件を満たしているか否かを検出し、
前記マイニングモジュールは、更に、第1所定要件を満たしていない場合に、前記所定シナリオのサンプルデータをマイニングし、
前記訓練モジュールは、前記所定シナリオのサンプルデータに基づいて前記言語モデルを訓練する、
請求項13に記載の言語モデルの訓練装置。
【請求項15】
前記検出モジュールは、さらに、前記言語モデルがセマンティック検索モデルである場合に、セマンティック検索のテストセットと、ソースデータがテキストフォーマットであるサンプルデータを用いて訓練されたオリジナルセマンティック検索モデルとに基づいて、前記セマンティック検索モデルのリコール結果が第2所定要件内にあるか否かを検出し、
前記訓練モジュールは、更に、第2所定要件内にない場合に、前記リコール結果に基づいて、前記セマンティック検索モデルを訓練する、
請求項14に記載の言語モデルの訓練装置。
【請求項16】
取得モジュールをさらに備え、
前記取得モジュールは、異なる設定における複数の参照言語モデルを取得し、
前記検出モジュールは、更に、テストセットのテストサンプルと前記複数の参照言語モデルとに基づいて、前記言語モデルの処理能力が第3所定要件を満たしているか否かを検出し、
前記訓練モジュールは、更に、第3所定要件を満たしていない場合に、前記テストサンプルに基づいて前記言語モデルを訓練する、
請求項14に記載の言語モデルの訓練装置。
【請求項17】
前記検出モジュールは、
前記テストセットにおけるテストサンプルに基づいて、前記言語モデルに対応するテスト処理結果を取得し、
前記テストサンプル及び前記複数の参照言語モデルに基づいて、総合処理結果を取得し、
前記総合処理結果と前記テスト処理結果とに基づいて、前記言語モデルの処理能力が前記第3所定要件を満たしているか否かを検出する、
請求項16に記載の言語モデルの訓練装置。
【請求項18】
前記訓練モジュールは、
変換された前記テキストフォーマットのサンプルデータに基づいて事前訓練された前記言語モデルを微調整する、
請求項10から17のいずれか1項に記載の言語モデルの訓練装置。
【請求項19】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを備え、
前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに請求項1から8のいずれか1項に記載の言語モデルの訓練方法を実行させる電子デバイス。
【請求項20】
コンピュータに請求項1から8のいずれか1項に記載の言語モデルの訓練方法を実行させるためのコンピュータコマンドを記憶する非一時的なコンピュータ可読記憶媒体。
【請求項21】
プロセッサにより実行されると、請求項1から8のいずれか1項に記載の言語モデルの訓練方法を実現するコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、コンピュータ技術の分野に関し、具体的に機械学習及び自然言語処理のような人工知能技術の分野に関し、特に言語モデルの訓練方法、装置、電子デバイス及び記憶媒体に関する。
【背景技術】
【0002】
従来技術のビジネスでは、さまざまなデータ構造が使われる。例えば、テキスト、ピクチャなどのフォーマットが比較的簡単で固定的なデータ構造もあり、データベース、テーブル、知識マップなどの複雑な構造化データもある。
【0003】
データに基づいて具体的な業務処理を行う場合、フォーマットの異なるデータは、一般的に異なる方法で処理される。例えば、異なるフォーマットのデータに基づいて言語モデルのモデリングを行う場合、異なるフォーマットのデータについて認識方式が異なり、同一の方法でモデリングを行うことは困難であるため、従来技術では、異なるフォーマットに対して、開発者がそれぞれに対応した言語モデルのモデリングを行っていた。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本開示は、言語モデルの訓練方法、装置、電子デバイス及び記憶媒体を提供する。
【課題を解決するための手段】
【0005】
本開示の一態様によれば、非テキストフォーマットのサンプルデータをテキストフォーマットのサンプルデータに変換し、変換された前記テキストフォーマットのサンプルデータに基づいて言語モデルを訓練することを含む言語モデルの訓練方法が提供される。
【0006】
本開示の別の態様によれば、非テキストフォーマットのサンプルデータをテキストフォーマットのサンプルデータに変換する変換モジュールと、変換された前記テキストフォーマットのサンプルデータに基づいて言語モデルを訓練する訓練モジュールとを備える言語モデルの訓練装置が提供される。
【0007】
本開示の別の態様によれば、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを備え、前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに上述した態様及び可能な実施形態のいずれか一つの方法を実行させる電子デバイスが提供される。
【0008】
本開示の別の態様によれば、コンピュータに上述した態様及び可能な実施形態のいずれか一つの方法を実行させるためのコンピュータコマンドを格納した非一時的なコンピュータ可読記憶媒体が提供される。
【0009】
本開示の別の態様によれば、プロセッサにより実行されると、上述した態様及び可能な実施形態のいずれか一つの方法を実施するコンピュータプログラムを含むコンピュータプログラム製品が提供される。
【0010】
本開示の技術によれば、異種データの統一的なモデル化を効果的に実現し、モデル化の効率を向上させることができる。
【0011】
理解すべきなのは、本セクションで説明される内容は、本開示の実施形態の重要な又は肝心な特徴を標識することでもなく、本開示の範囲を制限することでもない。本開示の他の特徴は、以下の明細書により容易に理解されるであろう。
【図面の簡単な説明】
【0012】
図面は、本技術案をより良く理解するためのものであり、本開示に制限されない。図面において、
【
図5】本開示の実施形態の方法を実現するための電子デバイスのブロック図である。
【発明を実施するための形態】
【0013】
以下、図面に基づいて、本出願の例示的な実施例を説明する。理解を容易にするために、本出願の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本出願の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。
【0014】
明らかに、記載された実施形態は、本開示の一部の実施形態であり、全ての実施形態ではない。本開示の実施形態に基づいて、当業者が創造的な労働をしていないという前提の下で得た他のすべての実施形態は、本開示の保護の範囲に属する。
【0015】
説明すべきなのは、本開示の実施形態に係る端末装置は、携帯電話、携帯情報端末(Personal Digital Assistant、PDA)、無線ハンドヘルドデバイス、タブレット(Tablet Computer)などのスマートデバイスを含むことができるが、これらに限定されない。表示装置は、パーソナルコンピュータ、テレビ等の表示機能を有する装置を含むことができるが、これらに限定されない。
【0016】
さらに、本明細書における用語「及び/又は」は、単に関連オブジェクトを記述する関連関係であり、3つの関係が存在し得ると意味する。例えば、A及び/又はBは、Aが単独で存在し、AとBが同時に存在し、Bが単独で存在するという三つの状況を意味することができる。また、本明細書における文字「/」は、一般的に前後の関連オブジェクトが「又は」の関係にあることを意味する。
【0017】
従来の技術では、各種の異なるフォーマットのデータがそれぞれ異なる言語モデルを用いてモデリングされていることを考慮すると、複数のデータフォーマットの複数の言語モデルを開発し、維持することはコストが高く、非効率である。
【0018】
図1は本開示の第1実施形態による概略図である。
図1に示すように、本実施形態は、言語モデルの訓練方法を提供し、具体的には、以下のステップを含むことができる。
【0019】
S101において、非テキストフォーマットのサンプルデータをテキストフォーマットのサンプルデータに変換する。
【0020】
S102において、変換されたテキストフォーマットのサンプルデータに基づいて言語モデルを訓練する。
【0021】
本実施形態の言語モデルの訓練方法は、異種データの言語モデルのモデリングを実現するために使用することができる。具体的には、モデリングの過程において、非テキストフォーマットのサンプルデータをテキストフォーマットのサンプルデータに変換することができる。これにより、異種データをテキストフォーマットのサンプルデータに統一的にフォーマット変換することが可能となる。そして、変換されたテキストフォーマットのサンプルデータを用いて言語モデルの訓練を行う。
【0022】
例えば、本実施形態の非テキストフォーマットのサンプルデータには、ピクチャフォーマットのサンプルデータが含まれてもよく、データベース、テーブル、知識マップなどの構造化データを有するサンプルデータが含まれてもよい。
【0023】
本実施形態では、どんな非テキストフォーマットのサンプルデータであっても、統一的な処理方式を採用して、非テキストフォーマットのサンプルデータを統一的にテキストフォーマットのサンプルデータに変換することができ、さらに、異なるフォーマットのサンプルデータを統一的にモデリングし、その後も統一的に管理し保守することが可能となるため、言語モデルの管理/保守効率を効果的に向上させることができる。
【0024】
本実施形態の言語モデルの訓練方法は、非テキストフォーマットのサンプルデータをテキストフォーマットのサンプルデータに変換し、変換されたテキストフォーマットのサンプルデータに基づいて言語モデルを訓練することにより、異種データに統一的なフォーマット変換を行い、更に統一的なモデリングを行い、異なるフォーマットのデータに対して別々にモデリング、管理及び保守を行うことを避けることができるため、異種データの統一的なモデリングを効果的に実現し、開発、管理及び保守のコストを節約し、更にモデリング、管理及び保守の効率を効果的に高めることができる。
【0025】
図2は本開示の第2実施形態による概略図である。
図2に示すように、本実施形態は、言語モデルの訓練方法を提供し、具体的には、以下のステップを含むことができる。
【0026】
S201において、現在のサンプルデータが非テキストフォーマットであるか否かを検出し、肯定の場合にステップS202を実行し、否定の場合に、当該サンプルデータがテキストフォーマットであると判定し、当該サンプルデータを破棄し、次のサンプルデータの検出を繰り返す。本実施形態のサンプルデータは、予めマイニングされたものである。その中、正のサンプルデータが含まれてもよく、負のサンプルデータが含まれてもよい。
【0027】
説明すべきなのは、マイニングされたサンプルの正確性を高めるために、例えば、当該ステップS201の前に、ユーザがクリックした非テキストフォーマットのサンプルデータを、オンラインログから正のサンプルデータとしてマイニングすることができる。
【0028】
本実施形態の技術案は、非テキストフォーマットのサンプルデータを含む使用シナリオに適用することができる。言語モデル学習を当該分野に適合できるようにするために、当該分野のサンプルデータを用いて当該事前訓練された当該言語モデルを微調整することができる。本実施形態の目的は、言語モデルに、当該分野の非テキストフォーマットのサンプルデータをテキストフォーマットのサンプルデータに変換した後のサンプルデータの認識能力を学習させることであるため、本実施形態のシナリオでは、テキストフォーマットのサンプルデータについては、考慮せずに一旦破棄する。
【0029】
S202において、非テキストフォーマットのサンプルデータに構造化データが含まれているか否かを検出し、肯定の場合にステップS203を実行し、否定の場合にステップS204に進む。
【0030】
本実施形態の構造化データは、データベース、テーブル、知識マップ等を含むことができるが、ここでは限定しない。
【0031】
S203において、構造化データにおける各部分のデータを連結してテキストフォーマットのサンプルデータに変換し、ステップS206を実行する。
【0032】
本実施形態では、複雑なルールを設定することなく、構造化データをテキストデータに変換する。本実施形態で変換されたテキストデータは、自然言語で記述されたテキストデータとして理解して良く、自然言語モデルのモデリングに適用することができる。
【0033】
本実施形態では、構造化データの各部分を簡単な連結で連結することにより、構造化データをテキストフォーマットのサンプルデータに変換することを実現している。ほとんどのデータが文字列やデータのような単純な構造でコンピュータに格納されているか、jsonやテーブルのような複雑な構造でコンピュータに格納されていることが考えられる。数字、文字列、リストなどの最も基礎的なデータ構造については、簡単にテキストフォーマットに変換することができる。一方、json、テーブルなどのやや複雑なデータ構造については、次のように変換することができる。
【0034】
jsonフォーマットのデータについては、そのうちのkeyとvalueの内容を抽出して順次にテキストとして連結することができる。
【0035】
例えば、元の構造化データは次のとおりである。
Data={
「Key1」:「Value1」、
「KEY2」:「VALUE2」
}
【0036】
変換されたテキストフォーマットのデータは、次のように表現できる。
Data=「${key1}:${value1},${key2}:${value2}」
【0037】
元の構造化データに構造入れ子が含まれている場合に、上記の方法に従って入れ子の中の子構造を変換した後に、子構造の変換結果の前に親ノードのkeyを付加すれば良い。
【0038】
一方、テーブルデータについては、各セルの内容とヘッダを連結してショートテキストフォーマットのデータを作成し、全てのセルのショートテキストを順次に連結することができる。
【0039】
【0040】
変換されたテキストフォーマットのデータは、次のように表現できる。
data=「${H1}:${Value1},${H2}:${Value2},${H2}:${Value2},${H2}:${Value2}」
【0041】
上述した実施形態によれば、すべての構造化データをテキストフォーマットのデータに迅速に変換し、更にテキストフォーマットのデータに基づいて統一的なモデリングを容易にすることができる。
【0042】
S204において、非テキストフォーマットのサンプルデータにピクチャが含まれているか否かを検出し、肯定の場合にステップS205に進み、否定の場合に、当該サンプルデータを破棄し、ステップS201に戻って次のサンプルデータの検出を開始する。
【0043】
すなわち、本実施形態では、非テキストフォーマットのサンプルデータに構造化データとピクチャが含まれる場合を例にする。実際の応用では、他の非テキストフォーマットのサンプルデータに拡張することもできる。例えば、半構造化データである場合に、構造化されていないテキストデータ部分と構造化データ部分の両方を含むため、構造化データ部分を本実施形態のようにテキストに変換し、元のデータ中の位置に応じてテキストデータ部分と連結して変換された単純なテキストフォーマットのサンプルデータを得ることができる。あるいは、実際の応用では、他の非テキストフォーマットのサンプルデータに拡張することも可能であるが、原理が同じであるため、ここでは詳しく説明しない。本実施形態では、ピクチャや構造化データ以外のフォーマットの非テキストフォーマットのサンプルデータについては考慮されていない。このようなサンプルデータを無視して破棄し、言語モデルのモデリングには使用しないようにしてよい。
【0044】
S205において、ピクチャに対応する文字を抽出してテキストフォーマットのサンプルデータを取得し、ステップS206を実行する。
【0045】
例えば、本実施形態では、ピクチャを含むサンプルデータを、以下の2通りの方法でテキストフォーマットのサンプルデータに変換することができる。
【0046】
第1方式は、光学文字認識(Optical Character Recognition;OCR)方法を採用してピクチャにおける文字を認識してテキストフォーマットのサンプルデータを取得する。
【0047】
具体的には、ピクチャに文字が含まれている場合には、当該方式により、ピクチャに対応する文字を抽出することを実現し、さらに、ピクチャフォーマットのサンプルデータをテキストフォーマットのサンプルデータに変換することを実現することができる。
【0048】
第2方式は、事前訓練された情報抽出モデルを用いて、ピクチャに対応する文字を抽出してテキストフォーマットのサンプルデータを取得する。
【0049】
具体的には、ピクチャに文字だけでなく、他の目標コンテンツが含まれる場合や、ピクチャに文字が含まれていない場合に、事前訓練された情報抽出モデルを用いて、ピクチャにおける文字や、ピクチャにおける各目標コンテンツに対応する文字を抽出することにより、ピクチャフォーマットのサンプルデータをテキストフォーマットのサンプルデータに変換することを実現することができる。
【0050】
なお、説明すべきなのは、ピクチャに文字のみが含まれている場合には、上記第1方式の他に、事前訓練された情報抽出モデルを用いて、ピクチャにおける文字を抽出してピクチャフォーマットのサンプルデータをテキストフォーマットのサンプルデータに変換することも可能である。ただし、ピクチャに文字以外の目標コンテンツが含まれている場合には、上記の第1方法では実現できず、上述した第2方法を採用してピクチャフォーマットのサンプルデータをテキストフォーマットのサンプルデータに変換することを実現する必要がある。
【0051】
上記のいずれ一つの方法でも、ピクチャフォーマットのサンプルデータをテキストフォーマットのサンプルデータに正確に変換することが可能となる。
【0052】
S206において、変換されたテキストフォーマットのサンプルデータに基づいて、事前訓練された言語モデルを微調整する。
【0053】
本実施形態の言語モデルは自然言語処理に基づくものであり、全ての非テキストフォーマットのサンプルデータを統一的にテキストフォーマットのサンプルデータに変換することにより、全ての異種サンプルデータの統一的なモデリングを実現することができる。
【0054】
実際の応用において、モデルの訓練は、事前訓練(pre-trained)段階と微調整(fine-tuning)段階という2つの段階を含むことができる。事前訓練段階は、モデルを事前訓練するプロセスであると考えて良い。このプロセスでは、モデルが良好な状態になるように、より大きなデータセットに基づいてゼロからモデルを訓練することができる。一方、微調整段階では、具体的なタスクあるいは具体的な分野のデータセットを採用し、事前訓練されたモデルを微調整することにより、そのモデルがそのデータセットに適応するようにすることが考えられて良い。微調整により、時間と計算資源を節約すると共に、モデルをより良い効果にすぐに到達させることができる。
【0055】
本実施形態では、変換されたテキストフォーマットのサンプルデータに基づいて言語モデルを訓練する際に、事前訓練段階に適用してもよく、微調整段階に適用してもよい。
【0056】
例えば、ソースデータがテキストフォーマットのサンプルデータが非常に豊富である。本実施形態では、豊富なテキストフォーマットのサンプルデータを用いて言語モデルを事前訓練することができる。非テキストフォーマットのサンプルデータは、テキストフォーマットのサンプルデータに変換され、そのデータ量が比較的少ないため、微調整段階で変換されたテキストフォーマットのサンプルデータを用いて事前訓練された言語モデルを微調整することができる。これにより、訓練時間が短く、微調整された言語モデルを、変換されたテキストフォーマットのサンプルデータの処理によく適応させることができる。すなわち、本実施形態で事前訓練された言語モデルは、大量の自然言語テキストに基づいて事前訓練することができる。
【0057】
セマンティックリコールのシナリオでは、本実施形態の言語モデルは、セマンティック検索モジュール及び/又はソートモデルであって良い。現在の最先端の自然言語処理に共通の訓練方法を用いて、言語モデルを事前訓練することができる。そのもとで、多くの主流の自然言語処理タスクが優れた効果を実現ことができる。例えば、本実施形態の技術案では、変換されたテキストフォーマットのサンプルデータを使用して事前訓練された言語モデルを微調整してすべてのフォーマットを実現するデータのリコール及びソートを実現することが可能である。
【0058】
具体的には、テキスト検索シナリオにおける大量の弱教師データを使用してセマンティック検索モデルとソートモデルを事前訓練することができる。その後、微調整段階で、事前訓練されたセマンティック検索モデルとソートモデルを各種フォーマットのデータに使用することにより、いくつかのニッチな、データが不足しているシナリオに言語モデルの配当を享受すると共に、大量のテキストデータの助けで更に良い効果を得ることができる。
【0059】
本実施形態の言語モデルの訓練方法は、上記の方式を採用することにより、非テキストフォーマットのサンプルデータをテキストフォーマットのサンプルデータに変換し、さらに、変換されたテキストフォーマットのサンプルデータに基づいて、事前訓練された言語モデルを微調整することが可能となり、さらに、変換されたテキストフォーマットのデータの処理に言語モデルを適用することが可能となる。したがって、本実施形態の方式で訓練された言語モデルは、全ての異なるフォーマットのサンプルデータに基づいて統一的なモデリング、統一的な管理、統一的な保守を行うことができ、従来の異なるフォーマットのサンプルデータを個別にモデリング、管理、保守を行う場合に比べて、コストを節減すると共に、モデリング、管理、保守効率を効果的に向上させることができる。
【0060】
例えば、サンプルデータが非テキストフォーマットである分野のシナリオにおいて、上記の
図2に示す実施形態の技術案を使用して、その分野のシナリオにおける言語モデルの微調整を、弱教師データに基づいて予め行うことができる。さらに効果の反復が必要であれば、この言語モデルの分野シナリオにおけるエンドツーエンドの効果を評価し、言語モデルの表現が悪い面を探し出し、指向性最適化を行うことができる。例えば、以下の態様を含むことができる。
【0061】
第一態様はモデルのロバスト性の問題である。具体的には、上述した
図2に示す実施形態の後に、以下のステップを含むことができる。
【0062】
(a1)所定シナリオのテストセットに基づいて、訓練された言語モデルの正確性が第1所定要件を満たしているか否かを検出する。否定の場合にステップ(b1)を実行し、肯定の場合に一時的に何も行わない。
【0063】
(b1)所定シナリオのサンプルデータをマイニングする。
【0064】
(c1)所定シナリオのサンプルデータに基づいて、言語モデルの訓練を行う。
【0065】
本実施形態の所定シナリオは、訓練された言語モデルを検証するために、非テキストフォーマットのサンプルデータが適用されるシナリオであってよい。
【0066】
例えば、当該所定シナリオのテストセットを用いて当該言語モデルの正確性が第1所定要件を満たしているか否かを検出する。当該第1所定要件は、正確性が90%以上、又は正確性が95以上など、予め設定された正確性要件を指すことができる。正確性がこの要件に達していない場合には、この所定シナリオのサンプルデータを用いてこの言語モデルの微調整と最適化を行う必要があることを示している。この場合に、さらにこの所定シナリオのサンプルデータをマイニングして言語モデルの訓練を行う。あるいは、マイニングされたこの所定シナリオのサンプルデータに基づいて、言語モデルをさらに微調整することで、言語モデルが当該所定シナリオに適合するようにし、言語モデルの正確性をさらに向上させることもできる。
【0067】
例えば、実体属性のQ&Aシナリオでは、言語モデルに実体のマッチングエラー、属性範囲のマッチングエラーなどの問題が存在する可能性がある。この場合に、特定の戦略を採用してこのようなデータを指向的にマイニングし、言語モデルに対してさらに微調整を行い、さらに言語モデルの正確性を高めることができる。
【0068】
第二態様は、モデルの過リコール問題である。言語モデルをセマンティック検索モデルとする場合に、それに応じて上記
図2に示す実施形態の微調整は、セマンティック検索モデルを微調整することである。具体的には、上述した
図2に示す実施形態の後に、以下のステップを含むことができる。
【0069】
(a2)セマンティック検索のテストセットとオリジナルセマンティック検索モデルとに基づいて、セマンティック検索モデルのリコール結果が第2所定要件内にあるか否かを検出する。否定の場合にステップ(b2)を実行し、肯定の場合に一時的に何も行わない。
【0070】
(b2)リコール結果に基づいて、セマンティック検索モデルを訓練する。
【0071】
本実施形態のオリジナルセマンティック検索モデルは、ソースデータをテキストフォーマットとするサンプルデータを用いて訓練されたものである。すなわち、本実施形態では、訓練により得られたセマンティック検索モデルを、オリジナルセマンティック検索モデルを用いて検証する。
【0072】
具体的に、セマンティック検索テストセットにおける任意のqueryについて、オリジナルセマンティック検索モデルのリコール結果及び訓練されたセマンティック検索モデルのリコール結果を取得し、両者のリコール結果の差が第2所定要件内であるか否かを照合する。セマンティック検索モデルのリコール結果がリコールすべきでない検索結果をリコールした場合に、このリコール結果に基づいて、対応する負のサンプルデータを構築し、セマンティック検索モデルに対して訓練を行ってさらなる微調整を行うことにより、語義検索モデルがリコールすべきでない結果をリコールしないようにし、モデルの正確性を更に高める必要がある。
【0073】
実際の応用では、オンラインログにおける単純なqueryについて、訓練されたセマンティック検索モデルは正確な結果を返すことができるが、同時に結果を返すべきでないいくつかの回答がトリガーされる可能性がある。このような場合には、本実施形態のように、汎用テキスト訓練のオリジナルセマンティック検索モデルと差分(diff)をとる方式を採用して、過リコールされたものをマイニングして負のサンプルとして訓練セットに加えることで、セマンティック検索モデルをさらに微調整し、モデルの正確性をさらに向上させることができる。
【0074】
第三態様は、模型の採点が信頼できない問題である。この問題は、言語モデルがセマンティック検索モデルであるモデルにおいても、言語モデルがソートモデルであるモデルにおいても発生する可能性がある。例えば、いくつかの境界サンプルについて、言語モデルには、採点が偏り、信頼性がないという問題が存在する可能性がある。この問題に基づいて、具体的に、上述した
図2に示す実施形態の後に、以下のステップを含むことができる。
【0075】
(a3)異なる設定における複数の参照言語モデルを取得する。
【0076】
(b3)テストセットのテストサンプルと複数の参照モデルとに基づいて、言語モデルの処理能力が第3所定要件を満たしているか否かを検出する。否定の場合にステップ(c3)を実行し、肯定の場合に一時に何も行わない。
【0077】
(c3)テストサンプルに基づいて、言語モデルを訓練する。
【0078】
例えば、テストセットのテストサンプルと複数の参照モデルとに基づいて、言語モデルの処理能力が第3所定要件を満たしているか否かを検出することは、具体的に、テストセットのテストサンプルに基づいて、言語モデルによる当該テストサンプルの採点など、言語モデルに対応するテスト処理結果を取得し、テストサンプルと複数の参照言語モデルとに基づいて、総合処理結果を取得することができる。ここでの総合処理結果は、複数の参照言語モデルによる当該テストサンプルの処理結果が総合的に考慮されたものと理解して良い。例えば、複数の参照言語モデルのそれぞれによるテストサンプルの採点を取得することができる。次に、複数の参照言語モデルのそれぞれによるテストサンプルの採点に基づいて、総合採点を取得する。例えば。総合採点は、複数の参照言語モデルの採点の平均値に等しくても良く、他の数学式を用いて複数の参照言語モデルに基づいてテストサンプルをそれぞれ採点してもよい。最後に、総合処理結果とテスト処理結果とに基づいて、言語モデルの処理能力が第3所定要件を満たしているか否かを検出する。例えば、言語モデルによるテストサンプルの採点と総合採点との差分(diff)が第3所定要件を満たしているか否かを比較し、例えば所定閾値よりも小さいか否かを比較する。肯定の場合に、言語モデルの採点は妥当であり、総合採点とあまり変わらないことを示している。一方、第3所定要件を満たさない場合、例えば所定閾値よりも大きい場合、言語モデルによる現在のテストサンプルの採点が不当であると考えて良い。この場合に、言語モデルの採点が間違っているテストサンプルをマイニングして訓練セットに加え、強化訓練を行うだけで、言語モデルの正確性を向上させることができる。
【0079】
以上の3つの態様の検証を行い、且つ要件を満たさない場合にサンプルデータを指向的にマイニングすることにより、言語モデルをさらに数回反復することで、目標分野のシナリオに適合し、従来システムの効果を超えたエンドツーエンドの言語モデルを得ることができる。
【0080】
上記の3つの態様の強化訓練によれば、言語モデルの正確性をさらに向上させ、言語モデルが対応する分野のシナリオにより適合するようにすることができる。
【0081】
従来技術では、テキストやピクチャなどの一般的なデータについて、研究開発者はそれぞれ対応するカテゴリのデータに基づいた効果の高い検索アルゴリズムを開発することに大きな力を注いでいる。このようなデータのフォーマットは統一されており、且つデータ量も非常に多いため、このようなデータの検索能力を的確に向上させることは最終的な検索効果に大きな利益をもたらすことになる。一方、テーブル、知識マップなどの構造化データはフォーマットが異なることが多く、同じ方法で検索やモデリングを行うことは難しく、しかも各種類のデータの規模は大きくなく、そのために検索アルゴリズムを設計する利益は比較的に小さい。そのため、さまざまな構造化データの検索効果はばらつきが多く、検索業務全体の中で弱点となっている。本開示の実施形態の上述態様によれば、様々なフォーマットのサンプルデータに基づいて、統一的にモデリングし、統一的に管理し維持することができる。例えば、まず大量のテキストデータを用いて言語モデルを訓練し、次に分野のシナリオにおける非テキストフォーマットのサンプルデータをテキストフォーマットのサンプルデータに変換し、変換されたテキストフォーマットのサンプルデータに基づいて、訓練された言語モデルを微調整することにより、当該言語モデルを当該分野のシナリオに適用することができる。実際の応用では、各分野のシナリオにおける非テキストフォーマットのサンプルデータを用いてこの言語モデルを微調整することにより、この言語モデルが各分野のシナリオに適応し、様々なフォーマットのデータを扱う能力を備えており、実用性が非常に高くなるようにすることができる。
【0082】
本実施形態の上述した言語モデルの訓練方法によれば、非構造化テキストデータであっても、構造化又は半構造化データであっても、同一の簡単なアーキテクチャでモデリングを実現することができる。各種類のデータは、事前訓練された言語モデルであるベースモデル上で少量のデータを用いて微調整するだけで、良い効果を得ることができる。
【0083】
本実施形態の言語モデルの訓練方法によれば、研究開発コストが低く、異なる分野のテキストフォーマットのサンプルデータを用いて言語モデルを微調整するだけで、業務ロジックに基づいて複雑なテンプレートやルールを作成する必要がなく、異なる分野のモデル移行を迅速に実現することができるため、人的コストや研究開発コストを大幅に節減することができる。すべてのタイプのデータについて、最も先端な事前訓練された言語モデルを使用可能であり、且つテキストデータの利点をデータ量の少ない他のタイプに移行することができるため、対応する言語処理の効果を効果的に向上させることができる。
【0084】
図3は本開示の第3実施形態による概略図である。
図3に示すように、本実施形態は、非テキストフォーマットのサンプルデータをテキストフォーマットのサンプルデータに変換する変換モジュール301と、変換されたテキストフォーマットのサンプルデータに基づいて言語モデルを訓練する訓練モジュール302とを備える言語モデルの訓練装置300を提供する。
【0085】
本実施形態の言語モデルの訓練装置300は、上述したモジュールを用いて言語モデルの訓練を実現する実現原理及び技術的効果は、上述した関連方法の実施形態の実現と同様である。詳細は上記関連方法の実施形態の記載を参照することができるので、ここでは詳しく説明しない。
【0086】
図4は本開示の第4実施形態による概略図である。
図4に示すように、本実施形態は、上述した
図3と同名且つ同機能のモジュールである変換モジュール401及び訓練モジュール402を備える言語モデルの訓練装置400を提供する。
【0087】
本実施形態では、変換モジュール401は、非テキストフォーマットのサンプルデータに構造化データが含まれる場合、構造化データにおける各部分のデータを連結してテキストフォーマットのサンプルデータに変換し、或いは、非テキストフォーマットのサンプルデータにピクチャが含まれる場合、ピクチャに対応する文字を抽出してテキストフォーマットのサンプルデータを得る。
【0088】
さらに、本開示の一実施形態では、変換モジュール401は、光学文字認識方法を用いて、ピクチャにおける文字を認識してテキストフォーマットのサンプルデータを得、及び/又は、事前訓練された情報抽出モデルを用いて、ピクチャに対応する文字を抽出してテキストフォーマットのサンプルデータを得る。
【0089】
さらに、
図4に示すように、本実施形態の言語モデルの訓練装置400は、オンラインログからユーザがクリックした非テキストフォーマットのサンプルデータを正のサンプルデータとしてマイニングするマイニングモジュール403を備えて良い。
【0090】
さらに、
図4に示すように、本実施形態の言語モデルの訓練装置400は、検出モジュール404を備えて良い。
【0091】
検出モジュール404は、所定シナリオのテストセットに基づいて、訓練された言語モデルの正確性が第1所定要件を満たしているか否かを検出する。所定シナリオは、非テキストフォーマットのサンプルデータが適用されるシナリオである。
【0092】
マイニングモジュール403は、更に、満たされていない場合に所定シナリオのサンプルデータをマイニングする。
【0093】
訓練モジュール402は、所定シナリオのサンプルデータに基づいて言語モデルを訓練する。
【0094】
さらに、本開示の一実施形態では、検出モジュール404は、さらに、言語モデルがセマンティック検索モデルである場合に、セマンティック検索のテストセットとオリジナルセマンティック検索モデルとに基づいて、セマンティック検索モデルのリコール結果が第2所定要件内にあるか否かを検出する。オリジナルセマンティック検索モデルは、ソースデータがテキストフォーマットのサンプルデータで訓練された。
【0095】
訓練モジュール402は、更に、否定の場合にリコール結果に基づいてセマンティック検索モデルを訓練する。
【0096】
さらに、本開示の一実施形態では、本実施形態の言語モデルの訓練装置400は、取得モジュール405を備えて良い。
【0097】
取得モジュール405は、異なる設定における複数の参照言語モデルを取得する。
【0098】
検出モジュール404は、更に、テストセットのテストサンプルと複数の参照モデルとに基づいて、言語モデルの処理能力が第3所定要件を満たしているかどうかを検出する。
【0099】
訓練モジュール402は、更に、満たされていない場合にテストサンプルに基づいて言語モデルを訓練する。
【0100】
更に、本開示の一実施形態では、検出モジュール404は、テストセットにおけるテストサンプルに基づいて、言語モデルに対応するテスト処理結果を取得し、テストサンプルと複数の参照言語モデルとに基づいて、総合処理結果を取得し、総合処理結果とテスト処理結果とに基づいて、言語モデルの処理能力が第3所定要件を満たしているか否かを検出する。
【0101】
さらに、本開示の一実施形態では、訓練モジュールは、変換されたテキストフォーマットのサンプルデータに基づいて、事前訓練された言語モデルを微調整する。
【0102】
本実施形態の言語モデルの訓練装置400は、上記モジュールを用いて言語モデルの訓練を実現する実現原理及び技術的効果は、上記関連方法の実施形態の実現と同様である。詳細は上記関連方法の実施形態の記載を参照することができるので、ここでは詳しく説明しない。
【0103】
本開示の技術案において、関わるユーザの個人情報の取得、記憶及び応用等は、いずれも関連法律法規の規定に適合しており、公序良俗に反するものではない。
【0104】
本開示の実施形態によれば、本開示は更に、電子デバイス、可読記憶媒体、及びコンピュータプログラム製品を提供する。
【0105】
図5は、本開示の実施形態を実施可能な例示的な電子デバイス500の概略的なブロック図を示した。電子デバイスは、ラップトップ、デスクトップコンピュータ、ワークベンチ、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータのような、様々な形態のデジタルコンピュータを表す。電子デバイスは更に、PDA、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すことができる。本明細書に示す構成要素、それらの接続及び関係、ならびにそれらの機能は、単なる一例であり、本明細書に記載及び/又は要求された本開示の実現を制限することではない。
【0106】
図5に示すように、デバイス500は、読み取り専用メモリ(ROM)502に記憶されたコンピュータプログラム、又は記憶手段508からランダムアクセスメモリ(RAM)503にロードされたコンピュータプログラムに従って、様々な適切な動作及び処理を実行することができる演算手段501を含む。RAM503には、デバイス500の動作に必要な各種のプログラムやデータが記憶されてもよい。演算手段501、ROM502及びRAM503は、バス504を介して接続されている。入出力(I/O)インターフェース505もバス504に接続されている。
【0107】
例えばキーボード、マウス等の入力手段506と、例えば様々なタイプのディスプレイ、スピーカ等の出力手段507と、例えば磁気ディスク、光ディスク等の記憶手段508と、例えばネットワークカード、モデム、無線通信トランシーバなどの通信手段509を含むデバイス500の複数の構成要素は、I/Oインターフェース505に接続される。通信手段509は、デバイス500が例えばインターネットのコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して他のデバイスと情報/データを交換することを可能にする。
【0108】
演算手段501は、処理能力及び演算能力を有する様々な汎用及び/又は専用の処理コンポーネントであってよい。演算手段501のいくつかの例は、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、様々な専用の人工知能(AI)演算チップ、機械学習モデルアルゴリズムを実行する様々な演算ユニット、デジタル信号プロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。演算手段501は、上述した様々な方法及び処理、例えば本開示の前記方法を実行する。例えば、幾つかの実施形態では、本開示の前記方法は、例えば記憶手段508のような機械可読媒体に物理的に組み込まれたコンピュータソフトウェアプログラムとして実装されてもよい。幾つかの実施形態では、コンピュータプログラムの一部又は全部は、ROM502及び/又は通信手段509を介してデバイス500にロード及び/又はインストールすることができる。コンピュータプログラムがRAM503にロードされ、演算手段501により実行されると、前記本開示の上記方法の1つ又は複数のステップを実行することができる。代替的に、他の実施形態では、演算手段501は、本開示の前記方法を実行するように、他の任意の適切な方法で(例えば、ファームウェアを介する)構成されてもよい。
【0109】
本明細書で前述したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、専用集積回路(ASIC)、専用標準製品(ASSP)、システムオンチップシステム(SOC)、ロードプログラマブル論理デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はこれらの組み合わせにおいて実装されてもよい。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含んで良い。当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び/又は解釈することができる。当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであって、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置にデータ及び命令を転送することができる。
【0110】
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせを用いて記述することができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供することにより、プログラムコードがプロセッサ又はコントローラにより実行されると、フローチャート及び/又はブロック図に指定された機能/動作を実行するようにすることができる。プログラムコードは、全てがマシン上で実行されても良く、一部がマシン上で実行されても良く、スタンドアロンパッケージとして一部的にマシン上で実行され且つ一部的にリモートマシン上で実行され、或いは全てがリモートマシン又はサーバ上で実行されても良い。
【0111】
本開示の文脈では、機械可読媒体は、有形の媒体であって、命令実行システム、装置又はデバイスにより使用され、或いは命令実行システム、装置又はデバイスと合わせて使用されるプログラムを含むか記憶することができる。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってよい。機械可読媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体的なシステム、装置又はデバイス、あるいはこれらの任意の適切な組み合わせを含んで良いが、これらに限定されない。機械可読記憶媒体のより具体的な例は、1つ又は複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、携帯型コンパクトディスク読み取り専用メモリ(CD‐ROM)、光学記憶装置、磁気記憶装置、又はこれらの任意の適切な組み合わせを含む。
【0112】
ユーザとのインタラクションを提供するために、本明細書に記載されたシステム及び技術は、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、ユーザにより入力をコンピュータに提供するキーボード及びポインティングデバイス(例えば、マウス又はトラックボール)と備えるコンピュータ上に実施されてよい。他の種類の装置は、ユーザとのインタラクションを提供するためにも使用され得る。例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であって良く、ユーザからの入力を任意の形式(音入力、音声入力、又は触覚入力を含む)で受信して良い。
【0113】
本明細書に記載されたシステム及び技術は、バックエンド構成要素を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア構成要素を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド構成要素を含むコンピューティングシステム(例えば、グラフィカルユーザインターフェースもしくはウェブブラウザを有するクライアントコンピュータであり、ユーザは、当該グラフィカルユーザインターフェースもしくは当該ウェブブラウザを通じて本明細書で説明されるシステムと技術の実施形態とインタラクションすることができる)、そのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムに実施されることが可能である。システムの構成要素は、任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によって相互に接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク(「LAN」)、ワイド・エリア・ネットワーク(「WAN」)、インターネットワークを含む。
【0114】
コンピュータシステムは、クライアントとサーバを含み得る。クライアントとサーバは、一般的に互いから遠く離れており、通常は、通信ネットワークを通じてインタラクトする。クライアントとサーバとの関係は、相応するコンピュータ上で実行され、互いにクライアント-サーバの関係を有するコンピュータプログラムによって生じる。サーバはクラウドサーバであっても良く、分散システムのサーバであっても良く、ブロックチェーンを組み合わせたサーバであってもよい。
【0115】
以上で示された様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除できることを理解されたい。例えば、本出願に説明される各ステップは、並列の順序又は順次的な順序で実施されてもよいし、又は異なる順序で実行されてもよく、本出願で開示された技術案の望ましい結果が達成できる限り、ここで制限されない。
【0116】
上記の具体的な実施形態は本出願の保護範囲に対する制限を構成しない。設計要件及び他の要因に従って、様々な修正、組み合わせ、部分的組み合わせ及び置換を行うことができることを当業者は理解するべきである。本出願の精神及び原則の範囲内で行われる修正、同等の置換、改善は、何れも本出願の保護範囲内に含まれるべきである。