IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社リコーの特許一覧

特開2023-181109モデル訓練方法、装置およびコンピュータ読み取り可能な記憶媒体
<>
  • 特開-モデル訓練方法、装置およびコンピュータ読み取り可能な記憶媒体 図1
  • 特開-モデル訓練方法、装置およびコンピュータ読み取り可能な記憶媒体 図2
  • 特開-モデル訓練方法、装置およびコンピュータ読み取り可能な記憶媒体 図3
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023181109
(43)【公開日】2023-12-21
(54)【発明の名称】モデル訓練方法、装置およびコンピュータ読み取り可能な記憶媒体
(51)【国際特許分類】
   G06F 40/216 20200101AFI20231214BHJP
   G06N 20/00 20190101ALI20231214BHJP
【FI】
G06F40/216
G06N20/00
【審査請求】有
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2023089342
(22)【出願日】2023-05-31
(31)【優先権主張番号】202210658409.7
(32)【優先日】2022-06-10
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】000006747
【氏名又は名称】株式会社リコー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】ルゥ ルオ
(72)【発明者】
【氏名】ビヌ ドォン
(72)【発明者】
【氏名】シャヌシャヌ ジアン
(72)【発明者】
【氏名】レイ ディン
(72)【発明者】
【氏名】ヨンウエイ ジャン
(57)【要約】      (修正有)
【課題】ラベル単語のカバー不十分による影響を軽減し、さらに予備訓練言語モデルの性能を向上させる。
【解決手段】モデル訓練方法は、異なるラベルにおける複数のラベル単語を取得し、ラベル毎にラベル単語の平均ベクトルを算出して単語平均ベクトルが得られるステップ11と、入力テキストにマスキングによりカバーされる予測単語を含むマスキングテキストを挿入して予測テキストを生成するためのテンプレートを構築するステップ12と、第1の訓練サンプルを用いて予備訓練言語モデルを訓練し、予備訓練言語モデルを用いて第1の予測テキストにおける予測単語の単語ベクトルを生成し、予測単語の単語ベクトルとラベル毎の単語平均ベクトルとの類似度に基づいて、第1の訓練サンプルの予測ラベルを決定し、第1の訓練サンプルの予測ラベルとラベリングされたラベルに基づいて、予備訓練言語モデルを最適化するステップ13と、を含む。
【選択図】図1
【特許請求の範囲】
【請求項1】
異なるラベルにおける複数のラベル単語を取得し、ラベル毎にラベル単語の平均ベクトルを算出して単語平均ベクトルを取得するステップと、
テンプレートを構築するステップであって、前記テンプレートは、入力テキストにマスキングテキストを挿入して予測テキストを生成するために使用され、前記マスキングテキストは、マスキングによりカバーされる予測単語を含む、ステップと、
ラベリングされた複数の第1の訓練サンプルを含む第1の訓練集を用いて予備訓練言語モデルを訓練するステップと、を含み、
前記予備訓練言語モデルを訓練するステップは、
前記第1の訓練サンプルを入力テキストとして、前記テンプレートに基づいて第1の予測テキストを生成することと、
前記予備訓練言語モデルを用いて前記第1の予測テキストにおける予測単語の単語ベクトルを生成し、前記予測単語の単語ベクトルと各ラベルの単語平均ベクトルとの類似度に基づいて、前記第1の訓練サンプルの予測ラベルを決定することと、
前記第1の訓練サンプルの予測ラベルとラベリングされたラベルに基づいて、前記予備訓練言語モデルを最適化することと、を含むことを特徴とするモデル訓練方法。
【請求項2】
前記予測単語の単語ベクトルと各ラベルの単語平均ベクトルとの類似度に基づいて、前記第1の訓練サンプルの予測ラベルを決定することは、
前記予測単語の単語ベクトルと各ラベルの単語平均ベクトルとの距離を計算し、最小距離を選択することと、
前記最小距離に対応するラベルを、前記第1の訓練サンプルの予測ラベルとすることと、含むことを特徴とする請求項1に記載のモデル訓練方法。
【請求項3】
前記第1の訓練集を用いて1つの予備訓練言語モデルを訓練した後に、
ラベリングされていない複数のラベルの第2の訓練サンプルを取得するステップと、
前記予備訓練言語モデルを用いて前記第2の訓練サンプルの予測ラベルを決定するステップと、
決定された前記第2の訓練サンプルの予測ラベルに基づいて、前記第2の訓練サンプルをラベリングし、第2の訓練集を生成するステップと、を更に含むことを特徴とする請求項1に記載のモデル訓練方法。
【請求項4】
複数の前記テンプレートを構築し、
異なるテンプレートに応じて異なる予測テキストを生成し、
前記テンプレート毎に、それぞれ、前記第1の訓練集を用いて1つの予備訓練言語モデルを訓練して、複数の予備訓練言語モデルを取得し、
前記予備訓練言語モデルを用いて前記第2の訓練サンプルの予測ラベルを決定するステップは、
各予備訓練言語モデルにより、第2の訓練サンプルの各ラベルにおける確率を決定することと、
前記確率が最大のラベルを前記第2の訓練サンプルの予測ラベルとすることと、を含むことを特徴とする請求項3に記載のモデル訓練方法。
【請求項5】
複数の前記テンプレートを構築し、
異なるテンプレートに応じて異なる予測テキストを生成し、
前記テンプレート毎に、それぞれ、前記第1の訓練集を用いて1つの予備訓練言語モデルを訓練して、複数の予備訓練言語モデルを取得し、
前記予備訓練言語モデルを用いて前記第2の訓練サンプルの予測ラベルを決定するステップは、
テスト集を用いて、予備訓練言語モデル毎にラベル予測の正確性指標を測定し、前記正確性指標に基づいて、予備訓練言語モデル毎に前記正確性指標に正の相関がある重みを設定することと、
各予備訓練言語モデルを用いて、第2の訓練サンプルの各ラベルにおける確率を決定することと、
ラベル毎に、前記予備訓練言語モデルの重みに基づいて、予備訓練言語モデル毎に決定された前記第2の訓練サンプルの前記ラベルにおける確率を重み付け加算し、前記第2の訓練サンプルの前記ラベルにおける確率統計値を算出することと、
前記確率統計値が最大のラベルを前記第2の訓練サンプルの予測ラベルとすることと、を含むことを特徴とする請求項3に記載のモデル訓練方法。
【請求項6】
前記第2の訓練集を生成した後、前記第2の訓練集を用いて、最終の予備訓練言語モデルを訓練するステップ、を更に含むことを特徴とする請求項3から5のいずれか1項に記載のモデル訓練方法。
【請求項7】
異なるラベルにおける複数のラベル単語を取得し、ラベル毎にラベル単語の平均ベクトルを算出して単語平均ベクトルを取得する計算モジュールと、
テンプレートを構築する構築モジュールであって、前記テンプレートは、入力テキストにマスキングテキストを挿入して予測テキストを生成するために使用され、前記マスキングテキストは、マスキングによりカバーされる予測単語を含む、構築モジュールと、
ラベリングされた複数の第1の訓練サンプルを含む第1の訓練集を用いて予備訓練言語モデルを訓練する第1の訓練モジュールと、を含み、
前記第1の訓練モジュールは、
前記第1の訓練サンプルを入力テキストとして、前記テンプレートに基づいて第1の予測テキストを生成し、
前記予備訓練言語モデルを用いて前記第1の予測テキストにおける予測単語の単語ベクトルを生成し、前記予測単語の単語ベクトルと各ラベルの単語平均ベクトルとの類似度に基づいて、前記第1の訓練サンプルの予測ラベルを決定し、
前記第1の訓練サンプルの予測ラベルとラベリングされたラベルに基づいて、前記予備訓練言語モデルを最適化することを特徴とするモデル訓練装置。
【請求項8】
前記第1の訓練モジュールは、前記予測単語の単語ベクトルと各ラベルの単語平均ベクトルとの類似度に基づいて、前記第1の訓練サンプルの予測ラベルを決定する際に、
前記予測単語の単語ベクトルと各ラベルの単語平均ベクトルとの距離を計算し、最小距離を選択し、
前記最小距離に対応するラベルを、前記第1の訓練サンプルの予測ラベルとすることを特徴とする請求項7に記載のモデル訓練装置。
【請求項9】
ラベリングされていない複数のラベルの第2の訓練サンプルを取得する第1の取得モジュールと、
前記予備訓練言語モデルを用いて前記第2の訓練サンプルの予測ラベルを決定し、決定された前記第2の訓練サンプルの予測ラベルに基づいて、前記第2の訓練サンプルをラベリングし、第2の訓練集を生成するサンプル生成モジュールと、を更に含むことを特徴とする請求項7に記載のモデル訓練装置。
【請求項10】
前記構築モジュールは、複数の前記テンプレートを構築し、
異なるテンプレートに応じて異なる予測テキストを生成し、
前記第1の訓練モジュールは、前記テンプレート毎に、それぞれ、前記第1の訓練集を用いて1つの予備訓練言語モデルを訓練して、複数の予備訓練言語モデルを取得し、
前記サンプル生成モジュールは、
各予備訓練言語モデルにより、第2の訓練サンプルの各ラベルにおける確率を決定し、前記確率が最大のラベルを前記第2の訓練サンプルの予測ラベルとする第1ラベル生成サブモジュール、を含むことを特徴とする請求項9に記載のモデル訓練装置。
【請求項11】
前記構築モジュールは、複数の前記テンプレートを構築し、
異なるテンプレートに応じて異なる予測テキストを生成し、
前記第1の訓練モジュールは、前記テンプレート毎に、それぞれ、前記第1の訓練集を用いて1つの予備訓練言語モデルを訓練して、複数の予備訓練言語モデルを取得し、
前記サンプル生成モジュールは、
テスト集を用いて、予備訓練言語モデル毎にラベル予測の正確性指標を測定し、前記正確性指標に基づいて、予備訓練言語モデル毎に前記正確性指標に正相関付けられる重みを設定し、各予備訓練言語モデルを用いて、第2の訓練サンプルの各ラベルにおける確率を決定し、ラベル毎に、前記予備訓練言語モデルの重みに基づいて、予備訓練言語モデル毎に決定された前記第2の訓練サンプルの前記ラベルにおける確率を重み付け加算し、前記第2の訓練サンプルの前記ラベルにおける確率統計値を算出し、前記確率統計値が最大のラベルを前記第2の訓練サンプルの予測ラベルとする第2のラベル生成サブモジュール、を含むことを特徴とする請求項9に記載のモデル訓練装置。
【請求項12】
前記第2の訓練集を用いて、最終の予備訓練言語モデルを訓練する第2の訓練モジュール、を更に含むことを特徴とする請求項9から11のいずれか1項に記載のモデル訓練装置。
【請求項13】
コンピュータプログラムが記憶され、前記コンピュータプログラムがプロセッサによって実行されることにより、請求項1から6のいずれか1項に記載のモデル訓練方法のステップが実現されることを特徴とするコンピュータ読み取り可能な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は機械学習と自然言語処理(NLP、Natural Language Processing)に関し、具体的にモデル訓練方法、装置およびコンピュータ読み取り可能な記憶媒体に関する。
【背景技術】
【0002】
予備訓練モデルは、大量のデータで訓練され保存されたネットワークであり、類似する問題を解決するために作られたモデルとして理解されてよいものである。モデルがあれば、新しい問題が発生した時に、0から新しいモデルを訓練する必要がなく、直接にこのモデルから着手し、モデルの微調整を通じて簡単な学習を行うだけで新しい問題を解決できる。
【0003】
予備訓練モデルはマイグレーション学習の応用である。ニューラルネットワークは、データを用いてモデルを学習する際に、データから情報を取得し、その本質は多層ネットワーク1つ分の重みである。重みを抽出して他のネットワークに移動すると、他のネットワークはそのネットワークの特徴とそれが持つ知識を学習する。自然言語処理の分野において、単語埋め込み手法により処理する単語をベクトルに変換し、Transformersの枠組みに基づく手法を用いて単語ベクトルを訓練して予備訓練モデルを得、訓練された予備訓練モデルを微調整し、すなわち、具体的なタスクに対して修正を行うことができる。自然言語処理の分野において、予備訓練モデルは予備訓練言語モデル(Pre-trained Language Model、PLM)とも呼ばれる。
【0004】
タスク固有のプロンプト(Prompt)を構築して予備訓練言語モデルを調整することは、テキスト分類タスクにおける有望な手法(Prompt-tuning)である。テキスト分類タスクでは、シソーラスを構築することにより、分類問題を予測やラベル関連語の問題に変換することができる。したがって、このような問題に対して、マスク[MASK]を含むテンプレートを作成し、予備訓練言語モデルに[MASK]の位置にある単語を予測させる。これにより、分類タスクはマスキング言語モデリング問題に変わる。
【0005】
Prompt-tuningの中心的なアイデアは、入力にテキストフラグメント(テンプレート)を挿入し、分類問題をマスキング言語モデリング問題に変えることである。この発想のポイントは、言語表現器を使用することである。すなわち、ラベル単語空間(word space)とラベル空間(label space)間のマッピングを構築することである。現在、言語表現器は通常に手作業による構築または勾配降下による検索し、含まれるラベル単語の数量は通常に限られるため、ラベル毎にラベル単語をすべてカバーしかねる場合がある。そのため、カバー範囲が限られることにより、予測結果に大きな偏りと高分散が生じる。
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明の実施例が解決しようとする技術問題は、モデル訓練方法、装置およびコンピュータ読み取り可能な記憶媒体を提供し、より多くのサンプルをラベルにマッピングし、ラベル単語のカバーが不十分による影響を軽減し、予備訓練言語モデルの性能を向上させる。
【課題を解決するための手段】
【0007】
本発明の一つの実施形態によれば、少なくとも一つの実施例は、異なるラベルにおける複数のラベル単語を取得し、ラベル毎にラベル単語の平均ベクトルを算出して単語平均ベクトルを取得するステップと、テンプレートを構築するステップであって、前記テンプレートは、入力テキストにマスキングテキストを挿入して予測テキストを生成するために使用され、前記マスキングテキストは、マスキングによりカバーされる予測単語を含む、ステップと、ラベリングされた複数の第1の訓練サンプルを含む第1の訓練集を用いて予備訓練言語モデルを訓練するステップと、を含み、前記予備訓練言語モデルを訓練するステップは、前記第1の訓練サンプルを入力テキストとして、前記テンプレートに基づいて第1の予測テキストを生成することと、前記予備訓練言語モデルを用いて前記第1の予測テキストにおける予測単語の単語ベクトルを生成し、前記予測単語の単語ベクトルと各ラベルの単語平均ベクトルとの類似度に基づいて、前記第1の訓練サンプルの予測ラベルを決定することと、前記第1の訓練サンプルの予測ラベルとラベリングされたラベルに基づいて、前記予備訓練言語モデルを最適化することと、を含むことを特徴とするモデル訓練方法を提供する。
【0008】
また、本発明の少なくとも一つの実施例によれば、前記予測単語の単語ベクトルと各ラベルの単語平均ベクトルとの類似度に基づいて、前記第1の訓練サンプルの予測ラベルを決定することは、前記予測単語の単語ベクトルと各ラベルの単語平均ベクトルとの距離を計算し、最小距離を選択することと、前記最小距離に対応するラベルを、前記第1の訓練サンプルの予測ラベルとすることと、含む。
【0009】
また、本発明の少なくとも一つの実施例によれば、前記第1の訓練集を用いて1つの予備訓練言語モデルを訓練した後に、ラベリングされていない複数のラベルの第2の訓練サンプルを取得するステップと、前記予備訓練言語モデルを用いて前記第2の訓練サンプルの予測ラベルを決定するステップと、決定された前記第2の訓練サンプルの予測ラベルに基づいて、前記第2の訓練サンプルをラベリングし、第2の訓練集を生成するステップと、を更に含む。
【0010】
また、本発明の少なくとも一つの実施例によれば、複数の前記テンプレートを構築し、異なるテンプレートに応じて異なる予測テキストを生成し、前記テンプレート毎に、それぞれ、前記第1の訓練集を用いて1つの予備訓練言語モデルを訓練して、複数の予備訓練言語モデルを取得し、前記予備訓練言語モデルを用いて前記第2の訓練サンプルの予測ラベルを決定するステップは、各予備訓練言語モデルにより、第2の訓練サンプルの各ラベルにおける確率を決定することと、前記確率が最大のラベルを前記第2の訓練サンプルの予測ラベルとすることと、を含む。
【0011】
また、本発明の少なくとも一つの実施例によれば、複数の前記テンプレートを構築し、異なるテンプレートに応じて異なる予測テキストを生成し、前記テンプレート毎に、それぞれ、前記第1の訓練集を用いて1つの予備訓練言語モデルを訓練して、複数の予備訓練言語モデルを取得し、前記予備訓練言語モデルを用いて前記第2の訓練サンプルの予測ラベルを決定するステップは、テスト集を用いて、予備訓練言語モデル毎にラベル予測の正確性指標を測定し、前記正確性指標に基づいて、予備訓練言語モデル毎に前記正確性指標に正の相関がある重みを設定することと、各予備訓練言語モデルを用いて、第2の訓練サンプルの各ラベルにおける確率を決定することと、ラベル毎に、前記予備訓練言語モデルの重みに基づいて、予備訓練言語モデル毎に決定された前記第2の訓練サンプルの前記ラベルにおける確率を重み付け加算し、前記第2の訓練サンプルの前記ラベルにおける確率統計値を算出することと、前記確率統計値が最大のラベルを前記第2の訓練サンプルの予測ラベルとすることと、を含む。
【0012】
また、本発明の少なくとも一つの実施例によれば、前記第2の訓練集を生成した後、前記第2の訓練集を用いて、最終の予備訓練言語モデルを訓練するステップ、を更に含む。
【0013】
本発明の別の側面によれば、少なくとも一つの実施例は、異なるラベルにおける複数のラベル単語を取得し、ラベル毎にラベル単語の平均ベクトルを算出して単語平均ベクトルを取得する計算モジュールと、テンプレートを構築する構築モジュールであって、前記テンプレートは、入力テキストにマスキングテキストを挿入して予測テキストを生成するために使用され、前記マスキングテキストは、マスキングによりカバーされる予測単語を含む、構築モジュールと、ラベリングされた複数の第1の訓練サンプルを含む第1の訓練集を用いて予備訓練言語モデルを訓練する第1の訓練モジュールと、を含み、前記第1の訓練モジュールは、前記第1の訓練サンプルを入力テキストとして、前記テンプレートに基づいて第1の予測テキストを生成し、前記予備訓練言語モデルを用いて前記第1の予測テキストにおける予測単語の単語ベクトルを生成し、前記予測単語の単語ベクトルと各ラベルの単語平均ベクトルとの類似度に基づいて、前記第1の訓練サンプルの予測ラベルを決定し、前記第1の訓練サンプルの予測ラベルとラベリングされたラベルに基づいて、前記予備訓練言語モデルを最適化することを特徴とするモデル訓練装置を提供する。
【0014】
また、本発明の少なくとも一つの実施例によれば、前記第1の訓練モジュールは、前記予測単語の単語ベクトルと各ラベルの単語平均ベクトルとの類似度に基づいて、前記第1の訓練サンプルの予測ラベルを決定する際に、前記予測単語の単語ベクトルと各ラベルの単語平均ベクトルとの距離を計算し、最小距離を選択し、前記最小距離に対応するラベルを、前記第1の訓練サンプルの予測ラベルとする。
【0015】
また、本発明の少なくとも一つの実施例によれば、ラベリングされていない複数のラベルの第2の訓練サンプルを取得する第1の取得モジュールと、前記予備訓練言語モデルを用いて前記第2の訓練サンプルの予測ラベルを決定し、決定された前記第2の訓練サンプルの予測ラベルに基づいて、前記第2の訓練サンプルをラベリングし、第2の訓練集を生成するサンプル生成モジュールと、を更に含む。
【0016】
また、本発明の少なくとも一つの実施例によれば、前記構築モジュールは、複数の前記テンプレートを構築し、異なるテンプレートに応じて異なる予測テキストを生成し、前記第1の訓練モジュールは、前記テンプレート毎に、それぞれ、前記第1の訓練集を用いて1つの予備訓練言語モデルを訓練して、複数の予備訓練言語モデルを取得し、前記サンプル生成モジュールは、各予備訓練言語モデルにより、第2の訓練サンプルの各ラベルにおける確率を決定し、前記確率が最大のラベルを前記第2の訓練サンプルの予測ラベルとする第1ラベル生成サブモジュール、を含む。
【0017】
また、本発明の少なくとも一つの実施例によれば、前記構築モジュールは、複数の前記テンプレートを構築し、異なるテンプレートに応じて異なる予測テキストを生成し、前記第1の訓練モジュールは、前記テンプレート毎に、それぞれ、前記第1の訓練集を用いて1つの予備訓練言語モデルを訓練して、複数の予備訓練言語モデルを取得し、前記サンプル生成モジュールは、テスト集を用いて、予備訓練言語モデル毎にラベル予測の正確性指標を測定し、前記正確性指標に基づいて、予備訓練言語モデル毎に前記正確性指標に正相関付けられる重みを設定し、各予備訓練言語モデルを用いて、第2の訓練サンプルの各ラベルにおける確率を決定し、ラベル毎に、前記予備訓練言語モデルの重みに基づいて、予備訓練言語モデル毎に決定された前記第2の訓練サンプルの前記ラベルにおける確率を重み付け加算し、前記第2の訓練サンプルの前記ラベルにおける確率統計値を算出し、前記確率統計値が最大のラベルを前記第2の訓練サンプルの予測ラベルとする第2のラベル生成サブモジュール、を含む。
【0018】
また、本発明の少なくとも一つの実施例によれば、前記第2の訓練集を用いて、最終の予備訓練言語モデルを訓練する第2の訓練モジュール、を更に含む。
【0019】
さらに、本発明はコンピュータプログラムが記憶され、前記コンピュータプログラムがプロセッサによって実行されることにより、上記のモデル訓練方法のステップが実現されることを特徴とするコンピュータ読み取り可能な記憶媒体を提供する。
【発明の効果】
【0020】
従来の技術と比べ、本発明の実施例に提供されるモデル訓練方法、装置およびコンピュータ読み取り可能な記憶媒体によれば、予測単語と各ラベルにおけるラベル単語の単語平均ベクトルとの類似度に基づいて、予測単語のラベルを特定することにより、より多くのサンプルをラベルにマッピングすることができ、ラベル単語のカバー不十分による影響を軽減し、さらに予備訓練言語モデルの性能を向上させることができる。また、本発明の実施例によれば、ラベリングによって、より多くのサンプルを有する第2の訓練集を生成することにより、訓練集を拡大してモデルを訓練することができ、小サンプル問題をよりよく解決される。
【図面の簡単な説明】
【0021】
本発明の実施例をより明瞭に説明するために、以下に使用される図面を簡単に説明する。以下に説明する図面は、本発明の一部の実施例に過ぎないことは明らかであり、本分野の普通の技術者にとって、創造的労働性を支払わない前提で、これらの図面にから別の図面を獲得することは、当業者にとって容易に想到される。
【0022】
図1図1は本発明の実施例にかかるモデル訓練方法を示すフロー図である。
【0023】
図2図2は本発明の実施例にかかるモデル訓練装置の構造を示す図である。
【0024】
図3図3は本発明の実施例にかかるモデル訓練装置のもう一つの構成を示す図である。
【発明を実施するための形態】
【0025】
以下に、本発明と本発明が解決しようとする技術問題、及び本発明の長所をより明確にするために、図面に合わせて実施例を説明する。以下の説明に、具体的な構成と要素のような特定な詳細を提供するが、あくまでも本発明の実施例を理解することを助けるために過ぎない。このため、本発明の範疇と趣旨から逸脱することなく、ここに記述された実施例に対して様々な変更と修正を行うことができることは、当業者に明らかである。また、分かりやすく簡潔にするために、既知の機能と構造の説明を省略する。
【0026】
明細書の全文に渡って言及される「一つの実施例」或は「一実施例」は実施例に関わる特定の特徴、構造或は特性が本発明の少なくとも一つの実施例に含まれることを意味する。そのため、明細書全文に到るところに記載される「一つの実施例の中」或は「一実施例の中」は必ずしも同じ実施例を指すとは限らない。また、これらの特定の特徴、構造又は特性は任意の方式で一つ或は複数の実施例に適宜組み合わせることができる。
【0027】
本発明の各実施例において、後述する各ステップの番号は実行する順を意味するものではない。各ステップの実行順はその機能と内在的ロジックによって確定されるべきであり、本発明の実施例のステップをいかなる限定をするものではない。
【0028】
現在、言語表現器に含まれるラベル単語の数は比較的に制限されているため、予測結果にかなりの偏差と高い分散をもたらす場合がある。ラベル単語空間中のラベル単語が少ないことにより引き起こされる前記問題を回避するために、本発明の実施例はモデル訓練方法を提供することで、より多くのサンプルをラベルにマッピングすることにより、ラベル単語のカバー不十分による不利な影響を軽減し、予備訓練言語モデルの性能を向上させることができる。
【0029】
図1に示すように、本発明の実施例は、モデル訓練方法を提供する。該方法は、以下のステップを含む。
【0030】
ステップ11において、異なるラベルにおける複数のラベル単語を取得し、ラベル毎にラベル単語の平均ベクトルを算出して単語平均ベクトルが得られる。
【0031】
ここで、本発明の実施例は、複数のラベル及び各ラベルにおける複数のラベル単語が定義される言語表現器を構築する。すべてのラベルにおけるラベル単語がラベル単語空間を構成し、すべてのラベルがラベル空間を構成する。すなわち、言語表現器はラベル単語空間におけるラベル単語とラベル空間におけるラベルとの単射マッピング関係であるマッピング関係を確立し、すなわち、ラベル単語に対してラベル空間に対応するラベルが一つしか存在しない。
【0032】
テキスト分類タスクの具体的な応用シーンに応じて、対応するラベルを複数に設定する。そして、あるラベルの意味を含む単語を当該ラベルのラベル単語とすることにより、ラベルとラベル単語のマッピング関係を形成する。例えば、映画評価の感情を分類する応用シーンの場合、映画評価のラベルは通常Positive(肯定)とNegative(否定)の2種類がある。このうち、Positiveのラベルにはexciting、good、fantastic、interesting……、Negativeのラベルにはbad、terrible、boring……というラベルを含み、表1に示すように、異なるラベルにおける複数のラベル単語がある。
【0033】
【表1】
本発明の実施例は、ラベル単語空間におけるラベル単語がラベルにおけるすべてのラベル単語をカバーしきれないことの影響を軽減するために、ラベル毎に、前記ラベルにおけるすべてのラベル単語の平均ベクトルを算出して、前記ラベルの単語平均ベクトルとし、後続のラベルマッピングに用いる。
【0034】
また、本発明の実施例は、ラベル単語の数をできるだけ増やすために、外部知識データベースを利用して言語表現器のラベル単語空間を拡張し、各ラベルにおけるラベル単語を増やす。知識データベースの構造は範囲関係を有する。知識データベースの図形構造では、関連する実体は辺で接続し、関連しない実体は複数のホップを経て関連を見つけるか、または関連がない。そのため、知識データベースの情報を融合すると、1つの分類に対して複数の単語を展開することができる。
【0035】
ステップ12において、入力テキストにマスキングによりカバーされる予測単語を含むマスキングテキストを挿入して予測テキストを生成するためのテンプレートを構築する。
【0036】
ここで、テンプレートは入力テキストにマスキングテキストを挿入して予測テキストを生成することにより、分類問題をマスキング言語モデリング問題に変わる。具体的には。入力テキストとテキスト分類結果からテンプレートを構成する。たとえば、文を分類する場合、次のテンプレートを構成する。
【0037】
A[MASK]question:x.
その中、[MASK]はマスクでカバーされる予測単語を表し、xは入力テキストを表す。
【0038】
続いて、上文中の映画評価の情緒の分類を例とする。この場合、入力テキストは映画評価テキストであり、[x]で示す。次のテンプレートを作成する。
【0039】
It
is a [MASK] movie,[x].
上記のテンプレートにおいて、マスクテキストは[MASK]で表される。
【0040】
映画評価テキストとして、「The movie is really boring.」がある場合、その映画評価テキストにマスクテキストを挿入し、次の予測テキストが生成される。
【0041】
It
is a [MASK] movie, The movie is really boring.
予測されるテキストを予備訓練言語モデルに入力し、予備訓練言語モデルによりマスクテキスト位置にある単語を予測し、予測された[MASK]位置の単語をboringとする。boringはNegativeラベルにおけるラベル単語であるため、この映画評価テキストは消極的な映画評価テキストとなる。
【0042】
本発明の実施例はテンプレートの形式に対して限定しない。また、本発明の実施例は様々な異なるテンプレートを構築してよい。テンプレートと言語表現器で1対のテンプレート-言語表現器ペア(pattern-verbalizer
pairs、PVP)を構成することができる。後述するように、PVP毎に予備訓練言語モデルを訓練しておくことができる。
【0043】
なお、上記のステップ11と12の間に厳密な実行順序はない。ステップ11を先に実行してからステップ12を実行してもよく、ステップ12を先に実行してからステップ11を実行してもよい。さらに、ステップ11とステップ12を同時に実行することもできる。
【0044】
ステップ13において、ラベリングされた複数の第1の訓練サンプルを含む第1の訓練集を用いて予備訓練言語モデルを訓練する。前記訓練は、前記第1の訓練サンプルを入力テキストとして、前記テンプレートに基づいて第1の予測テキストを生成し;前記予備訓練言語モデルを用いて前記第1の予測テキストにおける予測単語の単語ベクトルを生成し;前記予測単語の単語ベクトルとラベル毎の単語平均ベクトルとの類似度に基づいて、前記第1の訓練サンプルの予測ラベルを決定し;前記第1の訓練サンプルの予測ラベルとラベリングされたラベルに基づいて、前記予備訓練言語モデルを最適化する。
【0045】
ここで、前記予備訓練言語モデルは、通常に予め膨大なデータ集で訓練して得られたものであり、BERTモデル、Albertモデル、Robertaモデル、XLnetモデル等のいずれか一つを含むがこれに限定されない。本発明の実施例は、予備訓練言語モデルを訓練する時に、前記第1の訓練サンプルを入力テキストとし、前記テンプレートに基づいて前記第1の訓練サンプルにマスキングテキストを挿入して第1の予測テキストを生成する。第1の予測テキストを予備訓練言語モデルに入力し、前記予備訓練言語モデルが生成された前記第1の予測テキストにおける予測単語の単語ベクトルが得られる。
【0046】
次に、前記予測単語の単語ベクトルとラベル毎の単語平均ベクトルとの類似度を算出し、前記類似度によって前記第1の訓練サンプルの予測ラベルを決定する。例えば、前記予測単語の単語ベクトルとラベル毎の単語平均ベクトルとの距離を計算し、最小距離を選択し;前記最小距離に対応するラベルを、前記第1の訓練サンプルの予測ラベルとする。もちろん、算出された予測単語がちょうどラベル単語空間におけるラベル単語であれば、当該予測単語がそのラベル単語であると直接に確定してよい。
【0047】
好ましくは、本発明の実施例は距離閾値を設定する。前記最小距離が前記距離閾値以上の場合、前記最小距離に対応するラベルを、前記第1の訓練サンプルの予測ラベルとする;前記最小距離が前記距離閾値より大きい場合、前記第1の訓練サンプルに対応するラベルが存在しないと判断することにより、類似度が低すぎる予測単語をあるラベルであると判断することを回避することができる。
【0048】
次に、前記第1の訓練サンプルの予測ラベルとラベリングされたラベルに基づいて、前記予備訓練言語モデルを最適化する。例えば、第1の訓練サンプルの予測ラベルとラベリングされたラベルに基づいて、損失関数を計算する。逆伝播によってモデルパラメータを最適化する。具体的な損失関数の設定、パラメータ最適化および訓練終了条件などは関連する従来技術を参照して実現することができ、ここでは説明を省略する。
【0049】
以上のステップにより、本発明の実施例は、モデル訓練を行う時、予測された予測単語がラベル空間に存在するかどうかで予測単語のラベルを決定することなく、予測単語とラベル毎におけるラベル単語の単語平均ベクトルとの類似度に基づいて予測単語のラベルを決定する。このように、予測単語が、ラベル空間になくても、ラベル毎の単語平均ベクトルとの類似度に基づいて、正確に分類することができる。これによって、より多くのサンプルをラベルにマッピングすることができ、ラベル単語のカバー不十分による影響が軽減され、予備訓練言語モデルの性能が向上される。
【0050】
例えば、簡単な言語表現器である{科学}→科学とは、従来技術の場合、推定過程において、[MASK]としてラベリングされた予測単語が「科学」として予測される場合のみ正しいと判断され、予測結果は「物理」や「算術」などの他の科学に関連する単語が科学カテゴリに属するにもかかわらず、誤りと判断されることを意味する。本発明の実施例にかかる前記方法は、「物理」と「科学」の単語間の類似度を計算することによって、2つの単語の類似度が高いことが分かる。これにより、予測された[MASK]ラベルの単語は、ラベル単語空間になくしても、正確に分類することができる。
【0051】
また、別の例として、上記した映画評価の分類に適用されたシナリオにおいて、 [MASK]に位置する単語がWonderfulと予測されるが、WonderfulはPositiveやNegativeのラベルにおいて存在しないと仮定する。これに対して、本発明の実施例の場合は、「Wonderful」と「Positive」ラベルの単語平均ベクトルとの類似度を計算することで、両者の類似度が高いことを見いだせる。これによって、WonderfulがPositiveラベル単語空間に存在しなくても、Positiveに正しく分類することができる。
【0052】
本発明の実施例は、第1の訓練集を用いて一つの予備訓練言語モデルを訓練した後、前記予備訓練言語モデルを用いてより多くの訓練サンプルを含む第2の訓練集を生成する。
【0053】
具体的には、本発明の実施例は、ラベリングされない複数の第2の訓練サンプルを得;前記予備訓練言語モデルを用いて、前記第2の訓練サンプルの予測ラベルを決定し;決定された前記第2の訓練サンプルの予測ラベルに基づいて、前記第2の訓練サンプルをラベリングし、第2の訓練集を生成する。
【0054】
すなわち、本発明の実施例は、小サンプル訓練集(第1の訓練集)上で予備訓練言語モデルを訓練した後、さらにそのモデルを用いてラベリングされていない大きいサンプルの訓練集をラベリングして、訓練サンプル毎にラベル(ソフトラベル)を生成することにより、より大きい第2の訓練集を得る。さらに、本発明の実施例は、前記第2の訓練集を用いて、最終の予備訓練言語モデルを訓練することにより、訓練集を拡大してモデルを訓練し、小サンプル問題をよりうまく解決する。
【0055】
本発明の実施例は、複数の前記テンプレートを構築する。テンプレートによって異なる予測テキストが生成される。ここで、テンプレートによってマスキングテキストが異なり、及び・または、テンプレートによって入力テキストに挿入されるマスキングテキストの位置が異なる。その後、前記テンプレート毎に、前記第1の訓練集を用いて1つの予備訓練言語モデルを訓練し、複数の予備訓練言語モデルを得る。このように、テンプレートは言語表現器と共にテンプレート-言語表現器ペア(PVP)を構成する。PVP毎に1つの予備訓練言語モデルを訓練することで、異なるテンプレートに基づいて訓練された予備訓練言語モデルと組み合わせて第2の訓練集を生成することにより、各予備訓練言語モデルを用いて学習して得た知識を充分に利用し、ラベリングの正確性を向上させることができる。1つのPVPの信頼度は足りない可能性があるため、本発明の実施例は複数のPVPの結果を組み合わせることで、ラベリングの際に信頼度が比較的高い予測ラベルを得ることができる。
【0056】
訓練された複数の予備訓練言語モデルを用いて、前記第2の訓練サンプルの予測ラベルを決定する場合に、異なる複数の方式がある。
【0057】
例えば、各予備訓練言語モデルを用いて、第2の訓練サンプルの各ラベルにおける確率を決定する;そして、前記確率が最大のラベルを前記第2の訓練サンプルの予測ラベルとする。
【0058】
また、例えば、テスト集を用いて、予備訓練言語モデル毎にラベル予測の正確性指標を測定し、前記正確性指標に基づいて、予備訓練言語モデル毎に前記正確性指標に重みを設定する。前記重みは前記正確性指標と正の相関を有する。すなわち、正確性指標が高ければ、重みが大きくなり、逆に、正確性指標が低ければ、重みが小さくなる。各予備訓練言語モデルを用いて、第2の訓練サンプルのラベル毎における確率を決定する。そして、ラベル毎に、前記予備訓練言語モデルの重みに基づいて、予備訓練言語モデル毎に決定された前記第2の訓練サンプルの前記ラベルにおける確率を重み付け加算し、前記第2の訓練サンプルの前記ラベルにおける確率統計値を算出する。そして、前記確率統計値が最大のラベルを前記第2の訓練サンプルの予測ラベルとする。
【0059】
また、複数の予備訓練言語モデルに基づいて第2の訓練集を生成した後、前記第2の訓練集を用いて、最終の予備訓練言語モデルを訓練する。また、本発明の実施例は、最終の予備訓練言語モデルを訓練する時に、前記第1の訓練集を用いて訓練された複数の予備訓練言語モデルから、ラベル予測の正確性指標が最も優れるモデルを選択し、このモデルを基に、前記第2の訓練集を用いて前記モデルを訓練して最終の予備訓練言語モデルが得られる。このように、最終的な訓練により得られたモデルの性能を向上させることができる。
【0060】
本発明の実施例において、予備訓練言語モデルは膨大なデータ集上で訓練して得られたものである。例えば、BERT(Transformersの双方向符号化表現)のような予備訓練言語モデルは、1億から3億以上に及ぶ多数のパラメータを有する大規模なニューラルネットワークアーキテクチャである。小さなデータ集上で予備訓練言語モデルをゼロから訓練すると、オーバーフィッティングが発生する場合がある。そのため、通常は膨大なデータ集で訓練された予備訓練言語モデルを起点として、前記方法によって、前記第2の訓練集を用いて前記モデルを訓練する。この訓練過程はモデル微調整とも呼ばれる。例えば、従来のfine tuning方法でモデルを訓練し、標準的な分類モデルを得る。
【0061】
本発明の実施例は、前記第2の訓練集を用いて前記モデルを訓練する時に、複数の微調整方式を有する。
【0062】
例えば、本発明の実施例は予備訓練言語モデルのアーキテクチャ全体を訓練することができる。すなわち、第2の訓練集を用いて予備訓練言語モデル全体を訓練し、予備訓練言語モデルの出力を分類器(softmax層)に提供する。この場合、エラーはアーキテクチャ全体に渡って逆方向に伝播され、かつ事前訓練言語モデルの事前訓練重み付けパラメータは第2の訓練集に基づく訓練時に更新される。
【0063】
また、例えば、本発明の実施例は、予備訓練言語モデルの第1部分のニューラルネットワーク層を維持すると同時に、第2部分のニューラルネットワーク層を訓練する。前記第2部分のニューラルネットワーク層は予備訓練言語モデル中の第1部分のニューラルネットワーク層を除いた残りのニューラルネットワーク層である。すなわち、予備訓練言語モデルを使用するもう1つの方法として、部分的に訓練する方法がある。具体的には、予備訓練言語モデルの初期ニューラルネットワーク層の重みを維持したまま、より上位のニューラルネットワーク層のみを繰り返して訓練する。本発明の実施例は、異なる維持の層及び訓練の層で測定することにより、より優れた性能のモデルが得られる。
【0064】
更に、例えば、本発明の実施例は、予備訓練言語モデルのアーキチェクや全体を維持する。すなわち、予備訓練言語モデルのすべての層を維持し、若干のニューラルネットワーク層を新たに追加して1つの新しいモデルを形成する。その後、第2の訓練集を用いて前記新しいモデルを訓練する。訓練過程において、新しく追加したニューラルネットワーク層の重みのみが更新される。
【0065】
本発明の実施例は、上記した方法に基づいて前記方法を実施する装置を更に提供する。図2に示すように、本発明の実施例にかかるモデル訓練装置は、以下のモジュールを含む。
【0066】
計算モジュール21は、異なるラベルにおける複数のラベル単語を取得し、ラベル毎にラベル単語の平均ベクトルを算出して単語平均ベクトルが得られる。
【0067】
構築モジュール22は、入力テキストにマスキングによりカバーされる予測単語を含むマスキングテキストを挿入して予測テキストを生成するためのテンプレートを構築する。
【0068】
第1の訓練モジュール23は、ラベリングされた複数の第1の訓練サンプルを含む第1の訓練集を用いて予備訓練言語モデルを訓練する。
【0069】
前記訓練は、前記第1の訓練サンプルを入力テキストとして、前記テンプレートに基づいて第1の予測テキストを生成し;前記予備訓練言語モデルを用いて前記第1の予測テキストにおける予測単語の単語ベクトルを生成し;前記予測単語の単語ベクトルとラベル毎の単語平均ベクトルとの類似度に基づいて、前記第1の訓練サンプルの予測ラベルを決定し;前記第1の訓練サンプルの予測ラベルとラベリングされたラベルに基づいて、前記予備訓練言語モデルを最適化する、ことを含む。
【0070】
本発明の実施例は、上記したモジュールによって、ラベル単語空間におけるラベル単語に限定されずに、より多くのサンプルをラベルにマッピングすることができる。
【0071】
好ましくは、前記第1の訓練モジュールは、前記予測単語の単語ベクトルとラベル毎の単語平均ベクトルとの類似度に基づいて、前記第1の訓練サンプルの予測ラベルを決定する際に、前記予測単語の単語ベクトルとラベル毎の単語平均ベクトルとの距離を計算し、最小距離を選択し;前記最小距離に対応するラベルを、前記第1の訓練サンプルの予測ラベルとする。
【0072】
また、好ましくは、前記装置は、ラベリングされない複数のラベルの第2の訓練サンプルを得る第1の取得モジュールと、前記予備訓練言語モデルを用いて、前記第2の訓練サンプルの予測ラベルを決定し;決定された前記第2の訓練サンプルの予測ラベルに基づいて、前記第2の訓練サンプルをラベリングし、第2の訓練集を生成するサンプル生成モジュールと、を更に含む。
【0073】
また、好ましくは、前記構築モジュールは、さらにテンプレートによって異なる予測テキストが生成される複数の前記テンプレートを構築し、前記第1の訓練モジュールは、前記テンプレート毎に前記第1の訓練集を用いて予備訓練言語モデルを訓練して、複数の予備訓練言語モデルが得られ、前記サンプル生成モジュールは、予備訓練言語モデル毎により、第2の訓練サンプルのラベル毎における確率を決定し;前記確率が最大であるラベルを前記第2の訓練サンプルの予測ラベルとする第1ラベル生成サブモジュールを含む。
【0074】
好ましくは、前記構築モジュールは、さらに、テンプレートにより異なる予測テキストを生成する複数の前記テンプレートを構築し、前記第1の訓練モジュールは、さらに、前記テンプレート毎に、それぞれ前記第1の訓練集を用いて1つの予備訓練言語モデルを訓練して複数の予備訓練言語モデルが得られ、前記サンプル生成モジュールは、テスト集を用いて、予備訓練言語モデル毎にラベル予測の正確性指標を測定し、前記正確性指標に基づいて、予備訓練言語モデル毎に前記正確性指標に正相関付けられる重みを設定し、各予備訓練言語モデルを用いて、第2の訓練サンプルのラベル毎における確率を決定し;ラベル毎に、前記予備訓練言語モデルの重みに基づいて、予備訓練言語モデル毎に決定された前記第2の訓練サンプルの前記ラベルにおける確率を重み付け加算し、前記第2の訓練サンプルの前記ラベルにおける確率統計値が得られ;前記確率統計値が最大となるラベルを前記第2の訓練サンプルの予測ラベルとする第2のラベル生成サブモジュールを含む。
【0075】
好ましくは、前記装置は前記第2の訓練集を用いて、最終の予備訓練言語モデルを訓練する第2の訓練モジュールを含む。
【0076】
また、図3は本発明の実施例にかかるモデル訓練装置のハードウェア構成ブロックを示す図である。図3に示すように、前記モデル訓練装置300は、プロセッサ302と;コンピュータプログラムが記憶されるメモリ304と、を備える。
【0077】
前記プロセッサが前記コンピュータプログラムを実行させることにより、異なるラベルにおける複数のラベル単語を取得し、ラベル毎にラベル単語の平均ベクトルを算出して単語平均ベクトルが得られ;入力テキストにマスキングによりカバーされる予測単語を含むマスキングテキストを挿入して予測テキストを生成するためのテンプレートを構築し;ラベリングされた複数の第1の訓練サンプルを含む第1の訓練集を用いて予備訓練言語モデルを訓練する、ことを含む。
【0078】
前記訓練は、前記第1の訓練サンプルを入力テキストとして、前記テンプレートに基づいて第1の予測テキストを生成し;前記予備訓練言語モデルを用いて前記第1の予測テキストにおける予測単語の単語ベクトルを生成し;前記予測単語の単語ベクトルとラベル毎の単語平均ベクトルとの類似度に基づいて、前記第1の訓練サンプルの予測ラベルを決定し;前記第1の訓練サンプルの予測ラベルとラベリングされたラベルに基づいて、前記予備訓練言語モデルを最適化する、ステップが実行される。
【0079】
更に、図3に示すように、前記モデル訓練装置300はまたネットワークインターフェース301、入力装置303、ハードディスク305、表示装置306を含む。
【0080】
これらのインターフェースと装置はバスアーキテクチャにより互いに接続される。バスアーキテクチャは互い接続される任意数のバスおよびブリッジを含む。具体的に、プロセッサ302に代表される一つ或は複数の中央処理器(CPU)及び/またはグラフィックスプロセッサ(GPU) の各種回路と、メモリ304に代表される一つ或は複数の記憶装置の各種回路を接続する。また、バスアーキテクチャは、周辺装置、電圧レギュレータ、電力管理回路などの他のさまざまな回路を接続する。バスアーキテクチャは、これらのコンポーネントを接続することにより通信を可能にする。バスアーキテクチャは、データバス以外に、電源バス、制御バス、状態信号バスをも含む、これらは公知技術であるため、本文では詳しい説明を省略する。
【0081】
前記ネットワークインターフェース301は、ネットワーク(例えばインターネット、ローカルエリアネットワークなど)に接続され、ネットワークから訓練データなどのデータを受信し、受信したデータをハードディスク305に記憶する。
【0082】
前記入力装置303は、操作者が入力する各種指令を受け付けて、実行するためにプロセッサ302に送信する。前記入力装置303はキーボードやポインティング設備(例えば、マウス、トラックボール(trackball)、タッチパネル或はタッチスクリーンなどを含む。
【0083】
前記表示装置306は、プロセッサ302が指令を実行して得られた結果、例えば訓練進度などを表示する。
【0084】
前記メモリ304は、操作システムの運営に必要なプログラムとデータ、及びプロセッサ302による計算に生じた中間結果などのデータを記憶する。
【0085】
本発明の実施例において、メモリ304は揮発性メモリまたは非揮発性メモリである、或は揮発性と非揮発性のメモリの両方を含む。その中に、非揮発性メモリはROM、PROM、EPROM、EEPROMまたはフラッシュメモリがある。揮発性メモリは、外部キャッシュとして機能するRAMである。本文に説明される装置と方法に用いるメモリ304はこれらと任意の他適合するタイプのメモリを含むが、それらに限定されない。
【0086】
一部の実施方式は、メモリ304に実行可能モジュールまたはデータ構造、或はそれらのサブ集、若しくはそれらの拡張集であるオペレーティングシステム(OS)3041とアプリケーションプログラム(API)3042が記憶される。
【0087】
その中に、オペレーティングシステム3041には、各種基幹業務やハードウェアベースのタスクの処理を実現するためのフレームワーク層、カーネルライブラリ層、ドライバ層などの各種システムプログラムが含まれており、アプリケーションプログラム3042には、各種アプリケーション業務を実現するためのブラウザ(Browser)などの各種アプリケーションが含まれる。本発明の実施例にかかる方法を実現するためのプログラムはアプリケーションプログラム3042に含まれる。
【0088】
本発明の前記実施例に開示された方法は、プロセッサ302に適用されるか、プロセッサ302より実現される。プロセッサ302は、信号の処理能力を備えた集積回路チップであってよい。実現過程において、前記方法の各ステップはプロセッサ302のハードウェアである集積論理回路またはソフトウェア形式の指令によって完成される。前記プロセッサ302は汎用プロセッサ、デジタル信号プロセッサ(DSP)、専用集積回路(ASIC)、既製プログラマブルゲートアレイ(FPGA)または他のプログラマブルロジックデバイス、ディスクリートゲートまたはトランジスタロジックデバイス、ディスクリートハードウェアコンポーネントであってもよく、本発明の実施例に開示される各方法、ステップおよびロジックブロック図を実現または実行する。汎用プロセッサはマイクロプロセッサでもよく、または前記プロセッサは任意の従来のプロセッサなどでもよい。本発明の実施例に開示された方法におけるステップは、ハードウェアデコードプロセッサで直接に実行してもよく、デコードプロセッサのハードウェアとソフトウェアモジュールの組み合わせで実行してもよい。ソフトウェアモジュールはランダムアクセスメモリ、フラッシュメモリ、リードオンリーメモリ、プログラマブルリードオンリーメモリまたは電気消去可能プログラマブルメモリ、レジスタなどの本分野で既有の記憶媒体に記憶される。前記記憶媒体はメモリ304にある。プロセッサ302はメモリ304から情報を読み出して、ハードウェアと共に前記方法のステップを実現する。
【0089】
本文に説明した実施例はハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード或はそれらの組合せで実現される。ハードウェアで実現する場合、プロセッサユニットは一つまたは複数の専用集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理設備(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、汎用プロセッサ、制御器、マイクロ制御器、マイクロプロセッサ、本発明に説明した機能を実行するのに用いるその他の電子ユニットまたはそれらの組合せによって実現される。
【0090】
ソフトウェアで実現する場合、上記説明した機能を実行するモジュール(たとえば、プロシージャ、関数など)によって上記技術を実現する。ソフトウェアコードはメモリに記憶されて、プロセッサによって実行される。メモリはプロセッサの中または外部で実現される。
【0091】
具体的に、前記コンピュータプログラムはプロセッサ302に実行されることにより、前記予測単語の単語ベクトルとラベル毎の単語平均ベクトルとの距離を計算し、最小距離を選択し;前記最小距離に対応するラベルを、前記第1の訓練サンプルの予測ラベルとする、ステップが実現される。
【0092】
また、具体的に、前記コンピュータプログラムはプロセッサ302に実行されることにより、第1の訓練集を用いて1つの予備訓練言語モデルを訓練した後に、ラベリングされない複数のラベルの第2の訓練サンプルを得;前記予備訓練言語モデルを用いて、前記第2の訓練サンプルの予測ラベルを決定し;決定された前記第2の訓練サンプルの予測ラベルに基づいて、前記第2の訓練サンプルをラベリングし、第2の訓練集を生成する、ステップが実現される。
【0093】
また、具体的に、前記コンピュータプログラムはプロセッサ302に実行されることにより、テンプレートによって異なる予測テキストが生成される複数の前記テンプレートを構築し;前記テンプレート毎に、それぞれ、前記第1の訓練集を用いて1つの予備訓練言語モデルを訓練して、複数の予備訓練言語モデルが得られ、前記予備訓練言語モデルを用いて、前記第2の訓練サンプルの予測ラベルを決定することは、予備訓練言語モデル毎により、第2の訓練サンプルのラベル毎における確率を決定し;前記確率が最大のラベルを前記第2の訓練サンプルの予測ラベルとする、ことを含むステップが実現される。
【0094】
また、具体的に、前記コンピュータプログラムはプロセッサ302に実行されることにより、テンプレートにより異なる予測テキストを生成する複数の前記テンプレートを構築し;前記テンプレート毎に、前記第1の訓練集を用いて予備訓練言語モデルを訓練して複数の予備訓練言語モデルが得られ、前記予備訓練言語モデルを用いて前記第2の訓練サンプルの予測ラベルを決定することは、テスト集を用いて、予備訓練言語モデル毎にラベル予測の正確性指標を測定し、前記正確性指標に基づいて、予備訓練言語モデル毎に前記正確性指標に正の相関がある重みを設定し、各予備訓練言語モデルを用いて、第2の訓練サンプルのラベル毎における確率を決定し;ラベル毎に、前記予備訓練言語モデルの重みに基づいて、予備訓練言語モデル毎に決定された前記第2の訓練サンプルの前記ラベルにおける確率を重み付け加算し、前記第2の訓練サンプルの前記ラベルにおける確率統計値を算出し;前記確率統計値が最大のラベルを前記第2の訓練サンプルの予測ラベルとする、ことを含む、ステップが実現される。
【0095】
また、具体的に、前記コンピュータプログラムはプロセッサ302に実行されることにより、前記第2の訓練集を生成した後、前記第2の訓練集を用いて、最終の予備訓練言語モデルを訓練するステップが実現される。
【0096】
本文に開示された実施例にかかる要素及びアルゴリズムステップは電子ハードウェア、又はコンピュータソフトウェアと電子ハードウェアの組合せによって実現される。これは、当業者により容易に想到される。また、これらの機能がハードウェアまたはソフトウェアのどちらで実行されるかは、本発明の適用または設計上の制約に依存する。当業者は、発明の特定の応用に応じて異なる方法を適宜に用いて機能を実現することができるが、本発明の範囲を超えてはならない。
【0097】
上記のシステム、装置及びユニットの具体的な動作が前記実施例にかかる方法のステップに対応することは、当業者にとって明らかである。説明の便宜と簡潔のために、ここで説明を省略する。
【0098】
本発明の実施例に開示される装置と方法は別の方式によって実現することができる。例えば、上述した実施例にかかる装置は例示に過ぎず、例えば、上記ユニットの分割は、論理的な機能的分割であり、実際に実現する際に別の分割方式を用いても良い。また、例えば、複数のユニットまたは要素を組み合わせてもよく、別のシステムに集約してもよい。または、一部の特徴を無視し、若しくは実行しない。なお、表示または説明したカップリング又は直接カップリング若しくは通信可能な接続はインターフェースを介して行う。装置或はユニットの間接カップリング或は通信可能な接続は、電気的、機械的又は別の形式であってもよい。
【0099】
分離部材として説明したユニットは物理的に分離してもしなくてもよい。ユニットとして表示部材は物理ユニットであってもしなくてもよい。即ち1つの場所に位置してもよく、複数のネットワークユニットに分散してもよい。実際の需要に応じて一部または全部のユニットを選択して本発明の実施例の目的を実現する。
【0100】
なお、本発明の各実施例にかかる各機能ユニットは一つの処理ユニットに集約されてもよく、各ユニットが単一の物理的存在でもよい。また、二つ以上のユニットを一つのユニットに集約してもよい。
【0101】
上記した機能は、ソフトウェアの機能ユニットの形式で実現され、かつ独立した製品として販売または使用される場合、コンピュータ読み取り可能な記憶媒体に記憶すればよい。この場合、本発明または従来技術に貢献する部分或は発明の部分は本質的にソフトウェア製品の形式で表現される。このコンピュータソフトウェア製品は、記憶媒体に記憶されることによって、コンピュータ装置(パーソナルコンピュータ、サーバ、或はネットワーク設備など)に本発明の各実施例にかかる方法の全部または一部のステップを実行させる。前記記憶媒体は、USBメモリ、リムーバブルハードディスク、ROM、RAM、磁気ディスクまたは光ディスクなどの各種のプログラムコードを記憶可能な媒体である。
【0102】
以上は本発明の具体的な実施方式を説明したが、本発明の保護範囲はこれに限定されない。開示された発明の範囲内で変更または置換は、当業者によって容易に想到されるが、いずれも本発明の範疇に属する。従って、本発明の範囲は請求の範囲を準じる。
図1
図2
図3