IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特許7192192語義類似度モデルの訓練方法、装置、電子デバイス及び記憶媒体
<>
  • 特許-語義類似度モデルの訓練方法、装置、電子デバイス及び記憶媒体 図1
  • 特許-語義類似度モデルの訓練方法、装置、電子デバイス及び記憶媒体 図2
  • 特許-語義類似度モデルの訓練方法、装置、電子デバイス及び記憶媒体 図3
  • 特許-語義類似度モデルの訓練方法、装置、電子デバイス及び記憶媒体 図4
  • 特許-語義類似度モデルの訓練方法、装置、電子デバイス及び記憶媒体 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-12-12
(45)【発行日】2022-12-20
(54)【発明の名称】語義類似度モデルの訓練方法、装置、電子デバイス及び記憶媒体
(51)【国際特許分類】
   G06F 40/216 20200101AFI20221213BHJP
   G06N 20/00 20190101ALI20221213BHJP
   G06F 40/237 20200101ALI20221213BHJP
   G06F 16/28 20190101ALI20221213BHJP
【FI】
G06F40/216
G06N20/00
G06F40/237
G06F16/28
【請求項の数】 13
(21)【出願番号】P 2021075224
(22)【出願日】2021-04-27
(65)【公開番号】P2021179978
(43)【公開日】2021-11-18
【審査請求日】2021-04-27
(31)【優先権主張番号】202010399048.X
(32)【優先日】2020-05-12
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】110000877
【氏名又は名称】弁理士法人RYUKA国際特許事務所
(72)【発明者】
【氏名】リ、ジェン
(72)【発明者】
【氏名】リ、ユクン
(72)【発明者】
【氏名】スン、ユ
【審査官】木村 大吾
(56)【参考文献】
【文献】特開2019-125343(JP,A)
【文献】米国特許出願公開第2012/0203539(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/00-40/58
G06F 16/00-16/958
G06N 20/00
(57)【特許請求の範囲】
【請求項1】
コンピュータにより実行され、2つのテキストが入力されるとき、当該2つのテキストの類似度を計算して語義類似度として出力する、語義類似度モデルの訓練方法であって、
訓練待ちの語義類似度モデルが使用する目標分野を取得し、
前記目標分野と既知の複数の訓練データセットにおける前記複数の訓練データセットの各々に対応する応用分野との関連度を計算し、
目標分野と前記複数の訓練データセットの各々に対応する応用分野との関連度の低い順に従って、前記複数の訓練データセットの各々を順次に用いて前記語義類似度モデルを訓練する、
ことを含む語義類似度モデルの訓練方法。
【請求項2】
目標分野と前記複数の訓練データセットの各々に対応する応用分野との関連度の低い順に従って、前記複数の訓練データセットの各々を順次に用いて前記語義類似度モデルを訓練することは、
前記目標分野と前記複数の訓練データセットの各々に対応する応用分野との関連度に基づいて、前記複数の訓練データセットを高関連度の訓練データセットの集合と低関連度の訓練データセットの集合とに分割し、
前記低関連度の訓練データセットの集合における前記複数の訓練データセットの各々を用いて前記語義類似度モデルを順次に訓練し、
前記高関連度の訓練データセットの集合における前記複数の訓練データセットの各々を用いて前記語義類似度モデルを順次に訓練する、
ことを含む請求項1に記載の語義類似度モデルの訓練方法。
【請求項3】
前記低関連度の訓練データセットの集合における各訓練データセットを用いて前記語義類似度モデルを順次に訓練することは、
前記目標分野と前記低関連度の訓練データセットの集合における前記複数の訓練データセットの各々に対応する応用分野との関連度の低い順に従って、対応する前記訓練データセットを順次に用いて前記語義類似度モデルをそれぞれ訓練し、或いは、
前記低関連度の訓練データセットの集合における各訓練データセットをランダムにソートし、前記ランダムにソートされた順に従って対応する前記訓練データセットを順次に用いて前記語義類似度モデルをそれぞれ訓練する、
ことを含む請求項2に記載の語義類似度モデルの訓練方法。
【請求項4】
前記目標分野と前記複数の訓練データセットの各々に対応する応用分野との関連度に基づいて、前記複数の訓練データセットを高関連度の訓練データセットの集合と低関連度の訓練データセットの集合とに分割することは、
前記目標分野と最も関連性の高いN個の応用分野の前記訓練データセットを前記高関連度の訓練データセットの集合に分割し、
残りの前記訓練データセットを前記低関連度の訓練データセットの集合に分割する、
ことを含む請求項2または3に記載の語義類似度モデルの訓練方法。
【請求項5】
前記高関連度の訓練データセットの集合における各訓練データセットを用いて前記語義類似度モデルを順次に訓練することは、
Nが1より大きければ、前記目標分野と前記高関連度の訓練データセットの集合における各訓練データセットに対応する応用分野との関連度の低い順に従って、対応する前記訓練データセットを順次に用いて前記語義類似度モデルをそれぞれ訓練する、
ことを含む請求項4に記載の語義類似度モデルの訓練方法。
【請求項6】
2つのテキストが入力されるとき、当該2つのテキストの類似度を計算して語義類似度として出力する、語義類似度モデルの訓練装置であって、
訓練待ちの語義類似度モデルが使用する目標分野を取得する取得モジュールと、
前記目標分野と既知の複数の訓練データセットにおける前記複数の訓練データセットの各々に対応する応用分野との関連度を計算する計算モジュールと、
目標分野と前記複数の訓練データセットの各々に対応する応用分野との関連度の低い順に従って、前記複数の訓練データセットの各々を順次に用いて前記語義類似度モデルを訓練する訓練モジュールと、
を備える語義類似度モデルの訓練装置。
【請求項7】
訓練モジュールは、
前記目標分野と前記複数の訓練データセットの各々に対応する応用分野との関連度の低い順に従って、前記複数の訓練データセットを高関連度の訓練データセットの集合と低関連度の訓練データセットの集合とに分割する分割ユニットと、
前記低関連度の訓練データセットの集合における前記複数の訓練データセットの各々を用いて前記語義類似度モデルを順次に訓練する第1訓練ユニットと、
前記高関連度の訓練データセットの集合における前記複数の訓練データセットの各々を用いて前記語義類似度モデルを順次に訓練する第2訓練ユニットと、
を備える請求項6に記載の語義類似度モデルの訓練装置。
【請求項8】
前記第1訓練ユニットは、
前記目標分野と前記低関連度の訓練データセットの集合における前記複数の訓練データセットの各々に対応する応用分野との関連度の低い順に従って、対応する前記訓練データセットを順次に用いて前記語義類似度モデルをそれぞれ訓練し、或いは、
前記低関連度の訓練データセットの集合における前記複数の訓練データセットの各々をランダムにソートし、前記ランダムにソートされた順に従って対応する前記訓練データセットを順次に用いて前記語義類似度モデルをそれぞれ訓練する、
請求項7に記載の語義類似度モデルの訓練装置。
【請求項9】
前記分割ユニットは、
前記目標分野と最も関連性の高いN個の応用分野の前記訓練データセットを前記高関連度の訓練データセットの集合に分割し、
残りの前記訓練データセットを前記低関連度の訓練データセットの集合に分割する、
請求項7または8に記載の語義類似度モデルの訓練装置。
【請求項10】
前記第2訓練ユニットは、
Nが1より大きければ、前記目標分野と前記高関連度の訓練データセットの集合における前記複数の訓練データセットの各々に対応する応用分野との関連度の低い順に従って、対応する前記訓練データセットを順次に用いて前記語義類似度モデルをそれぞれ訓練する、
請求項9に記載の語義類似度モデルの訓練装置。
【請求項11】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続されたメモリと、を備え、
前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに請求項1~5のいずれか1項に記載の語義類似度モデルの訓練方法を実行させる電子デバイス。
【請求項12】
コンピュータに請求項1~5のいずれか1項に記載の語義類似度モデルの訓練方法を実行させるためのコンピュータコマンドが記憶された非一時的なコンピュータ可読記憶媒体。
【請求項13】
コンピュータに請求項1~5のいずれか1項に記載の語義類似度モデルの訓練方法を実行させるためのコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願はコンピュータ技術に関し、特に人工知能技術に関し、具体的には語義類似度モデルの訓練方法、装置、電子デバイス及び記憶媒体に関する。
【背景技術】
【0002】
従来技術では、大量の教師なしテキストを用いて言語モデルの自己教師な事前訓練学習(pre-training)を行い、次に教師ありタスクデータを用いて言語モデルのパラメータ微調整(fine-tuning)を行うことは、現在の自然言語処理(Natural Language Processing;NLP)分野における先進的なモデル訓練技術である。
【0003】
例えば、NLP分野における語義マッチングタスクは、2つのテキストが語義に類似しているか否かを判断することを目的としている。現在公開されているテキストマッチングの標識データは少なく、分野にも大きな差があるため、fine-tuning段階では、既存の高品質な標識データをよりよく利用して、事前に訓練された訓練語義類似度モデルを微調整し、モデルの潜在力を掘り起こし、モデルの効果を高める必要がある。従来技術における高品質な標識データセットとしてlcqmc、bq_corpusなどがよく用いられているが、訓練効果を高めるために、従来技術では、複数のデータセットを統合して語義類似度モデルに対してfine-tuning段階の訓練を行う。
【0004】
しかし、従来技術において単純に複数のデータセットを統合して語義類似度モデルに対してfine-tuning段階の訓練を行うと、訓練された語義類似度モデルが偏り、正確性が劣る。
【発明の概要】
【課題を解決するための手段】
【0005】
本出願は、上述した技術的課題を解決するために、語義類似度モデルの訓練方法、装置、電子デバイスおよび記憶媒体を提供する。
【0006】
第1の態様によれば、訓練待ち語義類似度モデルが使用する目標分野を取得し、前記目標分野と、既知の複数の訓練データセットのそれぞれに対応する応用分野との関連度を計算し、目標分野と各前記訓練データセットに対応する応用分野との関連度に基づいて、各前記訓練データセットを順次用いて前記語義類似度モデルを訓練することを含む語義類似度モデルの訓練方法を提供する。
【0007】
第2の態様によれば、訓練待ち語義類似度モデルが使用する目標分野を取得する取得モジュールと、前記目標分野と既知の複数の訓練データセットのそれぞれに対応する応用分野との関連度を計算する計算モジュールと、目標分野と各前記訓練データセットに対応する応用分野との関連度に基づいて、各前記訓練データセットを順次用いて語義類似度モデルを訓練する訓練モジュールと、を備える語義類似度モデルの訓練装置を提供する。
【0008】
第3の態様によれば、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信接続されたメモリとを備え、前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに上述の方法を実行させる電子デバイスを提供する。
【0009】
第4の態様によれば、コンピュータに上述した方法を実行させるためのコンピュータコマンドが記憶された非一時的なコンピュータ可読記憶媒体を提供する。
【0010】
本出願の技術によれば、従来技術において複数の訓練データセットを一緒に統合することにより、語義類似度モデルに対してモデルが偏ってしまうという問題を解決し、fine-tuning段階では、目標分野と各訓練データセットに対応する応用分野との関連度を参照して、各訓練データセットを用いて語義類似度モデルをより的確に訓練することができ、語義類似度モデルの学習能力を効果的に向上させ、ひいては訓練された語義類似度モデルの正確度を効果的に向上させることができる。
【0011】
理解待ちなのは、本セクションで説明される内容は、本開示の実施形態の肝心または重要な特徴を標識することを意図しておらず、本開示の範囲を制限することを意図していない。本開示の他の特徴は、以下の説明により容易に理解される。
【図面の簡単な説明】
【0012】
図面は、本出願をより良く理解するためのものであり、本出願を限定しない。ここで、
図1】本出願の第1の実施形態に係る概略図である。
図2】本出願の第2の実施形態に係る概略図である。
図3】本出願の第3の実施形態に係る概略図である。
図4】本出願の第4の実施形態に係る概略図である。
図5】本出願の実施形態における語義類似度モデルの訓練方法を実施するための電子デバイスのブロック図である。
【発明を実施するための形態】
【0013】
以下、図面に基づいて、本出願の例示的な実施例を説明する。理解を容易にするために、本出願の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本出願の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。
【0014】
図1は、本出願の第1の実施形態に係る概略図である。図1に示すように、本実施形態は語義類似度モデルの訓練方法を提供し、具体的には以下のステップを含むことができる。
【0015】
S101において、訓練待ち語義類似度モデルが使用する目標分野を取得する。
【0016】
S102において、前記目標分野と、既知の複数の訓練データセットのそれぞれに対応する応用分野との関連度を計算する。
【0017】
S103において、目標分野と各訓練データセットに対応する応用分野との関連度に基づいて、各訓練データセットを順次用いて前記語義類似度モデルを訓練する。
【0018】
本実施形態の語義類似度モデルの訓練方法の実行主体は、語義類似度モデルの訓練装置である。この装置は、コンピュータに類似した電子エンティティであってもよく、ソフトウェア統合を採用するアプリケーションであってもよく、使用時にコンピュータ装置上で動作して語義類似度モデルを訓練する。
【0019】
本実施形態の語義類似度モデルの訓練方法は、パラメータの微調整、すなわちfine-tuning段階の訓練に適用される。NLP分野の語義マッチングタスクでは、事前訓練段階であるpre-training段階で、この語義類似度モデルの最初の構造が得られる。次に、fine-tuning段階では、対応する高品質のタスクデータセットを用いて事前訓練により得られた語義類似度モデルをパラメータ微調整することができる。しかし、既存のfine-tuning段階の訓練データセットは比較的少なく、例えば「バイドゥが知る」分野の類似度データからなるlcqmcデータセット、銀行金融分野の類似度データからなるbq_corpusデータセットなどが含まれ、同様に他の分野、例えば電子商取引、医療、教育、財経、スポーツ、音楽などの様々な分野の類似度データからなるデータセットをマイニングすることもできる。しかし、従来技術の方案では、これらのデータセットを直接統合してあらかじめ得られた語義類似度モデルを訓練するため、訓練後の語義類似度モデルの正確度が劣る。
【0020】
本実施例では、語義類似度モデルの正確度を向上させるために、その語義類似度モデルが使用する目標分野を参照してfine-tuning段階の微調整を行う必要がある。具体的には、この訓練目標語義類似度モデルが使用する目標分野を先に取得する。本実施例では、語義類似度モデルが対応可能な各分野をあらかじめ設定しておくことができ、実際の必要に応じて複数の分野を設定することが可能である。また、本実施例では、既知の各訓練データセット及び各訓練データセットに対応する応用分野を取得する必要があり、例えば「バイドゥが知る」分野のlcqmcデータセットを訓練データセットとしても良く、銀行金融分野のbq_corpusデータセットを訓練データセットとしても良い。次に、目標分野と既知の各訓練データセットに対応する応用分野との関連度を計算する。
【0021】
説明待ちなのは、ここでの関連度の計算は、目標分野と各訓練データセットに対応する応用分野との語義類似度に基づいて計算することができる。例えば、具体的には、訓練された単語ベクトルモデルを用いて目標分野の単語ベクトルと各訓練データセットに対応する応用分野の単語ベクトルを取得し、単語ベクトル間の類似度を計算することにより、目標分野と各訓練データセットに対応する応用分野との関連度を求めることができる。たとえば、ここでの単語ベクトルモデルは訓練されたWord2vecモデルを用いて実現することができる。
【0022】
最後に、目標分野と複数の訓練データセットのそれぞれに対応する応用分野との関連度を参照して、各訓練データセットを順次用いて語義類似度モデルを訓練し、語義類似度モデルの正確度を向上させる。
【0023】
本実施形態の語義類似度モデルの訓練方法は、訓練待ち語義類似度モデルが使用する目標分野を取得し、前記目標分野と既知の複数の訓練データセットのそれぞれに対応する応用分野との関連度を計算し、目標分野と各訓練データセットに対応する応用分野との関連度に基づいて、各訓練データセットを順次用いて前記語義類似度モデルを訓練する。本実施形態の技術案は、fine-tuning段階では、目標分野と各訓練データセットに対応する応用分野との関連度を参照し、各訓練データセットを用いて語義類似度モデルをより的確に訓練することができるため、従来技術において複数の訓練データセットを一緒に統合することにより、語義類似度モデルに対してモデルが偏ってしまうという問題を克服し、語義類似度モデルの学習能力を効果的に向上させ、ひいては訓練された語義類似度モデルの正確度を効果的に向上させることができる。
【0024】
図2は、本出願の第2の実施形態に係る概略図である。図2に示すように、本実施形態の語義類似度モデルの訓練方法は、上述した図1に示す実施形態の技術案に加えて、本出願の技術案をより詳細に説明する。図2に示すように、本実施形態の語義類似度モデルの訓練方法は、具体的には以下のステップを含むことができる。
【0025】
S201において、訓練待ち語義類似度モデルが使用する目標分野を取得する。
【0026】
S202において、目標分野と各訓練データセットに対応する応用分野との関連度を計算する。
【0027】
このステップS201およびS202は、それぞれ上述した図1に示した実施例のステップS101およびS102と同様であり、詳細は上述した図1に示した実施例の記載を参照でき、ここでは再度言及しない。
【0028】
S202において、目標分野と各訓練データセットに対応する応用分野との関連度に基づいて、複数の訓練データセットを高関連度の訓練データセットの集合と低関連度の訓練データセットの集合とに分割する。
【0029】
本出願の実施例では、複数の訓練データセットを、高関連度の訓練データセットの集合と低関連度の訓練データセットの集合に分割する例を考える。例えば、分割する際には、目標分野との関連度が最も高いN個の応用分野の訓練データセットを、高関連度の訓練データセットの集合に分割し、残りの訓練データセットを、低関連度の訓練データセットの集合に分割することができる。ここでNは実際の経験に基づいてとることができ、例えばNは1をとることができる。この場合、高関連度の訓練データセットの集合には1つの訓練データセット、すなわち複数の訓練データセットのうち、目標分野と最も関連度の高い応用分野に対応する訓練データセットのみが含まれる。複数の訓練データセットのうち残りの訓練データセットは、すべて低関連度の訓練データセットに分割される。実際の経験に基づいて、Nは2や3などの他の数値をとることができる。
【0030】
オプションとして、上記の分割は、複数の訓練データセットを2つの訓練データセットの集合に分割することを例にする。実際の応用では、訓練データセットが多い場合には、実際の必要に応じて複数の訓練データセットを3つ以上の訓練データセットの集合に分割することも可能であり、各訓練データセットの集合における各訓練データセットの応用分野と目標分野との関連度が近い。例えば、3つの訓練データセットに分割する場合、第1関連度閾値と第2関連度閾値の2つの関連度閾値を設定することができ、第1関連度閾値は第2関連度閾値よりも大きい。分割の際には、目標分野との関連度が第1関連度閾値以上である応用分野に対応する各訓練データセットを、第1レベルの訓練データセットの集合に分割し、目標分野との関連度が第2関連度閾値以上であり、かつ第1関連度閾値未満である応用分野に対応する各訓練データセットを、第2レベルの訓練データセットの集合に分割し、目標分野との関連度が第2関連度閾値よりも小さい応用分野に対応する各訓練データセットを、第3レベルの訓練データセットの集合に分割することができる。同様に、実際の必要に応じて複数のレベルの訓練データセットの集合を設定することも可能であり、ここでは言及しない。
【0031】
S204において、低関連度の訓練データセットの集合における各訓練データセットを用いて語義類似度モデルを訓練する。
【0032】
オプションとして、このステップは実施される場合に、以下のいずれかの方法で実現されてよい。
【0033】
(1)目標分野と低関連度の訓練データセットの集合における各訓練データセットに対応する応用分野との関連度の低い順に従って、対応する訓練データセットを順次に用いて語義類似度モデルをそれぞれ訓練する。或いは、
【0034】
(2)低関連度の訓練データセットの集合における各訓練データセットをランダムにソートし、ランダムにソートされた順に従って対応する訓練データセットを順次に用いて語義類似度モデルをそれぞれ訓練する。
【0035】
低関連度の訓練データセットの集合における各訓練データセットに対して、上記のいずれかの方法で語義類似度モデルを訓練することができる。低関連度の訓練データセットの集合は、高関連度の訓練データセットの集合よりも前に語義類似度モデルを訓練し、且つ低関連度の訓練データセットの集合における各訓練データセットは語義類似度モデルにあまり影響を与えないため、上記の方式(2)を用いて、低関連度の訓練データセットの集合における各訓練データセットをランダムにソートし、ランダムにソートされた順に従って対応する訓練データセットを順次に用いて語義類似度モデルをそれぞれ訓練することができる。
【0036】
しかし、好ましいのは、低関連度の訓練データセットの集合においても、含まれる各訓練データセットの対応する応用分野と目標分野との関連度にも高低差があるため、目標分野の語義類似度モデルに対する後続の訓練効果を高めるために、上記(1)のように、目的分野と低関連度の訓練データセットの集合における各訓練データセットに対応する応用分野との関連度の低い順に従って、対応する訓練データセットを順次に採用して語義類似度モデルをそれぞれ訓練することにより、当該語義類似度モデルに目標分野とより関連性のある応用分野の訓練データセットの情報を段階的に学習させ、目標分野における表現がより正確になるようにすることができる。
【0037】
S205において、高関連度の訓練データセットの集合における各訓練データセットを用いて、語義類似度モデルを訓練する。
【0038】
オプションとして、上記のように高関連度の訓練データセットの集合を分割するときにN=1であれば、高関連度の訓練データセットの集合における訓練データセットを直接に用いて語義類似度モデルを訓練すればよい。N>1である場合に、目的分野と高関連度の訓練データセットの集合における各訓練データセットに対応する応用分野との関連度の低い順に従って、対応する訓練データセットを順次に採用して語義類似度モデルをそれぞれ訓練することにより、当該語義類似度モデルに目標分野とより関連性のある応用分野の訓練データセットの情報を段階的に学習させ、目標分野における表現がより正確になるようにする。
【0039】
本実施形態の上述した技術案は、低関連度の訓練データセットの集合と高関連度の訓練データセットの集合との分割を実現し、最初に低関連度の訓練データセットの集合における各訓練データセットを用いて語義類似度モデルを訓練し、次に高関連度の訓練データセットの集合における各訓練データセットを用いて語義類似度モデルを訓練することにより、語義類似度モデルに関連度の低い訓練データセットの情報を先に学習させ、次に関連度の高い訓練データセットの情報を段階的に学習させ、目標分野における語義類似度モデルの正確度を向上させることができる。
【0040】
また、オプションとして、上記に記載されているように、関連度の訓練データセットの集合が複数のレベルに分割された場合に、各レベルの関連度の訓練データセットの集合の訓練データセットと目標分野との関連度の高い順に、関連度の低い訓練データセットの集合の各訓練データセットを先に採用して語義類似度モデルを訓練し、次に関連度の高い訓練データセットの集合における各訓練データセットを用いて語義類似度モデルを訓練することにより、目標分野の語義類似度モデルを訓練する際に、関連度の低い順による段階的な学習過程であって、より良好な学習過程を実現させるため、語義類似度モデルの学習効果を向上させ、学習により得られた目標分野の語義類似度モデルの表現をより正確にすることができる。
【0041】
本実施形態の語義類似度モデルの訓練方法は、上述の技術案によれば、複数の訓練データセットを高関連度の訓練データセットの集合と、低関連度の訓練データセットの集合とに分割し、そして低関連度の訓練データセットの集合と高関連度の訓練データセットの集合における各訓練データセットを順に採用して語義類似度モデルを訓練することにより、語義類似度モデルに目標分野との関連度がより高い訓練データセットにおける情報を段階的に学習させるため、目標分野における語義類似度モデルの正確度をより高くすることができる。従って、本実施形態の技術案は、訓練された語義類似度モデルの正確度を効果的に向上させることができる。
【0042】
図3は、本出願の第3の実施形態に係る概略図である。図3に示すように、本実施形態は、訓練待ち語義類似度モデルが使用する目標分野を取得する取得モジュール301と、目標分野と既知の複数の訓練データセットのそれぞれに対応する応用分野との関連度を計算する計算モジュール302と、目標分野と各訓練データセットに対応する応用分野との関連度に基づいて、各訓練データセットを順次に用いて語義類似度モデルを訓練する訓練モジュール303と、を備える語義類似度モデルの訓練装置300を提供した。
【0043】
本実施例の語義類似度モデルの訓練装置300は、上述したモジュールを用いて語義類似度モデルの訓練を実現する実現原理及び技術的効果は、上述した関連方法の実施例の実現と同様であり、詳細は上述した関連方法の実施例の記載を参照でき、ここでは再度言及しない。
【0044】
図4は、本出願の第4の実施形態に係る概略図である。図4に示すように、本実施形態の語義類似度モデルの訓練装置300は、上述した図3に示す実施形態の技術案に基づいて、本出願の技術案をより詳細に説明する。
【0045】
図4に示すように、本実施形態の語義類似度モデルの訓練装置300において、訓練モジュール303は、目標分野と各訓練データセットに対応する応用分野との関連度に基づいて複数の訓練データセットを高関連度の訓練データセットの集合と低関連度の訓練データセットの集合とに分割する分割ユニット3031と、低関連度の訓練データセットの集合における各訓練データセットを用いて語義類似度モデルを順次に訓練する第1訓練ユニット3032と、高関連度の訓練データセットの集合における各訓練データセットを用いて語義類似度モデルを順次に訓練する第2訓練ユニット3033と、を備える。
【0046】
さらに、オプションとして、第1訓練ユニット3032は、目標分野と低関連度の訓練データセットの集合における各訓練データセットに対応する応用分野との関連度の低い順に従って、対応する訓練データセットを順次に用いて語義類似度モデルをそれぞれ訓練し、或いは、
【0047】
低関連度の訓練データセットの集合における各訓練データセットをランダムにソートし、ランダムにソートされた順に従って、対応する訓練データセットを順次に用いて語義類似度モデルをそれぞれ訓練する。
【0048】
さらに、オプションとして、分割ユニット3031は、目標分野との関連度が最も高いN個の応用分野の訓練データセットを、高関連度の訓練データセットの集合に分割し、その残りの訓練データセットを低関連度の訓練データセットの集合に分割する。
【0049】
さらに、オプションとして、第2訓練ユニット3033は、Nが1より大きければ、目標分野と高関連度の訓練データセットの集合における各訓練データセットに対応する応用分野との関連度の低い順に従って、対応する訓練データセットを順次に用いて語義類似度モデルをそれぞれ訓練する。
【0050】
本実施例の語義類似度モデルの訓練装置300は、上述したモジュールを用いて語義類似度モデルの訓練を実現する実現原理及び技術的効果は、上述した関連方法の実施例の実現と同様であり、詳細は上述した関連方法の実施例の記載を参照でき、ここでは再度言及しない。
【0051】
本出願の実施形態によれば、本出願は更に、電子デバイスおよび可読記憶媒体を提供する。
【0052】
図5は、本願の実施形態による語義類似度モデルの訓練方法を実現する電子デバイスのブロック図である。電子デバイスは、様々な形式のデジタルコンピュータ、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、PDA、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータであることが意図される。電子デバイスは、様々な形式のモバイル装置、例えば、PDA、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の類似するコンピューティング装置を示してもよい。本文で示された構成要素、それらの接続及び関係、ならびにそれらの機能は例示にすぎなく、本明細書において説明及び/又は請求される本出願の実現を限定することが意図されない。
【0053】
図5に示すように、この電子デバイスは、一つ又は複数のプロセッサ501、メモリ502、及び各構成要素に接続するための高速インターフェース及び低速インターフェースを含むインターフェースを備える。各構成要素は、異なるバスで相互接続され、そして、共通マザーボードに、又は必要に応じて、他の態様で実装されてもよい。プロセッサは、電子デバイス内で実行されるコマンドを処理してもよく、メモリに記憶される又はメモリ上で外部入力/出力装置(例えば、インターフェースに結合される表示装置)にグラフィカルユーザインターフェースのグラフィカル情報を表示するコマンドを含む。他の実施形態において、必要な場合に、複数のプロセッサ及び/又は複数のバスが、複数のメモリとともに用いられてもよい。同様に、複数の電子デバイスが接続されてもよく、それぞれのデバイスが必要な操作の一部を提供する(例えば、サーババンク、ブレードサーバの集まり、又はマルチプロセッサシステムとする)。図5において、一つのプロセッサ501を例とする。
【0054】
メモリ502は、本出願で提供される非一時的コンピュータ可読記憶媒体である。なお、前記メモリには、少なくとも1つのプロセッサが本願に提供された語義類似度モデルの訓練方法を実行するように、前記少なくとも1つのプロセッサに実行可能なコマンドが記憶されている。本出願の非一時的コンピュータ可読記憶媒体は、本願に提供された語義類似度モデルの訓練方法をコンピュータに実行させるためのコンピュータコマンドを記憶している。
【0055】
メモリ502は、非一時的コンピュータ可読記憶媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能なプログラム、モジュール、例えば、本出願の実施例における語義類似度モデルの訓練方法に対応するプログラムコマンド/モジュール(例えば、図3図4に示された関連モジュール)を記憶するために用いられる。プロセッサ501は、メモリ502に記憶されている非一時的ソフトウェアプログラム、コマンド及びモジュールを実行することで、サーバの様々な機能アプリケーション及びデータ処理を実行し、即ち、上記の方法実施例における語義類似度モデルの訓練方法を実現する。
【0056】
メモリ502は、プログラム記憶領域及びデータ記憶領域を含んでもよく、プログラム記憶領域はオペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラムを記憶してもよく、データ記憶領域は語義類似度モデルの訓練方法を実現する電子デバイスの使用により作成されたデータなどを記憶してもよい。また、メモリ502は、高速ランダムアクセスメモリを含んでもよく、さらに非一時的メモリ、例えば、少なくとも一つの磁気ディスク記憶装置、フラッシュメモリ装置、又は他の非一時的固体記憶装置を含んでもよい。幾つかの実施例において、メモリ502は、プロセッサ501に対して遠隔設置されたメモリを選択的に含んでもよく、これらのリモートメモリは、ネットワークを介して語義類似度モデルの訓練方法を実現する電子デバイスに接続されてもよい。上記のネットワークの実例には、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせが含まれるが、これらに限定されない。
【0057】
語義類似度モデルの訓練方法を実現する当該電子デバイスは、更に、入力装置503と出力装置504とを備えても良い。プロセッサ501、メモリ502、入力装置503及び出力装置504は、バス又は他の手段により接続されても良く、図5においてバスによる接続を例とする。
【0058】
入力装置503は、入力された数字又はキャラクタ情報を受信し、電子デバイスのユーザ設定及び機能制御に関連するキー信号入力を生成でき、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、一つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置504は、表示装置、補助照明装置(例えば、LED)、触覚フィードバック装置(例えば、振動モータ)などを含むことができる。当該表示装置は、液晶ディスプレイ(LCD)、発光ダイオードディスプレイ(LED)、及びプラズマディスプレイを含み得るが、これらに限定されない。いくつかの実施形態では、表示装置はタッチパネルであってもよい。
【0059】
本明細書に説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ASIC(専用集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及びコマンドを受信し、当該記憶システム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置にデータ及びコマンドを送信するようにつなげられた、特殊用途でもよく一般用途でもよい少なくとも一つのプログラマブルプロセッサを含む、プログラマブルシステム上で実行可能及び/又は解釈可能な一つ又は複数のコンピュータプログラムにおける実行を含んでもよい。
【0060】
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又は、コードとも称される)は、プログラマブルプロセッサの機械命令を含み、高水準のプロセス及び/又はオブジェクト向けプログラミング言語、及び/又はアセンブリ/機械言語で実行されることができる。本明細書で用いられる「機械可読媒体」及び「コンピュータ可読媒体」という用語は、機械可読信号としての機械命令を受け取る機械可読媒体を含むプログラマブルプロセッサに機械命令及び/又はデータを提供するのに用いられる任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、及びプログラマブル論理デバイス)を指す。「機械可読信号」という用語は、プログラマブルプロセッサに機械命令及び/又はデータを提供するために用いられる任意の信号を指す。
【0061】
ユーザとのインタラクティブを提供するために、本明細書に説明されるシステムと技術は、ユーザに対して情報を表示するための表示装置(例えば、CRT(ブラウン管)又はLCD(液晶ディスプレイ)モニタ)、ユーザがコンピュータに入力を与えることができるキーボード及びポインティングデバイス(例えば、マウスや、トラックボール)を有するコンピュータ上に実施されることが可能である。その他の種類の装置は、さらに、ユーザとのインタラクションを提供するために使用されることが可能であり、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚的なフィードバック、聴覚的なフィードバック、又は触覚的なフィードバック)であり得、ユーザからの入力は、任意の形態で(音響、音声又は触覚による入力を含む)受信され得る。
【0062】
本明細書に説明されるシステムと技術は、バックエンド構成要素を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア構成要素を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド構成要素を含むコンピューティングシステム(例えば、グラフィカルユーザインターフェースもしくはウェブブラウザを有するクライアントコンピュータであり、ユーザは、当該グラフィカルユーザインターフェースもしくは当該ウェブブラウザを通じて本明細書で説明されるシステムと技術の実施形態とインタラクションすることができる)、そのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムに実施されることが可能である。システムの構成要素は、任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によって相互に接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク(「LAN」)、ワイド・エリア・ネットワーク(「WAN」)、インターネットワークを含む。
【0063】
コンピュータシステムは、クライアントとサーバを含み得る。クライアントとサーバは、一般的に互いから遠く離れており、通常は、通信ネットワークを通じてインタラクトする。クライアントとサーバとの関係は、相応するコンピュータ上で実行され、互いにクライアント-サーバの関係を有するコンピュータプログラムによって生じる。
【0064】
本出願の実施形態の技術案によれば、訓練待ち語義類似度モデルが使用される目標分野を取得し、前記目標分野と既知の複数の訓練データセットのそれぞれに対応する応用分野との関連度を計算し、目標分野と各訓練データセットに対応する応用分野との関連度に基づいて、各訓練データセットを順次に用いて前記語義類似度モデルを訓練する。本出願の実施形態の技術案は、fine-tuning段階では、目標分野と各訓練データセットに対応する応用分野との関連度を参照し、各訓練データセットを用いて語義類似度モデルをより的確に訓練することにより、従来技術において複数の訓練データセットを一緒に統合することで語義類似度モデルに対してモデルが偏ってしまうという問題を克服し、訓練された語義類似度モデルの正確度を効果的に向上させることができる。
【0065】
本出願の実施形態の技術案によれば、複数の訓練データセットを高関連度の訓練データセットの集合と、低関連度の訓練データセットの集合とに分割し、そして低関連度の訓練データセットの集合と高関連度の訓練データセットの集合における各訓練データセットを順に採用して語義類似度モデルを訓練することにより、語義類似度モデルに目標分野との関連度がより高い訓練データセットの情報を段階的に学習させるため、目標分野における語義類似度モデルの正確度をより高くすることができる。従って、本願の実施形態の技術案は、訓練された語義類似度モデルの正確度を効果的に向上させることができる。
【0066】
以上で示された様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除できることを理解されたい。例えば、本出願に説明される各ステップは、並列の順序又は順次的な順序で実施されてもよいし、又は異なる順序で実行されてもよく、本出願で開示された技術案の望ましい結果が達成できる限り、ここで制限されない。
【0067】
前記の具体的な実施形態は本出願の保護範囲に対する制限を構成しない。設計要件及び他の要因に従って、様々な修正、組み合わせ、部分的組み合わせ及び置換を行うことができることを当業者は理解するべきである。本出願の精神及び原則の範囲内で行われる修正、同等の置換、改善は、何れも本出願の保護範囲内に含まれるべきである。
図1
図2
図3
図4
図5