IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特許7358698語義表現モデルの訓練方法、装置、デバイス及び記憶媒体
<>
  • 特許-語義表現モデルの訓練方法、装置、デバイス及び記憶媒体 図1
  • 特許-語義表現モデルの訓練方法、装置、デバイス及び記憶媒体 図2
  • 特許-語義表現モデルの訓練方法、装置、デバイス及び記憶媒体 図3
  • 特許-語義表現モデルの訓練方法、装置、デバイス及び記憶媒体 図4
  • 特許-語義表現モデルの訓練方法、装置、デバイス及び記憶媒体 図5
  • 特許-語義表現モデルの訓練方法、装置、デバイス及び記憶媒体 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-10-02
(45)【発行日】2023-10-11
(54)【発明の名称】語義表現モデルの訓練方法、装置、デバイス及び記憶媒体
(51)【国際特許分類】
   G06F 16/36 20190101AFI20231003BHJP
【FI】
G06F16/36
【請求項の数】 15
(21)【出願番号】P 2022031735
(22)【出願日】2022-03-02
(65)【公開番号】P2023007367
(43)【公開日】2023-01-18
【審査請求日】2022-03-02
(31)【優先権主張番号】202110738680.7
(32)【優先日】2021-06-30
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】110000877
【氏名又は名称】弁理士法人RYUKA国際特許事務所
(72)【発明者】
【氏名】ジャン、シュアイ
(72)【発明者】
【氏名】ワン、リジエ
(72)【発明者】
【氏名】シャオ、シンヤン
(72)【発明者】
【氏名】チャン、ユエ
【審査官】齊藤 貴孝
(56)【参考文献】
【文献】中国特許出願公開第111143530(CN,A)
【文献】中国特許出願公開第109918663(CN,A)
【文献】米国特許出願公開第2020/0380298(US,A1)
【文献】中国特許出願公開第112733550(CN,A)
【文献】米国特許出願公開第2021/0182662(US,A1)
【文献】特開2020-181486(JP,A)
【文献】特表2019-509551(JP,A)
【文献】特開2017-049681(JP,A)
【文献】特開2006-031198(JP,A)
【文献】米国特許出願公開第2020/0097742(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
コンピュータにより実行される、語義表現モデルの訓練方法であって、
文に対して依存構文解析を行って前記文の構文情報を得ることと、
文に基づいてアンカサンプルを取得し、前記文の構文情報に基づいてポジティブサンプル及びネガティブサンプルを取得することと、
語義表現モデルを用いて、前記アンカサンプル、前記ポジティブサンプル、及び前記ネガティブサンプルをそれぞれ処理して、アンカサンプル語義表現、ポジティブサンプル語義表現、及びネガティブサンプル語義表現を得ることと、
前記アンカサンプル語義表現、前記ポジティブサンプル語義表現、及び前記ネガティブサンプル語義表現に基づいて、比較損失関数を構築することと、
前記比較損失関数に基づいて前記語義表現モデルを訓練することと、
を含む語義表現モデルの訓練方法。
【請求項2】
前記文の構文情報に基づいてポジティブサンプル及びネガティブサンプルを取得することは、
前記文の構文情報に基づいて構文木を構築することと、
前記構文木に含まれる部分木に対応する第1テキストを取得し、前記第1テキストをポジティブサンプルとすることと、
前記部分木における単語に基づいて前記単語を含み且つ前記部分木に対応するテキストと異なる第2テキストを取得し、前記第2テキストをネガティブサンプルとすることと、
を含む請求項1に記載の語義表現モデルの訓練方法。
【請求項3】
コンピュータにより実行される、語義表現モデルの訓練方法であって、
文に基づいてアンカサンプルを取得し、前記文の構文情報に基づいてポジティブサンプル及びネガティブサンプルを取得することと、
語義表現モデルを用いて、前記アンカサンプル、前記ポジティブサンプル、及び前記ネガティブサンプルをそれぞれ処理して、アンカサンプル語義表現、ポジティブサンプル語義表現、及びネガティブサンプル語義表現を得ることと、
前記アンカサンプル語義表現、前記ポジティブサンプル語義表現、及び前記ネガティブサンプル語義表現に基づいて、比較損失関数を構築することと、
前記比較損失関数に基づいて前記語義表現モデルを訓練することと、
を含み、
前記文の構文情報に基づいてポジティブサンプル及びネガティブサンプルを取得することは、
前記文の構文情報に基づいて構文木を構築することと、
前記構文木に含まれる部分木に対応する第1テキストを取得し、前記第1テキストをポジティブサンプルとすることと、
前記部分木における単語に基づいて前記単語を含み且つ前記部分木に対応するテキストと異なる第2テキストを取得し、前記第2テキストをネガティブサンプルとすることと、
を含む、語義表現モデルの訓練方法。
【請求項4】
前記部分木における単語に基づいて前記単語を含み且つ前記部分木に対応するテキストと異なる第2テキストを取得することは、
前記部分木における単語に基づいて、前記文から単語が連続し且つ単語の数が前記ポジティブサンプルに含まれる単語の数と同じであるテキストを第2テキストとして選択する、
ことを含む請求項2または3に記載の語義表現モデルの訓練方法。
【請求項5】
文に基づいてアンカサンプルを取得することは、
前記文をアンカサンプルとし、あるいは、
前記文に対応する構文木に含まれる部分木における単語をアンカサンプルとする、
ことを含む請求項1から4のいずれか1項に記載の語義表現モデルの訓練方法。
【請求項6】
コンピュータにより実行される、語義表現モデルの訓練方法であって、
文に基づいてアンカサンプルを取得し、前記文の構文情報に基づいてポジティブサンプル及びネガティブサンプルを取得することと、
語義表現モデルを用いて、前記アンカサンプル、前記ポジティブサンプル、及び前記ネガティブサンプルをそれぞれ処理して、アンカサンプル語義表現、ポジティブサンプル語義表現、及びネガティブサンプル語義表現を得ることと、
前記アンカサンプル語義表現、前記ポジティブサンプル語義表現、及び前記ネガティブサンプル語義表現に基づいて、比較損失関数を構築することと、
前記比較損失関数に基づいて前記語義表現モデルを訓練することと、
を含み、
文に基づいてアンカサンプルを取得することは、
前記文をアンカサンプルとし、あるいは、
前記文に対応する構文木に含まれる部分木における単語をアンカサンプルとする、
ことを含む、語義表現モデルの訓練方法。
【請求項7】
語義表現モデルの訓練装置であって、
文に対して依存構文解析を行って前記文の構文情報を得る解析モジュールと、
前記文に基づいてアンカサンプルを取得し、前記文の構文情報に基づいてポジティブサンプル及びネガティブサンプルを取得する取得モジュールと、
語義表現モデルを用いて、前記アンカサンプル、前記ポジティブサンプル、及び前記ネガティブサンプルをそれぞれ処理して、アンカサンプル語義表現、ポジティブサンプル語義表現、及びネガティブサンプル語義表現を得る符号化モジュールと、
前記アンカサンプル語義表現、前記ポジティブサンプル語義表現、及び前記ネガティブサンプル語義表現に基づいて、比較損失関数を構築する構築モジュールと、
前記比較損失関数に基づいて前記語義表現モデルを訓練する訓練モジュールと、
を備える語義表現モデルの訓練装置。
【請求項8】
前記取得モジュールは、具体的に、
前記文の構文情報に基づいて構文木を構築し、
前記構文木に含まれる部分木に対応する第1テキストを取得し、前記第1テキストをポジティブサンプルとし、
前記部分木における単語に基づいて、前記単語を含み且つ前記部分木に対応するテキストと異なる第2テキストを取得し、前記第2テキストをネガティブサンプルとする、
請求項7に記載の語義表現モデルの訓練装置。
【請求項9】
語義表現モデルの訓練装置であって、
文に基づいてアンカサンプルを取得し、前記文の構文情報に基づいてポジティブサンプル及びネガティブサンプルを取得する取得モジュールと、
語義表現モデルを用いて、前記アンカサンプル、前記ポジティブサンプル、及び前記ネガティブサンプルをそれぞれ処理して、アンカサンプル語義表現、ポジティブサンプル語義表現、及びネガティブサンプル語義表現を得る符号化モジュールと、
前記アンカサンプル語義表現、前記ポジティブサンプル語義表現、及び前記ネガティブサンプル語義表現に基づいて、比較損失関数を構築する構築モジュールと、
前記比較損失関数に基づいて前記語義表現モデルを訓練する訓練モジュールと、
を備え、
前記取得モジュールは、具体的に、
前記文の構文情報に基づいて構文木を構築し、
前記構文木に含まれる部分木に対応する第1テキストを取得し、前記第1テキストをポジティブサンプルとし、
前記部分木における単語に基づいて、前記単語を含み且つ前記部分木に対応するテキストと異なる第2テキストを取得し、前記第2テキストをネガティブサンプルとする、
語義表現モデルの訓練装置。
【請求項10】
前記取得モジュールは、さらに具体的に、
前記部分木における単語に基づいて、前記文から単語が連続し且つ単語の数が前記ポジティブサンプルに含まれると同じであるテキストを第2テキストとして選択する、
請求項8または9に記載の語義表現モデルの訓練装置。
【請求項11】
前記取得モジュールは、具体的に、
前記文をアンカサンプルとし、あるいは、
前記文に対応する構文木に含まれる部分木における単語をアンカサンプルとする、
請求項から10のいずれか1項に記載の語義表現モデルの訓練装置。
【請求項12】
語義表現モデルの訓練装置であって、
文に基づいてアンカサンプルを取得し、前記文の構文情報に基づいてポジティブサンプル及びネガティブサンプルを取得する取得モジュールと、
語義表現モデルを用いて、前記アンカサンプル、前記ポジティブサンプル、及び前記ネガティブサンプルをそれぞれ処理して、アンカサンプル語義表現、ポジティブサンプル語義表現、及びネガティブサンプル語義表現を得る符号化モジュールと、
前記アンカサンプル語義表現、前記ポジティブサンプル語義表現、及び前記ネガティブサンプル語義表現に基づいて、比較損失関数を構築する構築モジュールと、
前記比較損失関数に基づいて前記語義表現モデルを訓練する訓練モジュールと、
を備え、
前記取得モジュールは、具体的に、
前記文をアンカサンプルとし、あるいは、
前記文に対応する構文木に含まれる部分木における単語をアンカサンプルとする、
語義表現モデルの訓練装置。
【請求項13】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを備え、
前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに請求項1からのいずれか1項に記載の語義表現モデルの訓練方法を実行させる電子デバイス。
【請求項14】
コンピュータに請求項1からのいずれか1項に記載の語義表現モデルの訓練方法を実行させるためのコンピュータコマンドを記憶した非一時的なコンピュータ可読記憶媒体。
【請求項15】
プロセッサにより実行されると、請求項1からのいずれか1項に記載の語義表現モデルの訓練方法を実現するコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、コンピュータ技術の分野に関し、具体的に自然言語処理、ディープラーニングなどの人工知能の分野に関し、特に語義表現モデルの訓練方法、装置、デバイス及び記憶媒体に関する。
【背景技術】
【0002】
自然言語処理を行う際に、語義表現モデルを用いて文を対応する語義表現に変換して後続の処理に供することができる。文の構文構造の違いは、語義の大きな違いを引き起こす。
【0003】
関連技術では、語義表現モデルの構造を修正し、構文情報を導入して語義表現モデルを訓練することが可能である。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本開示は、語義表現モデルの訓練方法、装置、デバイス及び記憶媒体を提供する。
【課題を解決するための手段】
【0005】
本開示の一態様によれば、文に基づいてアンカサンプルを取得し、前記文の構文情報に基づいてポジティブサンプル及びネガティブサンプルを取得し、語義表現モデルを用いて、前記アンカサンプル、前記ポジティブサンプル、及び前記ネガティブサンプルをそれぞれ処理してアンカサンプル語義表現、ポジティブサンプル語義表現、及びネガティブサンプル語義表現を取得し、前記アンカサンプル語義表現、前記ポジティブサンプル語義表現、及び前記ネガティブサンプル語義表現に基づいて比較損失関数を構築し、前記比較損失関数に基づいて前記語義表現モデルを訓練することを含む語義表現モデルの訓練方法を提供する。
【0006】
本開示の別の態様によれば、文に基づいてアンカサンプルを取得し、前記文の構文情報に基づいてポジティブサンプルとネガティブサンプルとを取得する取得モジュールと、語義表現モデルを用いて、前記アンカサンプル、前記ポジティブサンプル、及び前記ネガティブサンプルをそれぞれ処理してアンカサンプル語義表現、ポジティブサンプル語義表現、及びネガティブサンプル語義表現を取得する符号化モジュールと、前記アンカサンプル語義表現、前記ポジティブサンプル語義表現、及び前記ネガティブサンプル語義表現に基づいて比較損失関数を構築する構築モジュールと、前記比較損失関数に基づいて前記語義表現モデルを訓練する訓練モジュールとを備える語義表現モデルの訓練装置を提供する。
【0007】
本開示の別の態様によれば、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを備え、前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに上記の態様のいずれか1項に記載された方法を実行させる電子デバイスを提供する。
【0008】
本開示の別の態様によれば、コンピュータに上記の態様のいずれか1項に記載された方法を実行させるためのコンピュータコマンドを記憶した非一時的なコンピュータ可読記憶媒体を提供する。
【0009】
本開示の別の態様によれば、プロセッサにより実行されると、上記の態様のいずれか1項に記載された方法を実現するコンピュータプログラムを含むコンピュータプログラム製品を提供する。
【0010】
本開示の技術案によれば、モデル構造を修正することなく、文の語義表現が構文情報を含むようにすることができる。
【0011】
理解すべきなのは、本セクションで説明される内容は、本開示の実施形態の重要な又は肝心な特徴を標識することでもなく、本開示の範囲を制限することでもない。本開示の他の特徴は、以下の明細書により容易に理解されるであろう。
【図面の簡単な説明】
【0012】
図面は、本技術案をより良く理解するためのものであり、本願に制限されない。図面において、
図1】本開示の第1実施形態に係る概略図である。
図2】本開示の第2実施形態に係る概略図である。
図3】本開示の第3実施形態に係る概略図である。
図4】本開示の第4実施形態に係る概略図である。
図5】本開示の第5実施形態に係る概略図である。
図6】本開示の実施形態の語義表現モデルの訓練方法のいずれかを実現するための電子デバイスの概略図である。
【発明を実施するための形態】
【0013】
以下、図面に基づいて、本開示の例示的な実施例を説明する。理解を容易にするために、本開示の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。
【0014】
文の構文情報が異なる場合、異なる語義に対応することができる。例えば、「Q1:おばあちゃんが亡くなって孫に相続権があるのか」、「Q2:孫が亡くなっておばあちゃんに相続権があるのか」という2つの文は、字面は似ているが、表現された語義は全く異なる。
【0015】
関連技術では、語義表現モデルの構造を修正することで語義表現に構文情報を含めることが可能であるが、このようなモデル構造を修正する方式は、下流タスクの利用に不利であり、精度の面でも問題がある。
【0016】
図1は、本開示の第1実施形態に係る概略図である。本実施形態により提供される語義表現モデルの訓練方法は、以下を含む。
【0017】
101において、文に基づいてアンカサンプルを取得し、前記文の構文情報に基づいてポジティブサンプルとネガティブサンプルを取得する。
【0018】
102において、語義表現モデルを用いて、前記アンカサンプル、前記ポジティブサンプル、及び前記ネガティブサンプルをそれぞれ処理して、アンカサンプル語義表現、ポジティブサンプル語義表現、及びネガティブサンプル語義表現を取得する。
【0019】
103において、前記アンカサンプル語義表現、前記ポジティブサンプル語義表現、及び前記ネガティブサンプル語義表現に基づいて、比較損失関数を構築する。
【0020】
104において、前記比較損失関数に基づいて、前記語義表現モデルを訓練する。
【0021】
ここで、予め文をサンプルとして収集し、その後に文に基づいて語義表現モデルを訓練することができる。
【0022】
文を取得した後、文を依存構文解析して前記文の構文情報を取得することができる。
【0023】
依存構文解析は自然言語処理のコア技術の1つであり、文における単語間の依存関係を解析することにより文の構文情報を決定することを目的としている。
【0024】
「百度是一家高科技公司」という文を例にすると、その文に対して依存構文解析を行った結果、得られた構文情報を図2に示す。構文情報には文における各単語間の関係を含めることができ、異なる関係には異なる記号で標識することができる。図2における各単語間の関係標識の意味は以下の通りである。即ち、HEDはコア関係であり、文全体のコアを指す。SBVは主述関係であり、主語と述語の間の関係を指す。VOBは動賓関係であり、目的語と述語の間の関係を指す。ATTは定中関係であり、指定語と中心語との関係を指す。
【0025】
文に対して依存構文解析を行うことにより、文の構文情報を容易かつ迅速に取得することができる。
【0026】
文の構文情報を取得した後、構文情報に基づいて構文木を構築することができる。図2に示す例に基づいて、構築された構文木は図3のようになる。
【0027】
構文木を取得した後、前記構文木に含まれる部分木に対応するテキストをポジティブサンプルとし、前記部分木内の単語に基づいて、前記単語を含み且つ前記構文木内の部分木に対応しない別のテキストを取得し、前記別のテキストをネガティブサンプルとすることができる。区別するために、ポジティブサンプルであるテキストを第1テキストと呼び、ネガティブサンプルであるテキストを第2テキストと呼ぶことができる。
【0028】
例えば、図3に示すように、「一家」「高科技」「公司」という3つの単語(token)が構文木中の1つの部分木を構成することができるため、その部分木に対応するテキスト「一家高科技公司」を1つのポジティブサンプルとすることができる。
【0029】
構文木の部分木に基づいてポジティブサンプルとネガティブサンプルを得ることにより、ポジティブサンプルとネガティブサンプルの精度を向上させることができる。
【0030】
ポジティブサンプルに対応する部分木を取得した後、前記部分木内の単語に基づいてネガティブサンプルを取得することができる。
【0031】
語義表現モデルの訓練効果を高めるために、一般にポジティブサンプルとネガティブサンプルは同じ個数の単語を含むことができる。すなわち、前記部分木中の単語に基づいて、前記文から単語が連続し且つ前記ポジティブサンプルに含まれる単語の数と同じ単語数のテキストを第2テキストとして選択することができる。
【0032】
「一家」「高科技」「公司」という3つの単語からなる部分木を例にすると、その中の単語「高科技」に基づいてネガティブサンプルを得ることができる。例えば、テキスト「是一家高科技」には3つの単語が含まれ、且つ3つの単語が連続しており、且つこれら3つの単語に「高科技」が含まれているため、そのテキスト「是一家高科技」をネガティブサンプルとすることができる。
【0033】
ポジティブサンプルの単語数と同じ単語数のテキストをネガティブサンプルとして選択することにより、語義表現モデルの効果を高めることができる。
【0034】
1つのポジティブサンプルに対して、複数のネガティブサンプルを選択することができる。例えば、前記のポジティブサンプル「一家高科技公司」に対して、その中の単語「一家」に基づいて、「百度是一家」を1つのネガティブサンプルとして選択することもできる。
【0035】
アンカサンプルは、上記の文全体の文であってもよく、前記部分木におけるポジティブサンプルとネガティブサンプルに対応する単語であっても良い。例えば、上記の文全体の「百度是一家高科技公司」をアンカサンプルとしてもよく、上記の「高科技」をアンカサンプルとしてもよい。
【0036】
文全体又はポジティブサンプル/ネガティブサンプルに対応する単語を選択することにより、アンカサンプルのデータを拡張し、更に語義表現モデルの効果を高めることができる。
【0037】
アンカサンプル、ポジティブサンプル、ネガティブサンプルを取得した後、それぞれ語義表現モデルに入力して、それぞれ対応する語義表現を取得することができる。
【0038】
語義表現モデルとは、文を対応するベクトル表現に変換するモデルであり、Transformerによる双方向符号化表現(Bidirectional Encoder Representations from Transformers、BERT)、最適化BERT(A Robustly Optimized BERT Pretraining Approach、RoBERTa)、知識強化語義表現(Enhanced Representation from kNowledge IntEgration、ERNIE)など、様々な関連する事前訓練モデル構造を用いることができる。
【0039】
図4に示すように、アンカサンプルが文であることを例にすると、文を語義表現モデルに入力し、出力された表現をアンカサンプル語義表現と呼ぶことができる。ポジティブサンプルを語義表現モデルに入力し、出力された表現をポジティブサンプル語義表現と呼ぶことができる。ネガティブサンプルを語義表現モデルに入力し、出力された表現をネガティブサンプル語義表現と呼ぶことができる。
【0040】
その後、これら3つの語義表現に基づいて比較損失関数を構築することができる。
【0041】
比較損失関数とは、比較学習の際に採用される損失関数である。比較学習は自己教師付き学習の一種であり、ポジティブサンプルを近づけ、ネガティブサンプルを遠ざけることを目的とする。
【0042】
比較損失関数の計算式の一つは、次のように表される。
【数1】
【0043】
ここで、Lは比較損失関数、qはアンカサンプル、kはポジティブサンプル、kはi番目のネガティブサンプルである。ネガティブサンプルの総数はKである。θは語義表現モデルのパラメータである。f(*,θ)は*が語義表現モデルにより処理されて得られた対応する語義表現である。τはスーパーパラメータである。sim()はベクトル間の類似度計算を表す。
【0044】
比較損失関数を取得した後、比較損失関数を用いて語義表現モデルを訓練し、すなわち、あらかじめ設定された終了条件に達するまで、比較損失関数に基づいて語義表現モデルのパラメータを調整することができる。終了条件は、例えば、比較損失関数が収束したり、あらかじめ設定された反復回数に達したりすることである。予め設定された終了条件に達した場合のモデルパラメータを最終的なモデルパラメータとし、対応する語義表現モデルを最終的な語義表現モデルとすることにより、この最終的な語義表現モデルを適用して文を処理して構文情報を含む文に対応する語義表現を得られる。
【0045】
本実施形態では、文の構文情報に基づいてポジティブサンプル及びネガティブサンプルを取得し、アンカサンプル、ポジティブサンプル及びネガティブサンプルに基づいて語義表現モデルを訓練することにより、モデル構造を修正することなく、文の語義表現に構文情報を含ませることができる。
【0046】
更に、本実施形態の方法は、事前訓練プロセスに適用可能であり、すなわち語義表現モデルの事前訓練プロセスにおいて、事前訓練モデルの構造を変更することなく、前記比較損失関数を用いて訓練を行うことができるため、下流タスクに事前訓練モデルを適用する場合に下流タスクが知覚されないようにすることができる。また、下流タスクにこの事前訓練モデルを適用して微調整(finetuning)を行う際にも、構文情報を導入する必要はなく、下流タスクの性能に影響を与えることはない。本実施形態は、語義表現に暗黙的に構文情報を含めることができるため、構文情報を明示的に使用する方法、例えば、各語の親ノードを予測する事前訓練タスクを追加することに比べて、構文の誤りの累積を回避し、語義表現モデルの精度を向上させることができる。
【0047】
図5は、語義表現モデルの訓練装置を提供する本開示の第5の実施形態に係る概略図である。図5に示すように、当該装置500は、取得モジュール501と、符号化モジュール502と、構築モジュール503と、訓練モジュール504とを備える。
【0048】
取得モジュール501は、文に基づいてアンカサンプルを取得し、前記文の構文情報に基づいてポジティブサンプル及びネガティブサンプルを取得する。符号化モジュール502は、語義表現モデルを使用して前記アンカサンプル、前記ポジティブサンプル及び前記ネガティブサンプルをそれぞれ処理してアンカサンプル語義表現、ポジティブサンプル語義表現、及びネガティブサンプル語義表現を得る。構築モジュール503は、前記アンカサンプル語義表現、前記ポジティブサンプル語義表現、及び前記ネガティブサンプル語義表現に基づいて、比較損失関数を構築する。訓練モジュール504は、前記比較損失関数に基づいて前記語義表現モデルを訓練する。
【0049】
幾つかの実施形態では、当該装置500は、前記文について依存構文解析を実行して前記文の構文情報を取得する解析モジュールをさらに備える。
【0050】
幾つかの実施形態では、前記取得モジュール501は、具体的に、前記文の構文情報に基づいて構文木を構築し、前記構文木に含まれる部分木に対応する第1テキストを取得し、前記第1テキストをポジティブサンプルとし、前記部分木における単語に基づいて、前記単語を含み且つ前記部分木に対応するテキストと異なる第2テキストをネガティブサンプルとして取得する。
【0051】
いくつかの実施形態では、前記取得モジュール501は、さらに具体的に、前記部分木における単語に基づいて、前記文から単語が連続し且つ前記ポジティブサンプルが含む単語と同じ数の単語を有するテキストを第2テキストとして選択する。
【0052】
いくつかの実施形態では、前記取得モジュール501は、具体的に、前記文をアンカサンプルとし、あるいは、前記文に対応する構文木に含まれる部分木における単語をアンカサンプルとする。
【0053】
本実施形態では、文の構文情報に基づいてポジティブサンプル及びネガティブサンプルを取得し、アンカサンプル、ポジティブサンプル及びネガティブサンプルに基づいて語義表現モデルを訓練することにより、モデル構造を修正することなく、文の語義表現に構文情報を含ませることができる。
【0054】
理解すべきなのは、本開示の実施形態では、異なる実施形態における同一又は類似の内容が相互に参照され得る。
【0055】
理解すべきなのは、本開示の実施形態における「第1」、「第2」等は、単に区別するためのものであり、重要度の高低、タイミングの前後等を表すものではない。
【0056】
本開示の実施形態によれば、本開示は更に電子デバイス、可読記憶媒体、及びコンピュータプログラム製品を提供する。
【0057】
図6は、本開示の実施形態を実施するために使用され得る例示的な電子デバイス600の模式的なブロック図である。電子デバイスは、ラップトップ、デスクトップコンピュータ、ワークベンチ、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータのような、様々な形態のデジタルコンピュータを表す。電子デバイスは更に、PDA、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すことができる。本明細書に示す構成要素、それらの接続及び関係、ならびにそれらの機能は、単なる一例であり、本明細書に記載及び/又は要求された本開示の実現を制限することではない。
【0058】
図6に示すように、電子デバイス600は、読み取り専用メモリ(ROM)602に記憶されたコンピュータプログラム、又は記憶手段606からランダムアクセスメモリ(RAM)603にロードされたコンピュータプログラムに従って、様々な適切な動作及び処理を実行することができる演算手段601を含む。RAM603には、電子デバイス600の動作に必要な各種のプログラムやデータが記憶されてもよい。演算手段601、ROM602及びRAM603は、バス604を介して接続されている。入出力(I/O)インターフェース605もバス604に接続されている。
【0059】
例えばキーボード、マウス等の入力手段606と、例えば様々なタイプのディスプレイ、スピーカ等の出力手段607と、例えば磁気ディスク、光ディスク等の記憶手段608と、例えばネットワークカード、モデム、無線通信トランシーバなどの通信手段609を含む電子デバイス600の複数の構成要素は、I/Oインターフェース605に接続される。通信手段609は、電子デバイス600が例えばインターネットのコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して他のデバイスと情報/データを交換することを可能にする。
【0060】
演算手段601は、処理能力及び演算能力を有する様々な汎用及び/又は専用の処理コンポーネントであってよい。演算手段601のいくつかの例は、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、様々な専用の人工知能(AI)演算チップ、機械学習モデルアルゴリズムを実行する様々な演算ユニット、デジタル信号プロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。演算手段601は、上述した様々な方法及び処理、例えば語義表現モデルの訓練方法を実行する。例えば、幾つかの実施形態では、語義表現モデルの訓練方法は、例えば記憶手段608のような機械可読媒体に物理的に組み込まれたコンピュータソフトウェアプログラムとして実装されてもよい。幾つかの実施形態では、コンピュータプログラムの一部又は全部は、ROM602及び/又は通信手段609を介して電子デバイス600にロード及び/又はインストールすることができる。コンピュータプログラムがRAM603にロードされ、演算手段601により実行されると、上述した語義表現モデルの訓練方法の1つ又は複数のステップを実行することができる。代替的に、他の実施形態では、演算手段601は、語義表現モデルの訓練方法を実行するように、他の任意の適切な方法で(例えば、ファームウェアを介する)構成されてもよい。
【0061】
本明細書で前述したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、専用集積回路(ASIC)、専用標準製品(ASSP)、システムオンチップシステム(SOC)、ロードプログラマブル論理デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はこれらの組み合わせにおいて実装されてもよい。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含んで良い。当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び/又は解釈することができる。当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであって、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置にデータ及び命令を転送することができる。
【0062】
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせを用いて記述することができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供することにより、プログラムコードがプロセッサ又はコントローラにより実行されると、フローチャート及び/又はブロック図に指定された機能/動作を実行するようにすることができる。プログラムコードは、全てがマシン上で実行されても良く、一部がマシン上で実行されても良く、スタンドアロンパッケージとして一部的にマシン上で実行され且つ一部的にリモートマシン上で実行され、或いは全てがリモートマシン又はサーバ上で実行されても良い。
【0063】
本開示の文脈では、機械可読媒体は、有形の媒体であって、命令実行システム、装置又はデバイスにより使用され、或いは命令実行システム、装置又はデバイスと合わせて使用されるプログラムを含むか記憶することができる。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってよい。機械可読媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体的なシステム、装置又はデバイス、あるいはこれらの任意の適切な組み合わせを含んで良いが、これらに限定されない。機械可読記憶媒体のより具体的な例は、1つ又は複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、携帯型コンパクトディスク読み取り専用メモリ(CD‐ROM)、光学記憶装置、磁気記憶装置、又はこれらの任意の適切な組み合わせを含む。
【0064】
ユーザとのインタラクションを提供するために、本明細書に記載されたシステム及び技術は、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、ユーザにより入力をコンピュータに提供するキーボード及びポインティングデバイス(例えば、マウス又はトラックボール)と備えるコンピュータ上に実施されてよい。他の種類の装置は、ユーザとのインタラクションを提供するためにも使用され得る。例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であって良く、ユーザからの入力を任意の形式(音声入力、音声入力、又は触覚入力を含む)で受信して良い。
【0065】
本明細書に記載されたシステム及び技術は、バックエンド構成要素を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア構成要素を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド構成要素を含むコンピューティングシステム(例えば、グラフィカルユーザインターフェースもしくはウェブブラウザを有するクライアントコンピュータであり、ユーザは、当該グラフィカルユーザインターフェースもしくは当該ウェブブラウザを通じて本明細書で説明されるシステムと技術の実施形態とインタラクションすることができる)、そのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムに実施されることが可能である。システムの構成要素は、任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によって相互に接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク(「LAN」)、ワイド・エリア・ネットワーク(「WAN」)、インターネットワークを含む。
【0066】
コンピュータシステムは、クライアントとサーバを含み得る。クライアントとサーバは、一般的に互いから遠く離れており、通常は、通信ネットワークを通じてインタラクトする。クライアントとサーバとの関係は、相応するコンピュータ上で実行され、互いにクライアント-サーバの関係を有するコンピュータプログラムによって生じる。サーバはクラウドサーバ、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、従来の物理ホストとVPSサービス(「Virtual Private Server」、或いは「VPS」と略称される)において管理が難しく、ビジネスの拡張性が弱いという欠点を解決するクラウドコンピューティングサービスシステムのホスト製品の1つであって良い。サーバは、分散システムのサーバであっても良く、ブロックチェーンを組み合わせたサーバであってもよい。
【0067】
以上で示された様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除できることを理解されたい。例えば、本開示に説明される各ステップは、並列の順序又は順次的な順序で実施されてもよいし、又は異なる順序で実行されてもよく、本開示で開示された技術案の望ましい結果が達成できる限り、ここで制限されない。
【0068】
上記の具体的な実施形態は本開示の保護範囲に対する制限を構成しない。設計要件及び他の要因に従って、様々な修正、組み合わせ、部分的組み合わせ及び置換を行うことができることを当業者は理解するべきである。本開示の精神及び原則の範囲内で行われる修正、同等の置換、改善は、何れも本開示の保護範囲内に含まれるべきである。
図1
図2
図3
図4
図5
図6