特開2023-21636 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ エヌ・ティ・ティ　レゾナント株式会社の特許一覧

特開2023-21636自然言語処理モデル取得装置、自然言語処理装置、自然言語処理モデル取得方法、自然言語処理方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023021636

(43)【公開日】2023-02-14

(54)【発明の名称】自然言語処理モデル取得装置、自然言語処理装置、自然言語処理モデル取得方法、自然言語処理方法及びプログラム

(51)【国際特許分類】

G06F 40/56 20200101AFI20230207BHJP

G06F 40/44 20200101ALI20230207BHJP

【ＦＩ】

G06F40/56

G06F40/44

【審査請求】未請求

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2021126622

(22)【出願日】2021-08-02

【新規性喪失の例外の表示】特許法第３０条第２項適用申請有り・ウェブサイトｈｔｔｐｓ：／／ｗｗｗ．ｎｖｉｄｉａ．ｃｏｍ／ｅｎ－ｕｓ／ｏｎ－ｄｅｍａｎｄ／ｓｅｓｓｉｏｎ／ｇｔｃｓｐｒｉｎｇ２１－ｓ３１２６６／掲載日令和３年４月１２日

(71)【出願人】

【識別番号】504126835

【氏名又は名称】エヌ・ティ・ティレゾナント株式会社

(74)【代理人】

【識別番号】100141139

【弁理士】

【氏名又は名称】及川周

(74)【代理人】

【識別番号】100108453

【弁理士】

【氏名又は名称】村山靖彦

(72)【発明者】

【氏名】中辻真

(72)【発明者】

【氏名】松野繁雄

(72)【発明者】

【氏名】立石修平

(72)【発明者】

【氏名】奥井颯平

(72)【発明者】

【氏名】八島浩文

【テーマコード（参考）】

5B091

【Ｆターム（参考）】

5B091CA21

5B091EA01

(57)【要約】

【課題】自然言語の処理の精度を向上させる技術を提供すること。
【解決手段】処理対象の文章を構成する各単語について語義の曖昧性を解消する語義曖昧性解消処理と、前記文章を構成する各単語と前記語義曖昧性解消処理の結果と前記単語それぞれの前記文章内の位置とに少なくとも基づき前記文章に対する応答を推定する応答推定処理と、を含む数理モデルを実行する数理モデル実行部と、前記応答推定処理の推定の結果に基づき、前記数理モデルを更新する更新部と、を備える自然言語処理モデル取得装置。
【選択図】図１

【特許請求の範囲】

【請求項1】

処理対象の文章を構成する各単語について語義の曖昧性を解消する語義曖昧性解消処理と、前記文章を構成する各単語と前記語義曖昧性解消処理の結果と前記単語それぞれの前記文章内の位置とに少なくとも基づき前記文章に対する応答を推定する応答推定処理と、を含む数理モデルを実行する数理モデル実行部と、
前記応答推定処理の推定の結果に基づき、前記数理モデルを更新する更新部と、
を備える自然言語処理モデル取得装置。

【請求項2】

前記数理モデル実行部は、前記処理対象の文章が含む各単語の属する発話について主題（topic）を推定する、
請求項１に記載の自然言語処理モデル取得装置。

【請求項3】

前記主題を推定する処理の内容は、ＭＭＬ（Masked Language Model）によって更新される、
請求項２に記載の自然言語処理モデル取得装置。

【請求項4】

処理対象の文章を取得する対象取得部と、
処理対象の文章を構成する各単語について語義の曖昧性を解消する語義曖昧性解消処理と、前記文章を構成する各単語と前記語義曖昧性解消処理の結果と前記単語それぞれの前記文章内の位置とに少なくとも基づき前記文章に対する応答を推定する応答推定処理と、を含む数理モデルを実行する数理モデル実行部と、前記応答推定処理の推定の結果に基づき、前記数理モデルを更新する更新部と、を備える自然言語処理モデル取得装置によって更新された前記数理モデルを用いて、前記対象取得部が取得した文章に対する応答の文章を推定する推定部と、
を備える自然言語処理装置。

【請求項5】

処理対象の文章を構成する各単語について語義の曖昧性を解消する語義曖昧性解消処理と、前記文章を構成する各単語と前記語義曖昧性解消処理の結果と前記単語それぞれの前記文章内の位置とに少なくとも基づき前記文章に対する応答を推定する応答推定処理と、を含む数理モデルを実行する数理モデル実行ステップと、
前記応答推定処理の推定の結果に基づき、前記数理モデルを更新する更新ステップと、
を有する自然言語処理モデル取得方法。

【請求項6】

処理対象の文章を取得する対象取得ステップと、
処理対象の文章を構成する各単語について語義の曖昧性を解消する語義曖昧性解消処理と、前記文章を構成する各単語と前記語義曖昧性解消処理の結果と前記単語それぞれの前記文章内の位置とに少なくとも基づき前記文章に対する応答を推定する応答推定処理と、を含む数理モデルを実行する数理モデル実行部と、前記応答推定処理の推定の結果に基づき、前記数理モデルを更新する更新部と、を備える自然言語処理モデル取得装置によって更新された前記数理モデルを用いて、前記対象取得ステップにおいて取得された文章に対する応答の文章を推定する推定ステップと、
を有する自然言語処理方法。

【請求項7】

請求項１から３のいずれか一項に記載の自然言語処理モデル取得装置としてコンピュータを機能させるためのプログラム。

【請求項8】

請求項４に記載の自然言語処理装置としてコンピュータを機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、自然言語処理モデル取得装置、自然言語処理装置、自然言語処理モデル取得方法、自然言語処理方法及びプログラムに関する。

【背景技術】

【0002】

自然言語をコンピュータによって処理する技術である自然言語処理の研究が行われている。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova, “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”,arXiv:1810.04805v2, 24 May 2019

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら言語には、１つの単語の意味が文脈に応じて変化するという多義性が存在する。そのため、自然言語の処理が適切に行われない場合があった。このことは特に対話について生じる場合が多い。

【0005】

上記事情に鑑み、本発明は、自然言語の処理の精度を向上させる技術を提供することを目的としている。

【課題を解決するための手段】

【0006】

本発明の一態様は、処理対象の文章を構成する各単語について語義の曖昧性を解消する語義曖昧性解消処理と、前記文章を構成する各単語と前記語義曖昧性解消処理の結果と前記単語それぞれの前記文章内の位置とに少なくとも基づき前記文章に対する応答を推定する応答推定処理と、を含む数理モデルを実行する数理モデル実行部と、前記応答推定処理の推定の結果に基づき、前記数理モデルを更新する更新部と、を備える自然言語処理モデル取得装置である。

【0007】

本発明の一態様は、処理対象の文章を取得する対象取得部と、処理対象の文章を構成する各単語について語義の曖昧性を解消する語義曖昧性解消処理と、前記文章を構成する各単語と前記語義曖昧性解消処理の結果と前記単語それぞれの前記文章内の位置とに少なくとも基づき前記文章に対する応答を推定する応答推定処理と、を含む数理モデルを実行する数理モデル実行部と、前記応答推定処理の推定の結果に基づき、前記数理モデルを更新する更新部と、を備える自然言語処理モデル取得装置によって更新された前記数理モデルを用いて、前記対象取得部が取得した文章に対する応答の文章を推定する推定部と、を備える自然言語処理装置である。

【0008】

本発明の一態様は、処理対象の文章を構成する各単語について語義の曖昧性を解消する語義曖昧性解消処理と、前記文章を構成する各単語と前記語義曖昧性解消処理の結果と前記単語それぞれの前記文章内の位置とに少なくとも基づき前記文章に対する応答を推定する応答推定処理と、を含む数理モデルを実行する数理モデル実行ステップと、前記応答推定処理の推定の結果に基づき、前記数理モデルを更新する更新ステップと、を有する自然言語処理モデル取得方法である。

【0009】

本発明の一態様は、処理対象の文章を取得する対象取得ステップと、処理対象の文章を構成する各単語について語義の曖昧性を解消する語義曖昧性解消処理と、前記文章を構成する各単語と前記語義曖昧性解消処理の結果と前記単語それぞれの前記文章内の位置とに少なくとも基づき前記文章に対する応答を推定する応答推定処理と、を含む数理モデルを実行する数理モデル実行部と、前記応答推定処理の推定の結果に基づき、前記数理モデルを更新する更新部と、を備える自然言語処理モデル取得装置によって更新された前記数理モデルを用いて、前記対象取得ステップにおいて取得された文章に対する応答の文章を推定する推定ステップと、を有する自然言語処理方法である。

【0010】

本発明の一態様は、上記の自然言語処理モデル取得装置としてコンピュータを機能させるためのプログラムである。

【0011】

本発明の一態様は、上記の自然言語処理装置としてコンピュータを機能させるためのプログラムである。

【発明の効果】

【0012】

本発明により、自然言語の処理の精度を向上させる技術を提供することが可能となる。

【図面の簡単な説明】

【0013】

【図1】実施形態の自然言語処理システムを説明する説明図。

【図2】実施形態における作用埋め込みデータの一例を説明する説明図。

【図3】実施形態における自然言語処理モデル取得装置のハードウェア構成の一例を示す図。

【図4】実施形態における制御部の構成の一例を示す図。

【図5】実施形態における自然言語処理モデル取得装置が実行する処理の流れの一例を示すフローチャート。

【図6】実施形態における自然言語処理装置のハードウェア構成の一例を示す図。

【図7】実施形態における制御部の構成の一例を示す図。

【図8】実施形態における自然言語処理装置が実行する処理の流れの一例を示すフローチャート。

【図9】変形例における発話主題推定処理を説明する説明図。

【図10】変形例における自然言語処理システムを用いた実験の結果の一例を示す第１の図。

【図11】変形例における自然言語処理システムを用いた実験の結果の一例を示す第２の図。

【図12】変形例における自然言語処理システムを用いた実験の結果の一例を示す第３の図。

【図13】変形例における自然言語処理システムの適用先の一例を説明する説明図。

【発明を実施するための形態】

【0014】

（実施形態）
図１は、実施形態の自然言語処理システム１００を説明する説明図である。以下、説明の簡単のため自然言語処理システム１００の処理の対象が対話である場合を例に説明を行う。しかしながら、自然言語処理システム１００の処理の対象は自然言語であればどのようなものであってもよく必ずしも対話に限る必要は無い。自然言語処理システム１００は、自然言語処理モデル取得装置１と自然言語処理装置２を備える。自然言語処理モデル取得装置１は、機械学習等の所定の最適化の方法により、処理対象の文章（以下「作用文章」という。）に応答する文章（以下「応答文章」という。）を推定する数理モデル（以下「自然言語処理モデル」という。）を得る。文章は、単語の系列である。

【0015】

自然言語処理モデル取得装置１は、作用文章に対する応答文章を推定する予め用意された数理モデル（以下「自然言語処理プレモデル」という。）を、上述した所定の最適化の方法により更新する。以下、説明の簡単のため自然言語処理モデルを得る方法が機械学習の方法である場合を例に自然言語処理システム１００を説明する。しかしながら、自然言語処理モデルを得る方法は必ずしも機械学習の方法に限らない。自然言語処理モデルを得る方法は、自然言語処理学習モデルを更新可能であれば、どのような最適化の方法であってもよい。

【0016】

数理モデルは、実行される条件と順番と（以下「実行規則」という。）が予め定められた１又は複数の処理の集合である。数理モデルを実行するとは、数理モデルが含む各種処理を予め定められた実行規則にしたがって実行することを意味する。

【0017】

機械学習の方法において自然言語処理プレモデルは、学習により更新される。すなわち機械学習の方法において自然言語処理プレモデルは、機械学習モデルの１種である。なお、機械学習モデルは、実行される条件と順番とが予め定められた１又は複数の処理を含む集合である。すなわち、機械学習モデルは数理モデルの１種である。学習済みの自然言語処理プレモデルが、自然言語処理モデルである。

【0018】

以下の説明において、Ａであるように学習するとは、機械学習モデルにおけるパラメータの値がＡを満たすように調整されることを意味する。Ａは条件を表す。また、以下、学習用とは、機械学習モデルの更新に用いられることを意味する。

【0019】

学習済みとは、所定の終了条件（以下「学習終了条件」という。）が満たされた、ということを意味する。学習終了条件は、例えば所定の回数の学習が終了した、という条件である。学習終了条件は、例えば機械学習モデルの更新による変化が所定の変化よりも小さい、という条件であってもよい。学習終了条件が満たされた時点の自然言語処理プレモデルが自然言語処理モデルである。

【0020】

自然言語処理プレモデルは、例えばニューラルネットワークによって表現される。なお、ニューラルネットワークとは、電子回路、電気回路、光回路、集積回路等の回路であって機械学習モデルを表現する回路である。学習によってニューラルネットワークが更新されるとは、ニューラルネットワークのパラメータの値が更新されることを意味する。またニューラルネットワークのパラメータは、ニューラルネットワークを構成する回路のパラメータであり、ニューラルネットワークを構成する回路が表現する機械学習モデルのパラメータでもある。なお、機械学習モデルを実行するとは、機械学習モデルを表現する回路が機械学習モデルを実行することを意味する。

【0021】

自然言語処理装置２は、自然言語処理モデル取得装置１が得た自然言語処理モデルを用いて、入力された作用文章に対する応答文章を推定する。

【0022】

＜自然言語処理プレモデルについて＞
自然言語処理プレモデルについてより詳細に説明する。自然言語処理プレモデルは、語義曖昧性解消処理と、応答推定処理とを少なくとも含む。語義曖昧性解消処理は、語義曖昧性解消処理の処理対象の文章が含む各単語の語義の曖昧性を解消する処理である。語義の曖昧性を解消するとは、より具体的には、単語の定義する内容を包含する内容を定義とする単語（以下「上位単語」という。）を推定することを意味する。

【0023】

したがって、語義曖昧性解消処理によって、語義曖昧性解消処理の処理対象の文章が含む各単語について単語ごとに上位単語が得られる。すなわち、語義曖昧性解消処理によって、上位単語の系列（以下「上位単語系列」という。）が得られる。以下、語義曖昧性解消処理によって得られた上位単語の系列を、上位単語系列という。語義の曖昧性の解消する処理は、語義の曖昧性の解消を解消可能な処理であればどのような処理であってもよく、例えば以下の参考文献１に記載のＬＭＭＳ（Language modelling makes sense）である。

【0024】

参考文献１：Daniel Loureiro and Alipio Jorge. 2019. Language modelling makes sense: Propagating representations through WordNet for full-coverage word sense disambiguation.In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 5682-5691.

【0025】

ＬＭＭＳでは例えば以下の式（１）で表される処理により、上位単語の推定が行われる。

【0026】

【数1】

【0027】

式（１）のｔ_ｉ，ｊは、文章（すなわち単語の系列）のｉ番目の発話が含むｊ番目の単語を意味する。式（１）の左辺は、単語ｔ_ｉ，ｊの上位単語を意味する。式（１）のＵ_ｉは、ｉ番目のＵ_ｉを意味する。式（１）の関数ｆは、文章が発話Ｕ_１、・・・、発話Ｕ_ｉ、・・・、発話Ｕ_Ｎｕの系列である場合に、単語ｔ_ｉ，ｊの上位単語を推定する処理を意味する。

【0028】

応答推定処理は、語義曖昧性解消処理の結果に少なくとも基づき、作用文章に対する応答文章を推定する処理である。応答推定処理では、例えば以下のマッチング推定処理が行われる。マッチング推定処理では、応答上位単語系列取得処理と、応答決定処理と、が実行される。

【0029】

応答上位単語系列取得処理は、予め用意された応答文章の候補（以下「応答文章候補」という。）に対して語義曖昧性解消処理を実行することで応答文章候補の上位単語系列を取得する処理である。なお予め用意された、とは例えば後述する記憶部１４又は記憶部２４等の所定の記憶装置に予め記憶済みであることを意味する。

【0030】

応答決定処理は、作用埋め込みデータと応答候補埋め込みデータとに基づき、作用埋め込みデータと応答候補埋め込みデータとの違いの小ささが所定の条件を満たす応答文章候補を作用文章に対する応答文章に決定する処理である。作用埋め込みデータは、少なくとも作用文章と作用文章の上位単語系列とを含む。上述したように文章は単語の系列であるため作用文章を含むとは、作用文章の各単語と、各単語の作用文章内の位置を示す情報（以下「作用文章単語位置情報」という。）と、を含むことを意味する。

【0031】

応答候補埋め込みデータは、少なくとも応答文章候補と応答文章候補の上位単語系列とを含む。上述したように文章は単語の系列であるため応答文章候補を含むとは、作用文章候補の各単語と、各単語の応答文章候補内の位置を示す情報（以下「応答文章候補単語位置情報」という。）と、を含むことを意味する。以下、作用文章単語位置情報と応答文章候補単語位置情報とをそれぞれ区別しない場合、単語位置情報という。

【0032】

作用埋め込みデータと応答埋め込みデータとは、例えば所定のベクトル空間内のベクトルで表現される。すなわち、作用埋め込みデータと応答埋め込みデータとは、所定の埋め込み空間内のベクトルで表現される。以下、情報を表現する所定のベクトル空間内のベクトルを埋め込みベクトルという。

【0033】

作用埋め込みデータは、例えば以下の式（２）で表されるベクトルである。

【0034】

【数2】

【0035】

式（２）における以下の式（３）で表される記号は、作用埋め込みデータの生成に用いられる単語の系列を意味する。Ｎは系列長を意味する。作用埋め込みデータの生成に用いられる単語の系列は、予め定められた所定の条件を満たす発話に属する単語の系列であればどの発話に属する単語の系列であってもよい。作用埋め込みデータの生成に用いられる単語の系列は、例えば作用文章が含む最後の発話に属する単語の系列である。作用埋め込みデータの生成に用いられる単語の系列は、例えば作用文章が含む最後の発話に属する単語の系列と、最後の発話の１つ前の発話に属する単語の系列とであってもよい。

【0036】

【数3】

【0037】

作用埋め込みデータと応答候補埋め込みデータとの違いの小ささは、例えば埋め込みベクトルの類似度を示すコサイン類似度で表現される。

【0038】

図２は、実施形態における作用埋め込みデータの一例を説明する説明図である。図２の作用埋め込みデータは、”input”は作用文章を意味する。文章は、図２の右から順番に発生する。そのため図２の例では“？”という単語が最後に発生する。“Token embedding”は、作用文章が含む単語を意味する。より具体的には、“Token embedding”は、作用文章が含む単語を表現する埋め込みベクトル（以下「単語埋め込みベクトル」という。）を意味する。

【0039】

”Utterance embedding”は、作用文章の各単語の属する発話、を意味する。より具体的には、”Utterance embedding”は、作用文章の各単語の属する発話の主題を表現する埋め込みベクトル（以下「発話主題埋め込みベクトル」という。）を意味する。図２は、例えば”how”という単語から”?”という単語までの合計５つの単語は、”Eu3”の発話に属することを意味する。”Class embedding”は、上位単語を意味する。より具体的には、”Class embedding”は、上位単語を表現する埋め込みベクトル（以下「上位単語埋め込みベクトル」という。）を意味する。

【0040】

“Position embedding”は、作用文章が含む単語の作用文章内の位置を示す。より具体的には、“Position embedding”は、作用文章が含む単語の作用文章内の位置を表現する埋め込みベクトル（以下「位置埋め込みベクトル」という。）を意味する。したがって、”Position embedding”は、作用文章単語位置情報の一例である。このように、図２の例の作用埋め込みデータは”Token embedding”と”Position embedding”との組を含むため、図２の例の作用埋め込みデータは作用文章を含む情報である。そして、図２の例の作用埋め込みデータは、”Class embedding”を含むため、図２の例の作用埋め込みデータは作用文章の上位単語系列を含む情報である。

【0041】

図２の例では、“Eu3”発話に属する単語について“圧縮”の処理が行われることを示す。“圧縮”の処理は、式（２）の処理である。すなわち図２は、式（３）の記号で表される集合の一例は“Eu3”発話に属する単語の集合である、ことを意味する。“圧縮”の処理も埋め込みの処理の一種である。

【0042】

作用埋め込みデータを表現する埋め込みベクトルは、例えば単語埋め込みベクトルと、発話主題埋め込みベクトルと、上位単語埋め込みベクトルと、位置埋め込みベクトルとの和のベクトルである。なお、上述したように作用埋め込みデータは少なくとも作用文章と作用文章の上位単語系列とを含んでいればよいので、作用埋め込みデータは必ずしも発話主題埋め込みベクトルを含む必要は無い。したがって、要埋め込みデータを表現する埋め込みベクトルは、例えば単語埋め込みベクトルと、上位単語埋め込みベクトルと、位置埋め込みベクトルとの和のベクトルであってもよい。図２は作用埋め込みデータを例に埋め込みベクトルの一例を説明したが、このことは応答埋め込みデータについても同様である。

【0043】

＜学習について＞
自然言語処理プレモデルの学習について説明する。自然言語処理プレモデルの学習では、作用文章と作用文章に対する応答の文章として予め定められた文章（以下「正解文章」という。）との対のデータ（以下「学習データ」という。）が用いられる。

【0044】

自然言語処理プレモデルの学習では、学習データの含む作用文章が自然言語処理プレモデルに入力され、自然言語処理プレモデルが作用文章に基づき、作用文章に応答する文章（以下「推定応答文章」という。）を推定する。推定応答文章は、具体的には応答決定処理によって決定された文章である。自然言語処理プレモデルの学習では、推定応答文書と正解文書との違いを小さくするように自然言語処理プレモデルが更新される。

【0045】

自然言語処理プレモデルの学習では、例えば以下の式（４）が表す損失関数を用いた学習が行われる。式（４）の損失関数はヒンジロスの１種である。

【0046】

【数4】

【0047】

式（４）において、以下の式（５）で表される記号は正解の応答を意味し、以下の式（６）で表される記号は不正解の応答を意味する。

【0048】

【数5】

【0049】

【数6】

【0050】

式（４）において、以下の式（７）で表される記号は、推定応答文章を意味する。

【0051】

【数7】

【0052】

図３は、実施形態における自然言語処理モデル取得装置１のハードウェア構成の一例を示す図である。自然言語処理モデル取得装置１は、バスで接続されたＣＰＵ（Central Processing Unit）等のプロセッサ９１とメモリ９２とを備える制御部１１を備え、プログラムを実行する。自然言語処理モデル取得装置１は、プログラムの実行によって制御部１１、入力部１２、通信部１３、記憶部１４及び出力部１５を備える装置として機能する。

【0053】

より具体的には、プロセッサ９１が記憶部１４に記憶されているプログラムを読み出し、読み出したプログラムをメモリ９２に記憶させる。プロセッサ９１が、メモリ９２に記憶させたプログラムを実行することによって、自然言語処理モデル取得装置１は、制御部１１、入力部１２、通信部１３、記憶部１４及び出力部１５を備える装置として機能する。

【0054】

制御部１１は、自然言語処理モデル取得装置１が備える各種機能部の動作を制御する。制御部１１は、例えば自然言語処理プレモデルを実行する。制御部１１は、例えば更新処理を実行する。更新処理は、自然言語処理プレモデルの実行により得られた推定応答文書と正解文書との違いを小さくするように自然言語処理プレモデルを更新する処理である。

【0055】

制御部１１は、例えば出力部１５の動作を制御する。制御部１１は、例えば自然言語処理プレモデルの実行により生じた各種情報を記憶部１４に記録する。制御部１１は、例えば更新処理の実行により生じた各種情報を記憶部１４に記録する。

【0056】

入力部１２は、マウスやキーボード、タッチパネル等の入力装置を含んで構成される。入力部１２は、これらの入力装置を自然言語処理モデル取得装置１に接続するインタフェースとして構成されてもよい。入力部１２は、自然言語処理モデル取得装置１に対する各種情報の入力を受け付ける。

【0057】

通信部１３は、自然言語処理モデル取得装置１を外部装置に接続するための通信インタフェースを含んで構成される。通信部１３は、有線又は無線を介して外部装置と通信する。外部装置は、例えば学習データの送信元の装置である。外部装置は、例えば自然言語処理装置２である。

【0058】

記憶部１４は、磁気ハードディスク装置や半導体記憶装置などのコンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部１４は自然言語処理モデル取得装置１に関する各種情報を記憶する。記憶部１４は、予め自然言語処理プレモデルを記憶する。記憶部１４は、更新後の自然言語処理プレモデルを記憶する。なお、モデルを記憶するとは、モデルを表現する回路の各種パラメータの値を記憶することを意味する。記憶部１４は、例えば入力部１２又は通信部１３を介して入力された情報を記憶する。記憶部１４は、例えば自然言語処理プレモデルの実行により生じた各種情報を記憶する。記憶部１４は、例えば更新処理の実行により生じた各種情報を記憶する。

【0059】

出力部１５は、各種情報を出力する。出力部１５は、例えばＣＲＴ（Cathode Ray Tube）ディスプレイや液晶ディスプレイ、有機ＥＬ（Electro-Luminescence）ディスプレイ等の表示装置を含んで構成される。出力部１５は、これらの表示装置を自然言語処理モデル取得装置１に接続するインタフェースとして構成されてもよい。出力部１５は、例えば入力部１２に入力された情報を出力する。出力部１５は、例えば自然言語処理プレモデルの実行の結果を表示してもよい。出力部１５は、例えば更新処理の実行の結果を表示してもよい。

【0060】

図４は、実施形態における制御部１１の構成の一例を示す図である。制御部１１は、学習データ取得部１１０、自然言語処理プレモデル実行部１２０、更新制御部１３０、記憶制御部１４０、通信制御部１５０及び出力制御部１６０を備える。学習データ取得部１１０は、通信部１３に入力された学習データを取得する。学習データ取得部１１０が取得した学習データは自然言語処理プレモデル実行部１２０に出力される。出力された学習データは自然言語処理プレモデルに入力される。

【0061】

自然言語処理プレモデル実行部１２０は、学習データ取得部１１０の取得した学習データが含む作用文章に対して自然言語処理プレモデルを実行する。作用文章に対する自然言語処理プレモデルの実行により自然言語処理プレモデル実行部１２０は、作用文章に対する推定応答文章を推定する。自然言語処理プレモデル実行部１２０は、語義曖昧性解消部１２１と応答推定部１２２とを備える。語義曖昧性解消部１２１は、作用文章に対して語義曖昧性解消処理を実行する。応答推定部１２２は、少なくとも語義曖昧性解消部１２１の実行結果と作用文章とに基づき、推定応答文章を推定する。

【0062】

更新制御部１３０は、更新処理を実行する。更新制御部１３０は、学習終了条件が満たされているか否かを判定する。更新制御部１３０は、学習終了条件が満たされた場合には、自然言語処理プレモデルを更新せず、自然言語処理プレモデルの学習の処理を終了する。更新制御部１３０は、学習終了条件が満たされた場合には学習の処理を終了しない。

【0063】

記憶制御部１４０は、記憶部１４に各種情報を記録する。通信制御部１５０は通信部１３の動作を制御する。出力制御部１６０は、出力部１５の動作を制御する。

【0064】

図５は、実施形態における自然言語処理モデル取得装置１が実行する処理の流れの一例を示すフローチャートである。学習データ取得部１１０が学習データを取得する（ステップＳ１０１）。次に自然言語処理プレモデル実行部１２０が自然言語処理プレモデルを実行することで、推定応答文章を推定する（ステップＳ１０２）。次に更新制御部１３０が更新処理を実行する（ステップＳ１０３）。次に更新制御部１３０が、学習終了条件が満たされたか否かを判定する（ステップＳ１０４）。学習終了条件が満たされた場合（ステップＳ１０４：ＹＥＳ）、処理が終了する。処理が終了した時点の自然言語処理プレモデルが自然言語処理モデルである。一方、学習終了条件が満たされない場合（ステップＳ１０４：ＮＯ）、ステップＳ１０１の処理に戻る。

【0065】

図６は、実施形態における自然言語処理装置２のハードウェア構成の一例を示す図である。自然言語処理装置２は、バスで接続されたＣＰＵ等のプロセッサ９３とメモリ９４とを備える制御部２１を備え、プログラムを実行する。自然言語処理装置２は、プログラムの実行によって制御部２１、入力部２２、通信部２３、記憶部２４及び出力部２５を備える装置として機能する。

【0066】

より具体的には、プロセッサ９３が記憶部２４に記憶されているプログラムを読み出し、読み出したプログラムをメモリ９４に記憶させる。プロセッサ９３が、メモリ９４に記憶させたプログラムを実行することによって、自然言語処理装置２は、制御部２１、入力部２２、通信部２３、記憶部２４及び出力部２５を備える装置として機能する。

【0067】

制御部２１は、自然言語処理装置２が備える各種機能部の動作を制御する。制御部２１は、例えば自然言語処理モデル取得装置１が得た自然言語処理モデルを実行する。制御部２１は、例えば出力部２５の動作を制御する。制御部２１は、例えば自然言語処理モデルの実行により生じた各種情報を記憶部２４に記録する。

【0068】

入力部２２は、マウスやキーボード、タッチパネル等の入力装置を含んで構成される。入力部２２は、これらの入力装置を自然言語処理装置２に接続するインタフェースとして構成されてもよい。入力部２２は、自然言語処理装置２に対する各種情報の入力を受け付ける。

【0069】

通信部２３は、自然言語処理装置２を外部装置に接続するための通信インタフェースを含んで構成される。通信部２３は、有線又は無線を介して外部装置と通信する。外部装置は、例えば処理対象の作用文章の送信元の装置である。外部装置は、例えば自然言語処理モデル取得装置１である。通信部２３は、自然言語処理モデル取得装置１との通信により、自然言語処理モデルを取得する。

【0070】

記憶部２４は、磁気ハードディスク装置や半導体記憶装置などのコンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部２４は自然言語処理装置２に関する各種情報を記憶する。記憶部２４は、例えば入力部２２又は通信部２３を介して入力された情報を記憶する。記憶部２４は、例えば自然言語処理モデルの実行により生じた各種情報を記憶する。記憶部２４は、例えば自然言語処理モデルを記憶する。

【0071】

出力部２５は、各種情報を出力する。出力部２５は、例えばＣＲＴディスプレイや液晶ディスプレイ、有機ＥＬディスプレイ等の表示装置を含んで構成される。出力部２５は、これらの表示装置を自然言語処理装置２に接続するインタフェースとして構成されてもよい。出力部２５は、例えば入力部２２に入力された情報を出力する。出力部２５は、例えば自然言語処理モデルの実行結果を表示してもよい。

【0072】

図７は、実施形態における制御部２１の構成の一例を示す図である。制御部２１は、対象取得部２１０、推定部２２０、記憶制御部２３０、通信制御部２４０及び出力制御部２５０を備える。対象取得部２１０は、通信部２３に入力された処理対象の作用文章を取得する。推定部２２０は、対象取得部２１０の取得した作用文章に対して自然言語処理モデルを実行する。推定部２２０は、自然言語処理モデルの実行により、作用文章に対する応答文章を推定する。

【0073】

記憶制御部２３０は、記憶部２４に各種情報を記録する。通信制御部２４０は通信部２３の動作を制御する。出力制御部２５０は、出力部２５の動作を制御する。

【0074】

図８は、実施形態における自然言語処理装置２が実行する処理の流れの一例を示すフローチャートである。対象取得部２１０が、通信部２３に入力された処理対象の作用文章を取得する（ステップＳ２０１）。次に推定部２２０が、ステップＳ２０１で取得された作用文章に対して自然言語処理モデルを実行する（ステップＳ２０２）。自然言語処理モデルの実行により推定部２２０は、ステップＳ２０１で取得された作用文章に対する応答文章を推定する。次に、通信制御部２４０は、通信部２３の動作を制御して、所定の送信先に応答文章を送信する（ステップＳ２０３）。所定の送信先は、例えばスピーカーである。このような場合、スピーカーは受信した応答文章を発話する。ステップＳ２０３では、出力制御部２５０が出力部２５の動作を制御して、出力部２５に応答文章を出力させてもよい。

【0075】

このように構成された自然言語処理システム１００は、処理対象の文章が含む各単語の語義の曖昧性を解消し、解消の結果にも基づいて、処理対象の文章に応答する文章を推定する。そのため自然言語処理システム１００は、１つの単語の意味が文脈に応じて変化するという多義性に起因する自然言語の処理の精度の低さを軽減することができる。したがって、自然言語処理システム１００は、自然言語の処理の精度を向上させることができる。

【0076】

（変形例）
なお、自然言語処理プレモデルは発話主題推定処理を含んでもよい。発話主題推定処理は、処理対象の文章が含む各単語の属する発話について主題（topic）を推定する処理である。上述の図２に記載の発話主題埋め込みベクトルは、発話主題推定処理によって推定された話題を表現するベクトルの一例である。

【0077】

図９は、変形例における発話主題推定処理を説明する説明図である。発話主題推定処理はマックスプーリング処理と、主題分布取得処理と、発話埋め込みベクトル取得処理と、を含む。

【0078】

マックスプーリング処理は、発話ごとに各発話が含む各単語埋め込みベクトルの要素の最大値を取得し、取得した値を発話内の単語の並びの順番に並べたベクトル（以下「マックスプールベクトル」という。）を生成する処理である。

【0079】

主題分布取得処理は、主題の分布を取得する処理である。主題分布取得処理は、例えばフィードフォワード・ニューラルネットワークによって実行される。主題分布処理は、例えば以下の式（８）の処理である。

【0080】

【数8】

【0081】

図８の左辺は、予め用意されたＪ個（Ｊは自然数）の主題のうちのｊ番目の主題を表すベクトルである。式（８）中の以下の式（９）で表される記号は共有重み行列を表し、式（８）中の以下の式（１０）で表される記号はバイアスを表すベクトルである。なお、共有重み行列とは、学習時に、学習データ全体で共有される行列であって、重みパラメータを示す行列である。

【0082】

【数9】

【0083】

【数10】

【0084】

なお図９におけるＷ_ｐ，ｑは、式（９）の共有重み行列のｐ行ｑ列の要素を意味する。図９のｔ_１～ｔ_２０は、それぞれ主題を意味する。

【0085】

発話埋め込みベクトル取得処理は、発話を表現する埋め込みベクトル（以下「発話埋め込みベクトル」という。）を取得する処理である。発話埋め込みベクトル取得処理は、例えば以下の式（１１）で表される処理である。

【0086】

【数11】

【0087】

式（１１）の左辺の記号は、文章に含まれるｉ番目の発話を表現する発話埋め込みベクトルを表す。式（１１）中の以下の式（１２）で表される記号は共有重み行列を表し、式（１１）中の以下の式（１３）で表される記号はバイアスを表すベクトルである。なお、式（９）の共有重み行列は、主題（トピック）を学習するための重みパラメータ行列であり、式（１２）の共有重み行列は主題を踏まえて発話を学習するための重みパラメータ行列である。

【0088】

【数12】

【0089】

【数13】

【0090】

式（１１）中の記号Ｔは、予め定められたＪ個の主題を示す量を各要素とするベクトルである。記号Ｔは、具体的には、以下の式（１４）で表されるベクトルである。

【0091】

【数14】

【0092】

このように、発話主題推定処理では、マックスプールベクトルに対応する主題空間内の点（すなわち主題）が推定される。主題空間は発話主題埋め込みベクトルを含む埋め込み空間である。発話主題推定処理では次に、処理対象の文章に含まれる発話と主題との対応関係が推定される。このようにして、発話主題推定処理は、各発話ｕ_ｉについて主題を推定する。

【0093】

自然言語処理プレモデルの学習時には、式（９）、式（１０）、式（１２）及び式（１３）の表す値が更新される。その結果、発話主題推定処理の推定の精度が学習により向上する。

【0094】

発話主題推定処理の学習は、例えばＭＭＬ（Masked Language Model）によって行われてもよい。すなわち発話主題推定処理の内容はＭＭＬによって更新されてもよい。

【0095】

自然言語処理プレモデルが発話主題推定処理を含む場合、自然言語処理プレモデルの学習は、例えば上述の式（４）の損失関数に代えて、例えば以下の式（１５）が表す損失関数を用いて行われる。

【0096】

【数15】

【0097】

Ｌ_ｍは、ＭＭＬにおける損失関数である。αは０以上１以下の予め定められた値である。発話主題推定処理の内容を更新する学習は、語義曖昧性解消処理の内容と応答推定処理との内容を更新する学習の前に予め実行済みであってもよい。

【0098】

＜実験結果＞
自然言語処理システム１００を用いた実験結果について説明する。図１０は、変形例における自然言語処理システム１００を用いた実験の結果の一例を示す第１の図である。実験では、以下のオンライン掲示板にアップロードされた会話（以下「第１実験会話」という。）と、テレビや映画の翻訳であってオンライン上にアップロードされた翻訳に含まれる会話（第２実験会話）と、が用いられた。第１実験会話は３２７３３８６個であった。３２７３３８６個の第１実験会話には総計１２１９０１６０個の発話が含まれていた。第２実験会話は２８３６３８２個であった。２８３６３８２個の会話には総計３４０３７０２５個の発話が含まれていた。

【0099】

実験では、シーケンスを６０文字のサブワードに切り捨てたものが使用された。全てのサブワードについて埋め込みの大きさは５１２次元であった。最後のエンコードについて埋め込みの大きさは５１２次元であった。学習率は１．０から始まり、学習が進むにつれてコサイン減衰で０．００１まで下がった。Ｌ２正則化におけるハイパーパラメータλは０．００００１であった。なお、コサイン減衰とは、Cosineカーブにそって減衰する現象を意味する。

【0100】

なお、シーケンスは、例えば、文を例にすれば、単語のシーケンスを意味する。シーケンスは、対話を例にすれば、発話のシーケンスである。このように、シーケンスは列を意味する。サブワードとは、単語の最小セットを意味する。したがって、「例えば」という単語を例にサブワードの具体例を説明すると、サブワードは「例え」と「ば」との組である。６０文字のサブワードに切り捨てるというのは、例えば６０文字の場合には６０単語であり、６５単語の場合には６０単語に左詰めする処理である。

【0101】

実験では、Recall@kが用いられた。Recall@kは、指定されたクエリに対するＮ個の応答のセットが与えられた場合であって1つの応答のみが関連する場合に、関連する応答が上位ｋ個の候補の応答で発生するかどうかを示す指標である。実験においては、Ｎ＝１００、ｋ＝１のRecall@kが用いられた。

【0102】

実験では以下の５つの処理についてRecall@kが算出された。５つのうちの１つは、ファインチューニングされたＢＥＲＴ（Bidirectional Encoder Representations from Transformers）（以下「処理ａ」という。）であった。５つのうちの１つは、自然言語処理システム１００が実行する処理に以下の制限をかけた処理であった（以下「処理ｂ」という。）。制限は、自然言語処理プレモデルの実行に際して上位単語の推定を行わず、さらに、発話主題推定処理も実行しない、という制限であった。

【0103】

５つのうちの１つは、自然言語処理システム１００が実行する処理に以下の制限をかけた処理であった（以下「処理ｃ」という。）。制限は、自然言語処理プレモデルの実行に際して上位単語の推定を行わない、という制限であった。５つのうちの１つは、自然言語処理システム１００が実行する処理に以下の制限をかけた処理であった（以下「処理ｄ」という。）。制限は、複数の発話を含む文章は処理の対象にしない、という制限であった。５つのうちの最後の１つは、自然言語処理システム１００が実行する処理であって、発話主題推定処理と自然言語処理プレモデルとを実行する処理であった（以下「処理ｅ」という。）。すなわち制限の無い処理であった。

【0104】

図１０の（ａ）は処理ａを意味する。図１０の（ｂ）は処理ｂを意味する。図１０の（ｃ）は処理ｃを意味する。図１０の（ｄ）は処理ｄを意味する。図１０のｅは処理ｅを意味する。

【0105】

図１０の結果Ｄ１０１は第１実験会話を用いた実験の結果を示す。図１０の結果Ｄ１０２は第２実験会話を用いた実験の結果を示す。結果Ｄ１０１も結果Ｄ１０２も、処理ｅのRecall@kが最も高いことを示す。

【0106】

図１１は、変形例における自然言語処理システム１００を用いた実験の結果の一例を示す第２の図である。より具体的には、図１１は、応答推定処理の推定の精度の評価の結果の一例を示す。図１１において”ConvBERT(w/o topics and w/o semantics)”は、上述の処理ｂを意味する。図１１において、”ConvBERT(w/o semantics)”は、上述の処理ｃを意味する。図１１において、”ConvBERT”は、上述の処理ｅを意味する。

【0107】

図１１において“Ｓｅｔ１”は、スレッド型の大規模掲示板データセットを用いた結果を意味する。”OpenSub”は、Ｓｅｔ１を用いた事前学習の後にファインチューニングされたデータセットを用いた結果を意味する。図１１の数値は、数値が大きいほど推定の精度が高いことを示す。したがって、図１１の結果は、”ConvBERT”の応答推定処理の推定の精度が他よりも高いことを示す。

【0108】

図１２は、変形例における自然言語処理システム１００を用いた実験の結果の一例を示す第３の図である。より具体的には、図１２は、単語の推定の精度の評価の結果の一例を示す。図１２における”ConvBERT(w/o topics and w/o semantics)”、”ConvBERT(w/o semantics)”、”ConvBERT”、”BERT-BASE”、”Ｓｅｔ１”及び”OpenSub”の定義は、図１１と同様である。図１２の数値は、数値が大きいほど推定の精度が高いことを示す。したがって、図１２の結果は、”ConvBERT”の単語の推定の精度が他よりも高いことを示す。

【0109】

＜適用例＞
このように自然言語処理システム１００は、少なくとも各単語について上位単語を推定することができる。そのため、自然言語処理システム１００は、各発話における重要な単語を推定する精度が高い。重要な単語とは、他の単語に比べて情報量の多い単語、という意味である。そして各発話における重要な単語は、自然言語処理の分野においてエンティティ、又は、スロットと呼称される単語である。

【0110】

自然言語処理システム１００は各発話における重要な単語を推定する精度が高いため、自然言語処理システム１００は、ユーザが自然言語処理システム１００に入力した文章の意図を高い精度で判定することができる。そこで、自然言語処理システム１００は、例えば、レストラン等の施設の予約を支援する技術に適用可能である。

【0111】

図１３は、変形例における自然言語処理システム１００の適用先の一例を説明する説明図である。図１３は自然言語処理システム１００の適用例の１つとして予約システム３００を示す。予約システム３００は、端末４００と自然言語処理システム１００とを備える。予約システム３００は、ユーザの声による端末４００への入力に応じて、レストランを予約するシステムである。

【0112】

端末４００はプロセッサ９５やメモリ９６等を備えプログラムを実行するコンピュータである。端末４００は、入力部４０１と出力部４０２とを備える。入力部４０１は、音声入力を受け付ける。出力部４０２は、音声を出力する。端末４００は、例えばスマートフォンである。端末４００はパーソナルコンピュータであってもよい。端末４００は人工知能のプログラムを実行可能である。端末４００は自然言語処理システム１００と通信可能に接続されている。

【0113】

端末４００は、人工知能のプログラムの実行により、入力部４０１に入力された音声をテキストデータに変換することと、テキストデータの文章を音声に変換することとが可能である。端末４００の出力したテキストデータは、自然言語処理システム１００が備える自然言語処理装置２に入力される。自然言語処理装置２は、通信部２３を介して端末４００と接続されている。

【0114】

ユーザが端末に入力する音声は例えば「東京駅の近くで７月７日の１８時に予約の空いているレストランの予約をお願い」という音声である。このような場合、自然言語処理装置２は、「東京駅の近くで７月７日の１８時に４人席の予約の空いているレストランの予約をお願い」という文章を示すテキストデータを受信する。自然言語処理装置２の制御部２１は、受信したテキストデータが示す文章に対して、語義曖昧性解消処理を実行する。自然言語処理装置２の制御部２１は、語義曖昧性解消処理の実行の結果に基づき、発話埋め込みベクトル取得処理等のスロットを推定する技術を用いて、スロットを推定する。スロットの推定は、例えば推定部２２０が行う。

【0115】

自然言語処理装置２の制御部２１は、推定したスロットに基づき端末４００が実行する動作を決定する。実行する動作の決定は、例えば推定部２２０が行う。決定された動作を示す情報は、通信制御部２４０により通信部２３を介して、端末４００に送信される。端末４００は、指示された動作を行い、予約を行う。端末４００は、予約の結果を自然言語処理装置２に送信する。自然言語処理装置２は、予約の結果を受信し、受信した結果を用いて、応答文章を生成する。受信した結果を用いた応答文章の生成は、例えば回答候補の中の文を返す方法で行われる。応答文章の生成は、例えば推定部２２０が行う。

【0116】

応答文章は、例えば「７月７日の１８時に、あいうえおレストランの４人席の予約ができました」という文章である。自然言語処理装置２の生成した応答文章は通信部２３を介して端末４００に送信される。応答文章を受信した端末４００の出力部４０２は、応答文章を音声で出力する。なお、図１３に記載の“対話型人工知能サービス”とは装置である。

【0117】

このようにして自然言語処理装置２は、レストランの予約を支援する技術に適用される。なお、予約の対象は必ずしもレストランに限らない。

【0118】

なお、自然言語処理モデル取得装置１と自然言語処理装置２とはそれぞれ、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。この場合、自然言語処理モデル取得装置１と自然言語処理装置２とのそれぞれが備える各機能部は、複数の情報処理装置に分散して実装されてもよい。

【0119】

なお、自然言語処理システム１００はそれぞれ、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。この場合、自然言語処理システム１００それぞれが備える各機能部は、複数の情報処理装置に分散して実装されてもよい。

【0120】

なお、自然言語処理モデル取得装置１と自然言語処理装置２と自然言語処理システム１００との各機能の全て又は一部は、ＡＳＩＣ（Application Specific Integrated Circuit）やＰＬＤ（Programmable Logic Device）やＦＰＧＡ（Field Programmable Gate Array）等のハードウェアを用いて実現されてもよい。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。プログラムは、電気通信回線を介して送信されてもよい。

【0121】

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

【0122】

なお、自然言語処理プレモデル実行部１２０は数理モデル実行部の一例である。更新制御部１３０は、更新部の一例である。

【符号の説明】

【0123】

１００…自然言語処理システム、１…自然言語処理モデル取得装置、２…自然言語処理装置、１１…制御部、１２…入力部、１３…通信部、１４…記憶部、１５…出力部、１１０…学習データ取得部、１２０…自然言語処理プレモデル実行部、１３０…更新制御部、１４０…記憶制御部、１５０…通信制御部、１６０…出力制御部、１２１…語義曖昧性解消部、１２２…応答推定部、２１…制御部、２２…入力部、２３…通信部、２４…記憶部、２５…出力部、２１０…対象取得部、２２０…推定部、２３０…記憶制御部、２４０…通信制御部、２５０…出力制御部、３００…予約システム、４００…端末、４０１…入力部、４０２…出力部、９１…プロセッサ、９２…メモリ、９３…プロセッサ、９４…メモリ、９５…プロセッサ、９６…メモリ

【図1】