(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2023-01-24
(45)【発行日】2023-02-01
(54)【発明の名称】情報処理装置、情報処理方法、及びプログラム
(51)【国際特許分類】
G06F 40/151 20200101AFI20230125BHJP
G06F 40/295 20200101ALI20230125BHJP
G06F 40/216 20200101ALI20230125BHJP
【FI】
G06F40/151
G06F40/295
G06F40/216
(21)【出願番号】P 2022156042
(22)【出願日】2022-09-29
【審査請求日】2022-09-29
【早期審査対象出願】
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100166006
【氏名又は名称】泉 通博
(74)【代理人】
【識別番号】100154070
【氏名又は名称】久恒 京範
(74)【代理人】
【識別番号】100153280
【氏名又は名称】寺川 賢祐
(72)【発明者】
【氏名】久保田 信也
(72)【発明者】
【氏名】松本 一則
【審査官】木村 大吾
(56)【参考文献】
【文献】特開2006-092198(JP,A)
【文献】特開2019-082987(JP,A)
【文献】特開2017-091570(JP,A)
【文献】米国特許出願公開第2020/0380075(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/00-40/58
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
テキストデータを取得する取得部と、
前記テキストデータが示す文章から固有表現である単語を抽出する抽出部と、
前記テキストデータに対し、前記抽出部が抽出した単語をマスク記号に置換した置換文章を示すマスクテキストデータを生成するマスクテキストデータ生成部と、
入力した前記マスクテキストデータに対して、前記置換文章の前記マスク記号を除く部分に基づいて、前記マスク記号に対応する一般表現化テキストを予測する予測部と、
前記予測部が出力した予測結果に基づき、前記置換文章の前記マスク記号を前記一般表現化テキストに補正して補正テキストデータとして出力する補正部と
を備える、情報処理装置。
【請求項2】
前記マスクテキストデータ生成部は、前記抽出部が抽出した固有表現である単語の種類毎に、異なる種類の前記マスク記号を用いて前記マスクテキストデータを生成する、
請求項1に記載の情報処理装置。
【請求項3】
固有表現の種類毎に単語を登録した複数の辞書データを記憶している記憶部を更に備え、
前記抽出部は、複数の前記辞書データを用いて、前記テキストデータが示す文章から固有表現である単語を抽出する、
請求項1に記載の情報処理装置。
【請求項4】
固有表現の種類毎に単語を登録した複数の辞書データを記憶している記憶部を更に備え、
前記抽出部は、異なる種類の前記マスク記号に対応する前記辞書データを用いて、前記テキストデータが示す文章から固有表現である単語を抽出する、
請求項2に記載の情報処理装置。
【請求項5】
前記抽出部は、施設名を示す単語については、AIC(Akaike's Information Criterion)を用いて抽出した固有表現の単語に基づいて抽出する、
請求項2に記載の情報処理装置。
【請求項6】
前記抽出部は、抽出した固有表現の単語の候補から、単語の種類毎に予め固有表現ではない単語が登録されている除外単語リストに該当する単語を除外した単語を、抽出結果として出力する、
請求項2に記載の情報処理装置。
【請求項7】
前記記憶部が記憶している施設名の単語を登録した前記辞書データは、施設名を示す所定の1文字の単語を含まない、
請求項3に記載の情報処理装置。
【請求項8】
当該情報処理装置は、固有表現である単語の種類毎に対応する前記一般表現化テキストを予測する複数の前記予測部を備え、
前記予測部のそれぞれは、前記マスクテキストデータに含まれている前記マスク記号のうち対応する前記マスク記号に応じて、前記一般表現化テキストを予測する、
請求項2に記載の情報処理装置。
【請求項9】
前記予測部は、学習済みの学習モデルを有し、
前記学習モデルは、N個の単語を含む文章の1以上かつN未満の単語を前記マスク記号に置換して生成した文章を示す学習用データを入力データとし、前記入力データの1つの前記マスク記号に対して1又は複数の一般表現化されたテキストを出力するように、所定の一般表現化されたテキストを教師データとして学習したモデルである、
請求項1に記載の情報処理装置。
【請求項10】
前記予測部は、入力した前記マスクテキストデータに含まれている1つの前記マスク記号に対応して複数の前記一般表現化テキストを予測結果として出力する場合、前記一般表現化テキスト毎に予測の評価値を更に出力し、
前記補正部は、前記置換文章の前記マスク記号を前記評価値に基づいて複数の前記一般表現化テキストから選択した前記一般表現化テキストに補正する、
請求項1に記載の情報処理装置。
【請求項11】
前記補正部は、
前記評価値が閾値を超える前記一般表現化テキストを選択し、
選択した前記一般表現化テキストが複数存在する場合、前記置換文章の前記マスク記号を選択した前記一般表現化テキスト毎に補正した複数の前記補正テキストデータを出力する、
請求項10に記載の情報処理装置。
【請求項12】
コンピュータが実行する、一般表現の単語を用いた文章を示すデータを生成する情報処理方法であって、
テキストデータを取得するステップと、
前記テキストデータが示す文章から固有表現である単語を抽出するステップと、
前記テキストデータに対し、抽出した単語をマスク記号に置換した置換文章を示すマスクテキストデータを生成するステップと、
入力した前記マスクテキストデータに対して、前記置換文章の前記マスク記号を除く部分に基づいて、前記マスク記号に対応する一般表現化テキストを予測するステップと、
前記一般表現化テキストの予測結果に基づき、前記置換文章の前記マスク記号を前記一般表現化テキストに補正して補正テキストデータとして出力するステップと
を備える、情報処理方法。
【請求項13】
コンピュータにより実行されると、前記コンピュータを請求項1から11のいずれか一項に記載の前記情報処理装置として機能させる、プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法、及びプログラムに関する。
【背景技術】
【0002】
自然言語処理により、ユーザからの質問、話しかけに対する回答等をしたり、ユーザに質問、話しかけ等をしたりする対話アプリケーション、対話ロボット等が知られている。自然言語処理は、種々の技術が開発されており、例えば、自然言語の文章中で省略された主語、目的語を補完したり、文章中の指示代名詞を当該指示代名詞が意味する具体的な単語に置換したりする技術が知られている(例えば、特許文献1を参照)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
このような自然言語処理においては、ネットワーク等から収集して蓄積した自然言語の文章をデータベース化した対話コーパスを用いて学習する学習モデルを用いることがある。しかしながら、ネットワーク等で伝達している対話文等には、特定の企業の情報、特定の価値観を含む情報等といった不要な情報が含まれていることがある。このような情報を含む対話コーパスに基づいて学習モデルを学習すると、例えば、対話アプリケーションが不要な情報を含む回答、話しかけ等を出力してしまうので、不要な情報等が入らないように対話コーパスを作成することが望ましい。従来、このような対話コーパスを作成するために、不要な情報等を人手で修正するアプローチはあったが、多くの労力がかかり、対話コーパスを効率的に生成することは困難であった。
【0005】
そこで、本発明はこれらの点に鑑みてなされたものであり、自然言語の文章から不要な情報を抽出してより一般的な表現へと効率的に補正できるようにすることを目的とする。
【課題を解決するための手段】
【0006】
本発明の第1の態様においては、テキストデータを取得する取得部と、前記テキストデータが示す文章から固有表現である単語を抽出する抽出部と、前記テキストデータに対し、前記抽出部が抽出した単語をマスク記号に置換した置換文章を示すマスクテキストデータを生成するマスクテキストデータ生成部と、入力した前記マスクテキストデータに対して、前記置換文章の前記マスク記号を除く部分に基づいて、前記マスク記号に対応する一般表現化テキストを予測する予測部と、前記予測部が出力した予測結果に基づき、前記置換文章の前記マスク記号を前記一般表現化テキストに補正して補正テキストデータとして出力する補正部とを備える、情報処理装置を提供する。
【0007】
前記マスクテキストデータ生成部は、前記抽出部が抽出した固有表現である単語の種類毎に、異なる種類の前記マスク記号を用いて前記マスクテキストデータを生成してもよい。
【0008】
固有表現の種類毎に単語を登録した複数の辞書データを記憶している記憶部を更に備え、
前記抽出部は、複数の前記辞書データを用いて、前記テキストデータが示す文章から固有表現である単語を抽出してもよい。
【0009】
固有表現の種類毎に単語を登録した複数の辞書データを記憶している記憶部を更に備え、
前記抽出部は、異なる種類の前記マスク記号に対応する前記辞書データを用いて、前記テキストデータが示す文章から固有表現である単語を抽出してもよい。
【0010】
前記抽出部は、施設名を示す単語については、AIC(Akaike's Information Criterion)を用いて抽出した固有表現の単語に基づいて抽出してもよい。
【0011】
前記抽出部は、抽出した固有表現の単語の候補から、単語の種類毎に予め固有表現ではない単語が登録されている除外単語リストに該当する単語を除外した単語を、抽出結果として出力してもよい。
【0012】
前記記憶部が記憶している施設名の単語を登録した前記辞書データは、施設名を示す所定の1文字の単語を含まなくてもよい。
【0013】
当該情報処理装置は、固有表現である単語の種類毎に対応する前記一般表現化テキストを予測する複数の前記予測部を備え、前記予測部のそれぞれは、前記マスクテキストデータに含まれている前記マスク記号のうち対応する前記マスク記号に応じて、前記一般表現化テキストを予測してもよい。
【0014】
前記予測部は、学習済みの学習モデルを有し、前記学習モデルは、N個の単語を含む文章の1以上かつN未満の単語を前記マスク記号に置換して生成した文章を示す学習用データを入力データとし、前記入力データの1つの前記マスク記号に対して1又は複数の一般表現化されたテキストを出力するように、所定の一般表現化されたテキストを教師データとして学習したモデルでもよい。
【0015】
前記予測部は、入力した前記マスクテキストデータに含まれている1つの前記マスク記号に対応して複数の前記一般表現化テキストを予測結果として出力する場合、前記一般表現化テキスト毎に予測の評価値を更に出力し、前記補正部は、前記置換文章の前記マスク記号を前記評価値に基づいて複数の前記一般表現化テキストから選択した前記一般表現化テキストに補正してもよい。
【0016】
前記補正部は、前記評価値が閾値を超える前記一般表現化テキストを選択し、選択した前記一般表現化テキストが複数存在する場合、前記置換文章の前記マスク記号を選択した前記一般表現化テキスト毎に補正した複数の前記補正テキストデータを出力してもよい。
【0017】
本発明の第2の態様においては、コンピュータが実行する、一般表現の単語を用いた文章を示すデータを生成する情報処理方法であって、テキストデータを取得するステップと、前記テキストデータが示す文章から固有表現である単語を抽出するステップと、前記テキストデータに対し、抽出した単語をマスク記号に置換した置換文章を示すマスクテキストデータを生成するステップと、入力した前記マスクテキストデータに対して、前記置換文章の前記マスク記号を除く部分に基づいて、前記マスク記号に対応する一般表現化テキストを予測するステップと、前記一般表現化テキストの予測結果に基づき、前記置換文章の前記マスク記号を前記一般表現化テキストに補正して補正テキストデータとして出力するステップとを備える、情報処理方法を提供する。
【0018】
本発明の第3の態様においては、コンピュータにより実行されると、前記コンピュータを第1の態様に記載の前記情報処理装置として機能させる、プログラム。
【発明の効果】
【0019】
本発明によれば、自然言語の文章から不要な情報を抽出してより一般的な表現へと効率的に補正できるという効果を奏する。
【図面の簡単な説明】
【0020】
【
図1】本実施形態に係る対話システムSの概略構成を示す。
【
図2】本実施形態に係る情報処理装置10の構成例を示す。
【
図3】本実施形態に係る予測部134が有する学習モデルが用いる学習用データの例を示す。
【
図4】本実施形態に係る情報処理装置10の動作フローを示す。
【発明を実施するための形態】
【0021】
<対話システムSの概略構成>
図1は、本実施形態に係る対話システムSの概略構成を示す。対話システムSは、自然言語処理により、ユーザからの質問、話しかけに対する回答等をしたり、ユーザに質問、話しかけ等をしたりする対話システムである。対話システムSは、情報処理装置10と、対話文データベース20と、対話装置30とを備える。
【0022】
情報処理装置10は、ネットワーク等でやりとりされている対話文を示すデータをテキストデータとして収集し、収集したテキストデータに基づくデータベースを生成する(
図1の(1))。テキストデータは、例えば、インターネット等で公開されている対話文を示すデータを含む。情報処理装置10は、サーバ等のコンピュータである。情報処理装置10の動作については後述する。本実施形態において、情報処理装置10が生成するデータベースを対話文データベース20とする。
【0023】
対話文データベース20は、ネットワーク等から収集して蓄積した自然言語の文章をデータベース化した対話コーパスである。対話文データベース20は、ネットワークに接続されており、情報処理装置10及び対話装置30がアクセス可能に構成されている。これに代えて、対話文データベース20は、対話装置30に設けられている記憶装置の一部であってもよい。
【0024】
対話装置30は、対話文データベース20に蓄積されている対話コーパスを用いて、ユーザからの質問、話しかけに対する回答を出力する。対話装置30は、サーバ等のコンピュータである。対話装置30は、情報処理装置10と同一のコンピュータであってもよく、異なるコンピュータであってもよい。対話装置30は、対話ロボット等として動作する装置の一部であってもよい。
【0025】
対話装置30は、学習済みの学習モデルを有する。学習モデルは、対話文データベース20に記憶されている自然言語の文章を入力データとして学習する(
図1の(2))。学習モデルは、例えば、大規模ニューラルネットワーク、深層学習モデル等で構築されている。対話装置30は、このような学習モデルを用いて、ユーザとの対話文を生成して、ユーザとやりとりする(
図1の(3))。このような対話装置30が用いる学習モデルは、種々のモデルが知られており、ここでは詳細な説明を省略する。
【0026】
対話装置30が用いる学習モデルは、より多くの対話文を用いて学習されていることが望ましい。しかしながら、ネットワーク等で伝達している対話文等には、特定の企業の情報、特定の価値観を含む情報といった不要な情報を含む発言、誤った情報を含む発言、反社会的、不快な表現を含む発言等が含まれていることがある。このような発言を含む対話コーパスに基づいて学習モデルを学習すると、例えば、対話アプリケーションが不適切な回答、話しかけ等を出力してしまうことがあった。
【0027】
そこで、ネットワーク等から収集した対話文等から不要な情報等を人手で修正してこのような対話コーパスを作成することもあったが、多くの労力がかかり、対話コーパスを効率的に生成することは困難であった。そこで、本実施形態に係る情報処理装置10は、不要な情報等が入らないように対話コーパスを効率的に作成して対話文データベース20を構築する。このような情報処理装置10について、次に説明する。
【0028】
<情報処理装置10の構成例>
図2は、本実施形態に係る情報処理装置10の構成例を示す。情報処理装置10は、ネットワーク等でやりとりされている対話文を示すデータをテキストデータとして取得し、テキストデータに基づいて一般表現の単語を用いた補正テキストデータを出力する。情報処理装置10は、サーバ等のコンピュータである。情報処理装置10は、通信部110と、記憶部120と、制御部130とを備える。
【0029】
通信部110は、通信ネットワーク等を介してSNS、webサイト、外部のデータベース等の情報にアクセス可能に構成されている。また、通信部110は、対話文データベース20と通信ネットワーク等を介して情報を授受する。通信部110は、対話装置30と通信ネットワーク等を介して通信してもよい。通信部110は、インターネット回線、無線LAN、携帯電話網等の通信ネットワークに接続するためのインターフェースである。
【0030】
記憶部120は、例えば、ROM(Read Only Memory)及びRAM(Random Access Memory)等を含む記憶媒体である。また、記憶部120は、HDD(Hard Disk Drive)及び/又はSSD(Solid State Drive)等の大容量記憶装置を含む記憶媒体であってもよい。記憶部120は、例えば、コンピュータが情報処理装置10として機能する場合、コンピュータを機能させるOS(Operating System)、及びプログラム等の情報を格納してもよい。また、記憶部120は、プログラムの実行時に参照されるデータを含む種々の情報を格納してもよい。
【0031】
また、記憶部120は、情報処理装置10が動作の過程で生成する(又は利用する)中間データ、算出結果、閾値、基準値、及びパラメータ等をそれぞれ記憶してもよい。また、記憶部120は、情報処理装置10内の各部の要求に応じて、記憶したデータを要求元に供給してもよい。
【0032】
制御部130は、情報処理装置10の各部を制御する。例えば、制御部130は、通信部110を介して種々の情報を授受する。制御部130は、例えばCPU(Central Processing Unit)である。制御部130は、GPU(Graphics Processing Unit)を含んでもよい。制御部130は、取得部131と、抽出部132と、マスクテキストデータ生成部133と、予測部134と、補正部135とを有する。言い換えると、CPUは、記憶部120に記憶されたプログラムを実行することにより、取得部131、抽出部132、マスクテキストデータ生成部133、予測部134、及び補正部135を有する制御部130として機能する。
【0033】
取得部131は、テキストデータを取得する。テキストデータは、文章を示すデータである。テキストデータは、会話文を示すデータであることが望ましい。テキストデータは、例えば、「山田さんは、T大学を首席で卒業していてとても優秀ですね。」といった文章を示すデータである。取得部131は、通信部110を制御して、SNS、webサイト、外部のデータベース等からこのようなテキストデータを取得する。
【0034】
抽出部132は、取得部131が取得したテキストデータが示す文章から固有表現である単語を抽出する。抽出部132は、例えば、「山田さんは、T大学を首席で卒業していてとても優秀ですね。」といった文章から「山田さん」、「T大学」といった固有表現の単語を抽出する。抽出部132は、例えば、辞書データを参照して固有表現の単語を抽出する。辞書データは、記憶部120に記憶されていることが望ましい。これに代えて、又はこれに加えて、抽出部132は、ネットワークを介してアクセス可能な辞書データを参照してもよい。
【0035】
また、抽出部132は、アルゴリズム等を用いて、テキストデータが示す文章から固有表現の単語を抽出してもよい。抽出部132は、例えば、形態素解析、探索、機械学習、AIC(赤池情報量基準:Akaike's Information Criterion)等を用いる。AICは、統計的モデルの予測性の良さを、観測地と理論値の差を用いて評価する統計量として知られている。このような統計量を用いて固有表現の単語を抽出することもよく知られており、ここでは詳細な説明を省略する。
【0036】
マスクテキストデータ生成部133は、テキストデータに対し、抽出部132が抽出した単語をマスク記号に置換した置換文章を示すマスクテキストデータを生成する。マスク記号は、予め定められた記号であり、例えば、「$$$」等である。マスクテキストデータ生成部133は、例えば、「山田さんは、T大学を首席で卒業していてとても優秀ですね。」といった文章に対し、抽出部132が抽出した「山田さん」及び「T大学」の単語をマスク記号「$$$」に置換した「$$$は、$$$を首席で卒業していてとても優秀ですね。」といった置換文章を示すマスクテキストデータを生成する。
【0037】
予測部134は、マスクテキストデータ生成部133が生成したマスクテキストデータに対して、置換文章のマスク記号を除く部分に基づいて、マスク記号に対応する一般表現化テキストを予測する。予測部134は、例えば、学習済みの学習モデルを有する。学習モデルは、入力したマスクテキストデータに含まれている1つのマスク記号に対応して1つの一般表現化テキストを予測結果として出力する。予測部134は、例えば、「$$$は、$$$を首席で卒業していてとても優秀ですね。」といった置換文章の「は、を首席で卒業していてとても優秀ですね。」といった部分に基づいて、2つの「$$$」に対応する単語「彼」、「大学」を一般表現化テキストとして出力する。
【0038】
補正部135は、予測部が出力した予測結果に基づき、置換文章のマスク記号を一般表現化テキストに補正して補正テキストデータとして出力する。補正部135は、例えば、置換文章の2つのマスク記号「$$$」に対して予測部134が予測した一般表現化テキスト「彼」及び「大学」に補正した「彼は、大学を首席で卒業していてとても優秀ですね。」といった文章を示す補正テキストデータを出力する。
【0039】
<学習用データの例>
図3は、本実施形態に係る予測部134が有する学習モデルが用いる学習用データの例を示す。学習モデルは、N個の単語を含む文章の1以上かつN未満の単語をマスク記号に置換して生成した文章を示す学習用データを入力データとする。
図3は、「Aさんは、先月に発売されたばかりのB社のC製品を予約し忘れて買えなかったけれど、昨日、D電気店でたまたま売っていたので買ってしまったらしい。」といった文章を示す文章データに基づき、1つの単語をマスク記号に置換して生成した学習用データの例を説明する。このような文章データは、取得部131がネットワーク等を介して取得してもよい。
【0040】
学習用データは、例えば、「Aさん」をマスク記号にした第1学習用データ、「B社」をマスク記号にした第2学習用データ、「C製品」をマスク記号にした第3学習用データ、「D電気店」をマスク記号にした第4学習用データである。学習モデルは、このような学習用データ(入力データ)の1つのマスク記号に対して1又は複数の一般表現化されたテキストを出力するように、所定の一般表現化されたテキストを教師データとして学習する。
【0041】
教師データは、例えば、理想的な回答として情報処理装置10のユーザ等によって選択されたデータであることが望ましい。学習モデルは、例えば、第1学習用データを入力データとした場合、「彼」、「彼女」等を教師データとして学習モデルを学習する。言い換えると、学習モデルは、第1学習用データを入力データとした場合に、「彼」、「彼女」といったテキストデータを出力するように学習する。
【0042】
また、学習モデルは、第2学習用データを入力データとした場合、「最新型」、「話題」等を教師データとして学習モデルを学習する。同様に、学習モデルは、第3学習用データを入力データとした場合は「スマホ」等を教師データとし、第4学習用データを入力データとした場合は「携帯ショップ」等を教師データとして学習モデルを学習する。学習モデルは、このような学習をより多くの学習用データを用いて学習することが望ましい。
【0043】
これにより、予測部134は、マスク記号に対応する一般表現化テキストを精度よく出力するようにチューニングした学習モデルを用いることができる。また、予測部134の学習モデルは、1つの文章データから1又は複数の単語をマスク記号に置換した複数の学習用データを生成し、学習用データ毎に適切な教師データを用いて学習する。これにより、学習モデルは、複数のマスク記号を有するマスクテキストデータであっても、それぞれのマスク記号に対して適切な一般表現化テキストを出力することができる。
【0044】
このような予測部134が有する学習モデルは、Masked Language Model等の既知の学習モデルを用いて実現できる。学習モデルは、例えば、リカレントニューラルネットワーク(RNN)、GPT-2、BERT、ALBERT等の学習モデルの少なくとも一部を利用して構成できる。なお、RNN、GPT-2、BERT、ALBERT等は、既知のモデルなのでここでは学習モデルの具体的な構成については詳細な説明を省略する。
【0045】
以上の本実施形態に係る情報処理装置10は、ネットワーク等からテキストデータを取得し、テキストデータが示す文章の固有表現の単語を一般表現化テキストに補正してから補正テキストデータとして出力する。言い換えると、情報処理装置10は、自然言語の文章から不要な情報を抽出してより一般的な表現へと効率的に補正できる。
【0046】
情報処理装置10が出力する補正テキストデータは、自然言語処理に用いる学習モデルの入力データとして好ましいデータである。したがって、情報処理装置10は、このような補正テキストデータを蓄積してデータベース化することで、例えば、対話装置30が用いる対話コーパスとして適切な対話文データベース20を構築することができる。情報処理装置10は、学習済みの学習モデル等を用いるので、人手によらず自動でこのような対話文データベース20を効率的に構築でき、また、大規模な対話文データベース20も構築できる。以上の情報処理装置10の動作について次に説明する。
【0047】
<情報処理装置10の動作フロー>
図4は、本実施形態に係る情報処理装置10の動作フローを示す。情報処理装置10は、
図4に示すS51からS56の動作を実行して、一般表現の単語を用いた文章を示すデータを生成する。
【0048】
まず、取得部131は、通信部110を制御して、テキストデータを取得する(S51)。取得部131は、取得したテキストデータを記憶部120に記憶させてもよい。次に、抽出部132は、取得部131が取得したテキストデータが示す文章から固有表現である単語を抽出する(S52)。次に、マスクテキストデータ生成部133は、テキストデータに対し、抽出部132が抽出した単語をマスク記号に置換した置換文章を示すマスクテキストデータを生成する(S53)。
【0049】
次に、予測部134は、マスクテキストデータ生成部133が生成したマスクテキストデータに対して、置換文章のマスク記号を除く部分に基づいて、マスク記号に対応する一般表現化テキストを予測する(S54)。次に、補正部135は、予測部134による一般表現化テキストの予測結果に基づき、置換文章のマスク記号を一般表現化テキストに補正して補正テキストデータとして出力する(S55)。
【0050】
補正部135は、記憶部120に補正テキストデータを出力して記憶させてもよく、これに代えて、対話文データベース20、外部のデータベース等に補正テキストデータを出力してもよい。記憶部120は、例えば、補正部135が記憶部120に補正テキストデータを出力した場合、補正テキストデータをデータベースとして蓄積する。
【0051】
情報処理装置10は、動作を終了させるまで、S51からS55の動作を繰り返して補正テキストデータを出力する(S56:No)。なお、情報処理装置10は、S51において取得部131が複数のテキストデータを取得し、複数のテキストデータのそれぞれにS52からS55の動作を実行して、対応する複数の補正テキストデータを出力してもよい。
【0052】
情報処理装置10は、所定の条件を満たしたことに基づき、動作を終了させる(S56:Yes)。所定の条件は、例えば、所定の動作時間、補正テキストデータを蓄積した数又は量、S51からS55の動作の繰り返し数等である。また、情報処理装置10は、情報処理装置10のユーザ等が動作停止を入力したことに応じて、動作を終了させてもよい。制御部130は、補正部135が記憶部120に補正テキストデータを出力した場合、記憶部120に蓄積されたデータベースを対話文データベース20として出力する。
【0053】
以上のように、本実施形態に係る情報処理装置10は、補正テキストデータを蓄積した対話文データベース20を構築できる。そして、対話装置30は、対話文データベース20を用いて学習を行い、ユーザと適切に対話をすることができる。
【0054】
<他の構成例>
以上の本実施形態に係る情報処理装置10において、抽出部132が1つの辞書データを参照してテキストデータが示す文章から固有表現の単語を抽出する例を説明した。ここで、抽出部132は、複数の辞書データを用いてもよい。例えば、記憶部120は、複数の辞書データを記憶していてもよい。
【0055】
抽出部132が抽出する固有表現の単語は、人名、施設名、企業名、地名、その他等といった種類に分類できる単語である。そこで、記憶部120は、例えば、人名辞書、施設名辞書、企業名辞書、地名辞書、その他辞書等といったように、固有表現の種類毎に単語を登録した複数の辞書データを記憶していてもよい。このように、抽出部132が単語の種類毎に専門の辞書を用いることにより、より正確にテキストデータが示す文章から固有表現の単語を抽出することができる。
【0056】
以上の本実施形態に係る情報処理装置10において、マスクテキストデータ生成部133がマスク記号を用いてマスクテキストデータを生成する例を説明した。ここで、マスクテキストデータ生成部133は、抽出部132が抽出した固有表現である単語の種類毎に、異なる種類のマスク記号を用いてマスクテキストデータを生成してもよい。この場合、マスクテキストデータ生成部133は、例えば、人名には「$$$」、施設名には「###」、企業名には「!!!」、地名には「%%%」、その他の単語には「&&&」等のマスク記号を用いる。
【0057】
この場合、抽出部132は、異なる種類のマスク記号に対応する辞書データを用いて、テキストデータが示す文章から固有表現である単語を抽出することになる。マスクテキストデータ生成部133は、一例として、「山田さんは、T大学を首席で卒業していてとても優秀ですね。」といった文章に対し、「$$$は、###を首席で卒業していてとても優秀ですね。」といった置換文章を示すマスクテキストデータを生成する。
【0058】
このように、マスクテキストデータ生成部133が固有表現の単語の種類毎に、対応するマスク記号を用いてマスクテキストデータを生成した場合、予測部134は、全てのマスク記号に対応する一般表現化テキストを一度に予測してもよく、これに代えて、固有表現の単語の種類毎に一般表現化テキストを予測してもよい。
【0059】
この場合、情報処理装置10は、固有表現である単語の種類毎に対応する一般表現化テキストを予測する複数の予測部134を備えてもよい。これにより、予測部134のそれぞれは、マスクテキストデータに含まれているマスク記号のうち対応するマスク記号に応じて、一般表現化テキストを予測する。
【0060】
情報処理装置10は、例えば、人名の一般表現化テキストを予測する第1予測部、施設名の一般表現化テキストを予測する第2予測部、企業名の一般表現化テキストを予測する第3予測部、地名の一般表現化テキストを予測する第4予測部、及びその他の一般表現化テキストを予測する第5予測部を備える。予測部134のそれぞれは、異なる種類の単語に対応する一般化表現テキストを出力するように学習した学習モデルを有することが望ましい。このように、固有表現の単語の種類毎に予測部134を備えることにより、予測部134のそれぞれは一般表現化テキストをより精度よく予測することができる。
【0061】
以上の本実施形態に係る情報処理装置10において、抽出部132が辞書データを参照してテキストデータが示す文章から固有表現の単語を抽出する例を説明したが、これに限定されることはない。抽出部132は、更に、固有表現ではない単語を登録した除外単語リストを用いて、固有表現の単語を抽出してもよい。
【0062】
例えば、抽出部132は、抽出した単語を固有表現の単語の候補とし、除外単語リストを参照する。そして、抽出部132は、抽出した固有表現の単語の候補から除外単語リストに該当する単語を除外した単語を、抽出結果として出力する。除外単語リストは、単語の種類毎に予め固有表現ではない単語が登録されていることが望ましい。これにより、抽出部132は、より精度よく固有表現の単語を抽出することができる。
【0063】
なお、抽出部132が抽出すべき固有表現の単語には、「東京都新宿区区役所前Xホテル」等のように、複数の単語が連結している複合名詞等もある。特に、施設名の単語にこのような単語が多い傾向にある。このような複合名詞を全て辞書に登録すると辞書は膨大なものになることがあり、また、辞書への登録漏れが発生することもある。
【0064】
そこで、抽出部132は、施設名を示す単語については、AICを用いて抽出した固有表現の単語に基づいて抽出してもよい。例えば、AICを用いて複合名詞を抽出した場合、当該複合名詞を抽出単語候補とし、抽出単語候補の末尾の単語が辞書に含まれていることに応じて、抽出単語候補を固有表現の単語として抽出する。なお、末尾の単語は、1語であってもよく、2語又は3語といった複数の単語であってもよい。これにより、例えば、施設名辞書に単語「ホテル」が登録されていることにより、抽出部132は、「東京都新宿区区役所前Xホテル」といった複合名詞を抽出することができる。
【0065】
また、施設名を示す単語には、「上野駅」等のように、末尾の単語が「駅」、「家」、「館」、「寺」といった所定の1文字の単語を含むことがある。しかしながら、所定の1文字の単語は例えば「道の駅」「自然の家」「旅館」などのように、一般名詞に含まれるものが多い、そこで、記憶部120が記憶している施設名の単語を登録した辞書データは、上記のような所定の1文字を含まないものとすることが望ましい。
【0066】
そして、抽出部132は、例えば、AICを用いて複合名詞を抽出し、末尾の単語が辞書データに含まれていることに応じて、抽出した複合名詞を固有表現の単語として抽出する。これにより、抽出部132は、「道の駅」「自然の家」「旅館」といった一般名詞を抽出することなく、より正確に固有表現の単語を抽出することができる。
【0067】
同様に、施設名を示す単語には、末尾の単語が「ダム」、「通り」、「渡し」、「バー」、「おもて」、「いえ」、「うち」、「となり」、「んち」といった施設名辞書に含まれる単語の表現以外にも頻出する(「思い通り」「橋渡し」「カバー」等)ものもある。そこで、記憶部120が記憶している施設名の単語を登録した辞書データからは、これらの所定の文字も、含まれないものとすることが望ましい。
【0068】
そして、抽出部132は、例えば、AICを用いて複合名詞を抽出し、末尾の単語が辞書データに含まれていることに応じて、抽出した複合名詞を固有表現の単語として抽出する。これにより、抽出部132は、より正確に固有表現の単語を抽出することができる。なお、所定の1文字、所定の文字は、記憶部120にリスト化されて記憶されていることが望ましい。
【0069】
なお、施設名を示す単語については、所定の末尾の単語のみを残す(「東京都新宿区区役所前Xホテル」の場合には、「ホテル」のみを残す)ことによって、一般化表現テキストとして、利用することも考えられる。抽出部132は、例えば、AICを用いて複合名詞を抽出し、抽出した複合名詞の末尾の1文字が所定の1文字に一致せず、末尾の単語が所定の文字に一致せず、また、末尾の単語が辞書データに含まれている場合(所定の単語と一致する場合)、末尾の単語以外の当該複合名詞に含まれている文字を削除する。これにより、抽出部132は、当該複合名詞に対するマスクテキストデータ生成部133、予測部134、及び補正部135の動作を省略して、当該複合名詞を一般表現化テキストに変換できる。
【0070】
以上の本実施形態に係る情報処理装置10において、予測部134は、マスクテキストデータに含まれているマスク記号に対応する一般化表現化テキストを予測する例を説明した。ここで、予測部134は、入力したマスクテキストデータに含まれている1つのマスク記号に対応して複数の一般表現化テキストを予測結果として出力してもよい。
【0071】
予測部134は、例えば、「$$$は、とても優秀ですね。」といったマスクテキストデータのマスク記号に対して、「彼」、「彼女」、「コンピュータ」等の複数の単語を一般表現化テキストとして出力する。予測部134は、複数の一般表現化テキストをする場合、一般表現化テキスト毎に予測の評価値を更に出力することが望ましい。
【0072】
そして、補正部135は、予測部134が複数の一般表現化テキストを評価値と共に出力した場合、置換文章のマスク記号を当該評価値に基づいて複数の一般表現化テキストから選択した一般表現化テキストに補正してもよい。補正部135は、例えば、評価値が閾値を超える一般表現化テキストを選択し、マスク記号を選択した一般化表現テキストに補正する。
【0073】
補正部135は、例えば、一般表現化テキストが「彼」、「彼女」、「コンピュータ」であり、評価値が閾値を超えている一般表現化テキストが「彼」の場合、マスクテキストデータを「彼は、とても優秀ですね。」を示す補正テキストデータに補正して出力する。これにより、情報処理装置10は、テキストデータによりマッチする一般表現化テキストを選択してより自然な文章を示す補正テキストデータを出力することができる。
【0074】
なお、補正部135は、選択した一般表現化テキストが複数存在する場合、置換文章のマスク記号を選択した一般表現化テキスト毎に補正した複数の補正テキストデータを出力してもよい。補正部135は、例えば、一般表現化テキストが「彼」、「彼女」、「コンピュータ」であり、評価値が閾値を超えている一般表現化テキストが「彼」及び「彼女」の場合、「彼は、とても優秀ですね。」及び「彼女は、とても優秀ですね。」の2つの補正テキストデータを出力する。
【0075】
これに代えて、補正部135は、予測部134が評価値を出力せずに複数の一般表現化テキストを出力した場合、置換文章のマスク記号を一般表現化テキスト毎に補正した複数の補正テキストデータを出力してもよい。以上のように、情報処理装置10は、効率的により多くの補正テキストデータを出力することができる。
【0076】
以上の本実施形態に係る情報処理装置10は、特別なテキストデータを用意することなく、ネットワーク等を介して収集したテキストデータを用いて、効率的に補正テキストデータを出力することができる。ここで、ネットワーク等でやりとりされているテキストデータには、不要な記号、注釈、URL情報等の自然言語処理には不要な単語等が含まれていることがある。
【0077】
そこで、取得部131は、取得したテキストデータの中から不要な単語を予め除去してもよい。この場合、記憶部120は、不要な単語の情報を登録したNGワードリストを記憶していることが望ましい。これにより、取得部131は、例えば、NGワードリストを参照すること、NGワードリストに基づくパターンマッチング等により、テキストデータの中から不要な単語を予め除去することができる。
【0078】
以上の本実施形態に係る情報処理装置10は、対話装置30が用いる対話文データベース20を生成する例を説明したが、これに限定されることはない。情報処理装置10が出力する補正テキストデータは、自然言語処理に用いられる対話コーパスとして利用できる。したがって、情報処理装置10は、対話コーパスを用いる処理装置であれば、このような処理装置が利用するデータとして補正テキストデータを出力してもよい。
【0079】
なお、本発明により、国連が主導する持続可能な開発目標(SDGs)の目標9「産業と技術革新の基盤をつくろう」に貢献することが可能となる。
【0080】
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を併せ持つ。
【符号の説明】
【0081】
10 情報処理装置
20 対話文データベース
30 対話装置
110 通信部
120 記憶部
130 制御部
131 取得部
132 抽出部
133 マスクテキストデータ生成部
134 予測部
135 補正部
【要約】
【課題】自然言語の文章から不要な情報を抽出してより一般的な表現へと効率的に補正できるようにする。
【解決手段】テキストデータを取得する取得部と、テキストデータが示す文章から固有表現である単語を抽出する抽出部と、抽出部が抽出した単語をマスク記号に置換した置換文章を示すマスクテキストデータを生成するマスクテキストデータ生成部と、入力したマスクテキストデータに対して、置換文章のマスク記号を除く部分に基づいて、マスク記号に対応する一般表現化テキストを予測する予測部と、置換文章のマスク記号を一般表現化テキストに補正して補正テキストデータとして出力する補正部とを備える、情報処理装置。
【選択図】
図2