(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024099884
(43)【公開日】2024-07-26
(54)【発明の名称】自然言語処理システム、プログラム及び自然言語処理方法
(51)【国際特許分類】
G06F 40/247 20200101AFI20240719BHJP
G06F 40/216 20200101ALI20240719BHJP
G06F 40/44 20200101ALI20240719BHJP
【FI】
G06F40/247
G06F40/216
G06F40/44
【審査請求】未請求
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2023003486
(22)【出願日】2023-01-13
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.THUNDERBOLT
(71)【出願人】
【識別番号】000005902
【氏名又は名称】株式会社三井E&S
(72)【発明者】
【氏名】美尾 樹
(72)【発明者】
【氏名】滝澤 一樹
【テーマコード(参考)】
5B091
【Fターム(参考)】
5B091AB17
5B091EA01
(57)【要約】 (修正有)
【課題】対象分野でのコーパスを用いた単語埋め込みモデルから類義語グループの作成を行う情報処理システム、プログラム及び情報処理方法を提供する。
【解決手段】情報処理方法は、ユーザ指定のコーパスを用いて、埋め込みモデルを構築しS102,上記コーパス全文に対し、名詞句を抽出しS103、上記名詞句の類似度を算出しS104、予め設定した閾値以上の場合に、類義句と判定しS105、判定されない上記類義句のペア間で共有されない単語を取出しS106、上記単語について、再び類似度を算定し、同様に予め設定した閾値を超える場合S105閾値以上、類義語と判定し、上記類義語ペアの各元を辺とするグラフの各連結成分の頂点を集合させ、類義語グループを作成するS109。
【選択図】
図4
【特許請求の範囲】
【請求項1】
自然言語処理における類義語グループの作成システムであって、
次の各ステップを実行するように構成され、
構築ステップでは、ユーザ指定のコーパスを用いて、埋め込みモデルを構築し、
抽出ステップでは、前記コーパス全文に対し、名詞句を抽出し、
算出ステップ1では、前記埋め込みモデルにより、前記名詞句の類似度を算出し、
判定ステップ1では、前記算出値が予め設定した閾値以上の場合に、類義句と判定し、
取出ステップでは、前記類義句ペア間で共有されない単語を取出し、
算出ステップ2では、前記単語について、前記埋め込みモデルによる類似度を算定し、
判定ステップ2では、前記算定値が予め設定した閾値を超える場合に、類義語と判定し、
集合ステップでは、前記類義語ペアの各元を辺とするグラフの各連結成分の頂点を集合させ、類義語グループとする、もの。
【請求項2】
請求項1に記載の自然言語処理における類義語グループの作成システムにおいて、
前記集合ステップにおける前記類義語グループの作成を、教師データとして予め学習させた学習済みデータをも用いる、もの。
【請求項3】
請求項2に記載の自然言語処理における類義語グループの作成システムにおいて、
前記集合ステップは学習ステップをさらに備え、
前記学習ステップでは、前記作成された類義語グループを教師データとしてさらに加え、前記学習済みデータを生成又は更新する、もの。
【請求項4】
請求項1~3の何れか1つに記載の自然言語処理における類義語グループの作成システムにおいて、
前記コーパスが、予め本文以外のものを削除した電子メールや製品マニュアルである、もの。
【請求項5】
請求項1~請求項3の何れか1つに記載の自然言語処理における類義語グループの作成システムであって、
前記抽出ステップにおける前記名詞句の抽出部分が、前記ユーザが選定した辞書により名詞や形容動詞と判定された語が連続する部分である、もの。
【請求項6】
請求項4に記載の自然言語処理における類義語グループの作成システムであって、
前記抽出ステップにおける前記名詞句の抽出部分が、前記ユーザが選定した辞書により名詞や形容動詞と判定された語が連続する部分である、もの。
【請求項7】
自然言語処理における類義語グループの作成方法であって、
次の各ステップを実行するように構成され、
構築ステップでは、ユーザ指定のコーパスを用いて、埋め込みモデルを構築し、
抽出ステップでは、前記コーパス全文に対し、名詞句を抽出し、
算出ステップ1では、前記埋め込みモデルにより、前記名詞句の類似度を算出し、
判定ステップ1では、前記算出値が予め設定した閾値以上の場合に、類義句と判定し、
取出ステップでは、前記類義句ペア間で共有されない単語を取出し、
算出ステップ2では、前記単語について、前記埋め込みモデルによる類似度を算定し、
判定ステップ2では、前記算定値が予め設定した閾値を超える場合に、類義語と判定し、
集合ステップでは、前記類義語ペアの各元を辺とするグラフの各連結成分の頂点を集合させ、類義語グループとする、方法。
【請求項8】
請求項7に記載の自然言語処理における類義語グループの作成方法において、
前記集合ステップにおける前記類義語グループの作成を、教師データとして予め学習させた学習済みデータをも用いる、方法。
【請求項9】
請求項8に記載の自然言語処理における類義語グループの作成方法において、
前記集合ステップは学習ステップをさらに備え、
前記学習ステップでは、前記作成された類義語グループを教師データとしてさらに加え、前記学習済みデータを生成又は更新する、方法。
【請求項10】
請求項7~9の何れか1つに記載の自然言語処理における類義語グループの作成方法において、
前記コーパスが、予め本文以外のものを削除した電子メールや製品マニュアルである、方法。
【請求項11】
請求項7~請求項9の何れか1つに記載の自然言語処理における類義語グループの作成方法であって、
前記抽出ステップにおける前記名詞句の抽出部分が、前記ユーザが選定した辞書により名詞や形容動詞と判定された語が連続する部分である、方法。
【請求項12】
請求項10に記載の自然言語処理における類義語グループの作成方法であって、
前記抽出ステップにおける前記名詞句の抽出部分が、前記ユーザが選定した辞書により名詞や形容動詞と判定された語が連続する部分である、方法。
【請求項13】
プログラムであって、
コンピュータに、請求項1~6の何れか1つに記載の自然言語における情報処理システムの各ステップを実行させる、もの。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、自然言語処理システム、プログラム及び自然言語処理方法に関する。
【背景技術】
【0002】
ユーザからのウェブページからの問い合わせ等には、チャットボットのような人工知能を活用した自動会話プログラムが使用されるのが一般的である。その際、対象となる分野に関連したコーパスを用いて単語埋め込みモデルを作成し、類義句グループを形成させ、会話応答精度を上げるなどの方法が取られている。
【0003】
特許文献1には自然言語における入力文について、時間表現を抽出し、そのタイプを自動的に分類することで、人工知能を活用した自動会話プログラムの応答能力を上げるシステムが記載されている。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1に開示されるような時間表現を抽出し、そのタイプを自動的に分類するシステムでは時系列の把握において優位性を有するが、それ自体で会話応答精度の向上に適するシステムとなっていない。また自然言語処理において、指定コーパスによる単語埋め込みモデルを使用するのは一般的であるが、上記時間表現の抽出と当該埋め込みモデルとが相互に関連することで会話応答精度を上げるものとはなっていない。
【0006】
本発明では上記事情を鑑み、チャットボットのような人工知能を活用した自動会話プログラムにおける会話応答精度の向上を図るべく、対象となる分野に関連したコーパスを用いた単語埋め込みモデルから類義語グループの選定および作成を行う情報処理システム、プログラム及び情報処理方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明の第1の観点は、
自然言語処理における類義語グループの作成システムであって、
次の各ステップを実行するように構成され、
構築ステップでは、ユーザ指定のコーパスを用いて、埋め込みモデルを構築し、
抽出ステップでは、前記コーパス全文に対し、名詞句を抽出し、
算出ステップ1では、前記埋め込みモデルにより、前記名詞句の類似度を算出し、
判定ステップ1では、前記算出値が予め設定した閾値以上の場合に、類義句と判定し、
取出ステップでは、前記類義句ペア間で共有されない単語を取出し、
算出ステップ2では、前記単語について、前記埋め込みモデルによる類似度を算定し、
判定ステップ2では、前記算定値が予め設定した閾値を超える場合に、類義語と判定し、
集合ステップでは、前記類義語ペアの各元を辺とするグラフの各連結成分の頂点を集合させ、類義語グループとする、ものである。
【0008】
本発明の第2の観点は、
自然言語処理における類義語グループの作成方法であって、
次の各ステップを実行するように構成され、
構築ステップでは、ユーザ指定のコーパスを用いて、埋め込みモデルを構築し、
抽出ステップでは、前記コーパス全文に対し、名詞句を抽出し、
算出ステップ1では、前記埋め込みモデルにより、前記名詞句の類似度を算出し、
判定ステップ1では、前記算出値が予め設定した閾値以上の場合に、類義句と判定し、
取出ステップでは、前記類義句ペア間で共有されない単語を取出し、
算出ステップ2では、前記単語について、前記埋め込みモデルによる類似度を算定し、
判定ステップ2では、前記算定値が予め設定した閾値を超える場合に、類義語と判定し、
集合ステップでは、前記類義語ペアの各元を辺とするグラフの各連結成分の頂点を集合させ、類義語グループとする、方法である。
【0009】
これによれば、ユーザごとの個別設定によって、また対象ごとに類義語グループを作成でき、会話応答精度の向上を可能にする、自然言語における情報処理システム、プログラム及び情報処理方法が提供できる。
【図面の簡単な説明】
【0010】
【
図1】本実施形態に係る情報処理システム1全体図である。
【
図2】サーバ2のハードウェア構成を示すブロック図である。
【
図3】サーバ2によって実現される機能を示すブロック図である。
【発明を実施するための形態】
【0011】
以下、図面を用いて本発明の実施形態について説明する。以下に示す実施形態中で示した各種特徴事項は、互いに組み合わせ可能である。
【0012】
ところで、本実施形態に登場するソフトウェアを実現するためのプログラムは、コンピ
ュータが読み取り可能な非一時的な記録媒体(Non-Transitory Computer-Readable Medium)として提供されてもよいし、外部のサーバからダウンロード可能に提供されてもよいし、外部のコンピュータで当該プログラムを起動させてクライアント端末でその機能を実現(いわゆるクラウドコンピューティング)するように提供されてもよい。
【0013】
また、本実施形態において「部」とは、例えば、広義の回路によって実施されるハード
ウェア資源と、これらのハードウェア資源によって具体的に実現されうるソフトウェアの
情報処理と、を合わせたものも含みうる。また、本実施形態においては様々な情報を取り扱うが、これら情報は、例えば電圧・電流を表す信号値の物理的な値、0または1で構成される2進数のビット集合体としての信号値の高低、または量子的な重ね合わせ(いわゆる量子ビット)によって表され、広義の回路上で通信・演算が実行されうる。
【0014】
また、広義の回路とは、回路(Circuit) 、回路類(Circuitry)、プロセッサ(Processor)、およびメモリ(Memory)等を少なくとも適当に組み合わせることによって実現される回路である。すなわち、特定用途向け集積回(Application Specific Integrated Circuit:ASIC)、プログラマブル論理デバイス(例えば、単純プログラマブル論理デバイス(Simple Programmable Logic Device:SPD)、複合プログラマブル論理デバイス(Complex Programmable Logic Device:CPLD) 、およびフィールドプログラマブルゲートアレイ(Field Programmable Gate Array:FPGA))等を含むものである。
【0015】
1.ハードウェア構成
第1節では、本実施形態のハードウェア構成について説明する。
【0016】
1.1 情報処理システム1
図1は、本実施形態に係る情報処理システム1の全体図である。情報処理システム1は、他のユーザ端末3(例えば、他のユーザ端末3-1、3-2、・・・、3-n)と、自身のサーバ2とを備え、これらがネットワークを通じて接続されている。これらの構成要素についてさらに説明する。ここで、情報処理システム1に例示されるシステムとは、1つ又はそれ以上の装置又は構成要素からなるものである。
【0017】
1.2 サーバ2
サーバ2は、ネットワークに接続されており、選択等により他のユーザ端末3とコーパスや埋込モデルを共有するように構成される。なお共有されるコーパスは、電子メール記録や製品マニュアルが考えられるが、これらに限定されるものではない。また埋め込みモデルについても、word2vecやfastTextなどが考えられるが、これらに限定されるものではない。つまりサーバ2の制御部23における機能のひとつである抽出部232が、上記コーパス全文から名詞句を抽出しているが、上記名詞句の抽出と埋め込みモデルとは無関係である。
【0018】
図2は、サーバ2のハードウェア構成を示すブロック図である。サーバ2は、通信部21と、記憶部22と、制御部23とを有し、これらの構成要素がサーバ2の内部において通信バス20を介して電気的に接続されている。各構成要素についてさらに説明する。
【0019】
通信部21は、USB、IEEE1394、Thunderbolt、有線LANネットワーク通信等といった有線型の通信手段が好ましいものの、無線LANネットワーク通信、3G/LTE/5G等のモバイル通信、Bluetooth(登録商標)通信等を必要に応じて含めてもよい。すなわち、通信部21は、いわゆるネットワークインターフェースであって、上記複数の通信手段の集合として実施することがより好ましい。サーバ2は、通信部21を介して、他のユーザ端末3とコーパスや埋込モデルを共有することができ、制御部23は類義語グループを作成する。詳細は後述する。
【0020】
記憶部22は、他のユーザ端末3と共有しうるコーパスや埋込モデル等を記憶する。これは、例えば、制御部23によって実行されるサーバ2に格納された種々のプログラム等を記憶するソリッドステートドライブ(Solid State Drive:SSD)等のストレージデバイスとして、あるいは、プログラムの演算に係る一時的に必要な情報(引数、配列等)を記憶するランダムアクセスメモリ(Random Access Memory:RAM)等のメモリとして実施されうる。また、これらの組合せであってもよい。詳細は後述する。
【0021】
制御部23は、サーバ2に関連する全体動作の処理・制御を行う。制御部23は、例えば不図示の中央処理装置(Central Processing Unit:CPU)である。制御部23は、記憶部22に記憶された所定のプログラムを読み出すことによって、ユーザが指定するコーパスを認識する。すなわち、記憶部22に記憶されているソフトウェアによる情報処理が、ハードウェアの一例である制御部23によって具体的に実現されることで、制御部23に含まれる機能部として実行されうる。これらについては、次節においてさらに詳述する。なお、制御部23は単一であることに限定されず、機能ごとに複数の制御部23を有するように実施してもよい。またそれらの組合せであってもよい。
【0022】
また制御部23は、記憶部22に記憶された所定のプログラムを読み出すことによって、ユーザ指定のコーパスを用いて、埋め込みモデルを構築し、名詞句を抽出する。その後当該名詞句の類似度の判定等を行い、類義語グループを作成し、記憶部22の別領域に一旦格納する。詳細は後述する。
【0023】
なお類義語ペアについて、上記類義語グループに全てを取り入れる必要はなく、ペアの一部のみでも可能であり、ユーザが取捨選択できるものであってもよい。当該選択の後に一旦格納ではなく、埋め込みモデルやユーザ指定のコーパスに紐付けられて記憶部22に格納されることになる。詳細は後述する。
【0024】
1.3 他のユーザ端末3
他のユーザ端末3はネットワークを介して、コーパスや埋込モデルをサーバ2に提供する、または提供されるように構成されていればよい。サーバ2に格納されている自動応答プログラムにより上記コーパスや埋込モデルが作成されるものでもよい。端末自体が特に限定されるものではなく、エッジデバイスに代表されるような端末装置やノート型PCなど様々なものが対応可能である。またネットワークへの接続については有線、無線を問わない。
【0025】
2.機能構成
本節では、本実施形態の機能構成について説明する。前述の通り、記憶部22に記憶されているソフトウェアによる情報処理がハードウェアの一例である制御部23によって具体的に実現されることで、制御部23に含まれる機能部として実行されうる。
【0026】
図3は、サーバ2(制御部23)によって実現される機能を示すブロック図である。具体的には、サーバ2(制御部23)は、構築部231と、抽出部232と、算出部233と、判定部234と、取出部235と、集合部236を備える。
【0027】
構築部231は、ユーザ指定のコーパスを用いて、埋め込みモデルを構築するよう構成される。例えば構築部231は、他のユーザ端末3から得られうるコーパス、もしくはサーバ2に格納されたコーパスから埋め込みモデルを作成する。ここでのコーパスとは類義語グループの作成における下地となるものであって、ユーザが対象となる分野を指定することで分析の対象領域を限定するものである。
【0028】
なおコーパスを用いて埋め込みモデルを作成することになるが、モデルの精度を高めるべく、ユーザが指定したコーパスの性能に適した前処理を実施してもよい。当然に他のユーザ端末3と共有しうるコーパスが上記前処理を施したものであっても勿論よい。
【0029】
上記埋め込みモデルは、word2vecやfastTextが用いられるが、これに限定されるものではない。ここで上記コーパスは対象となる分野に関連したものであってユーザが指定するものであるため、それにより適合する埋め込みモデルを選択できるのが好ましい。そのため以下に記載の方向ベクトルは、特定の手法かつ学習に固有のものではあるものの、方向ベクトルや相互にモデルのやり取りに差異が生じなければ、組み合わせて用いることも可能なものである。
【0030】
抽出部232は、上記コーパス全文に対して品詞タグ付けや係り受け解析を行い、これに基づいて名詞句を抽出する。具体的には、日本語に対してはUniDic辞書に基づいて形態素解析ソフトウェアMeCabより、名詞や形容動詞と判定された語が連続する部分を抽出し、英語に対しては係り受け解析結果を使用して抽出するなどが想定される。
【0031】
算出部233は、上記埋め込みモデルにより、上記抽出された名詞句の類似度を算出するよう構成される。判定部234は当該類似度を計測し、予め設定された閾値を超える場合には類義句と判定するよう構成される。例えば、上記類似度は、上記名詞句に対するベクトルのコサイン類似度を用いることが想定される。word2vecの場合は句を構成する単語ベクトルの和を用いて算出され、fastTextの場合は、上記単語ベクトルの和のほかに、句全体に対してのベクトルを算出するものであってもよい。
【0032】
そうして、取出部235は、上記算出された値が予め設定された閾値を超えていて、上記類義句ペア間で共有されない単語を取出すよう構成される。その後取り出された単語は、上記と同様に算出部233にて類似度を算出し、判定部234にて予め設定された閾値を超える場合には類義語と判定する。
【0033】
集合部236は、上記類義語ペアの各元を辺とするグラフの各連結成分の頂点を集合させ類義語グループとするよう、構成される。例えば、類義句ペア(燃料 漏洩 量, 燃料 漏れ 量) の間で共有されない単語「漏洩」と「漏れ」があった場合に、その類似度を算出し、閾値以上であれば類義語ペア(漏洩, 漏れ) として認められ、類義語グループとしてカテゴリーが作成されることになる。
【0034】
こうして得られた類義語グループは記憶部22に格納される。またネットワークを介して他のユーザ端末3に送付するよう構成されてもよい。それぞれの端末において対象となる分野に関連したコーパスと埋め込みモデルにおいて上記類義語グループの取り込みの可否については、他のユーザ端末3の各ユーザが適時選択するよう構成されていてもよい。
【0035】
また、上記類義語ペアのそれぞれについて類義語グループに入れるかどうかを決定してもよく、予め設定する閾値についても同様に、独自に設定できるようにプログラミングされていても勿論良い。
【0036】
3.情報処理方法
本節では、前述した自然言語における情報処理システム1の情報処理方法について説明する。この情報処理方法は、次の各ステップを備える。構築ステップでは、ユーザ指定のコーパスを用いて、埋め込みモデルを構築する。抽出ステップでは、上記コーパス全文に対し、名詞句を抽出する。算出ステップ1では、上記埋め込みモデルにより、上記名詞句の類似度を算出する。判定ステップ1では、上記算出値が予め設定した閾値以上の場合に、類義句と判定する。取出ステップでは、上記類義句ペア間で共有されない単語を取出す。算出ステップ2では、上記単語について、上記埋め込みモデルによる類似度を算定する。判定ステップ2では、上記算定値が予め設定した閾値を超える場合に、類義語と判定する。集合ステップでは、上記類義語ペアの各元を辺とするグラフの各連結成分の頂点を集合させ、類義語グループとする。
【0037】
図4は、自然言語における情報処理システム1によって実行される情報処理の流れを示すフローチャート図である。以下、このフローチャート図の各フローに沿って、説明する。
【0038】
チャットボットのような人工知能を活用した自動会話プログラムにおいては、応答内容の精度を向上させるため、予め対象となる分野に関連したコーパスを用いて単語埋め込みモデルを作成し、類義語グループを形成しておくことが有用である。そこでサーバ2を管理するユーザは、まず予め対象となる分野のコーパスを選定および指定しておくことが必要となる(ステップS101)。なおモデルの精度を高めるべく、ユーザが指定したコーパスにおいてメールヘッダや引用マークの除去などのコーパスの性質に適した前処理を実施するのが好ましい。
【0039】
その後、word2vecやfastTextを用いて埋め込みモデルを構築することになる(ステップS102)が、これらに限定されるものではない。ここで上記コーパスは対象となる分野に関連したものであって、ユーザが指定するものであるが、埋め込みモデルとして採用するものを適時選択できるものであっても良い。さらに相互にモデルのやり取りや以下に記載の方向ベクトルに差異が生じなければ組み合わせたものを埋め込みモデルとして構築してもよい。
【0040】
そうしてコーパスから名詞句を抽出し(ステップS103)、名詞句同士の類似度を算出する(ステップS104)。上記類似度とは、名詞句に対するベクトルのコサイン類似度が代表例となる。コサイン類似度とは、名詞句について規格化し、当該名詞句のペアについて規格化ベクトルの内積を計算することとほぼ同義である。両規格化ベクトルのなす角が狭いほど内積は大きくなり、名詞句のベクトルの向きがかなり似通っていることになる。
【0041】
こうして、算出された類似度が予め設定された閾値を超えるか否かを判定し(ステップS105)、上記閾値以上となる場合には類義句ペアの間で共有されない単語を取り出す(ステップS106)。
【0042】
コーパスの全名詞句の集合をN、名詞句のペアをA、Bとすると、類義句ペアの集合Spは以下の式(1-1)で表されることになる。
…(1-1)
sim(A,B)は語句AとBの類似度で、t
pは上記類義句グループ作成の際に予め設定する任意の閾値である。
【0043】
なおステップS105で閾値判定を行った際に、上記閾値tpが後述の閾値twをも超えている場合には、そのまま類義句グループとして作成される(ステップS109)。そうすることで後述の類義語グループを作成することなく、埋め込みモデルにフィードバックをかけられる。
【0044】
類義句ペアの類似度が閾値tpと後述の閾値twの間にある場合は、上述のように類義句ペアの間で共有されない単語を取り出すことになり、取り出された共有されない単語間で再び類似度を算定し(ステップS107)、閾値判定を行う(ステップS108)。
【0045】
上記のように名詞句のペアをA、Bとし、Aに含まれBに含まれない単語をaと表すことにする。同様に、Bに含まれAに含まれない単語をbと表すことにすると、類義語ペアの集合Swは以下の式(1-2)で表されることになる。
…(1-2)
sim(a,b)は語句aとbの類似度で、t
wは上記類義語グループ作成の際に予め設定する任意の閾値である。
【0046】
例えば、Spに属する類義句ペア(燃料 漏洩 量, 燃料 漏れ 量) の間で共有されない単語「漏洩」と「漏れ」があった場合、その類似度を算定し、閾値以上であれば類義語ペア(漏洩, 漏れ) として認められ、当該類義語ペアの各元を辺とするグラフの、各連結成分の頂点を集合させ、類義語グループが作成されることになる(ステップS109)。
【0047】
なお上記の例では、tpを0.6としており、句ペア(燃料 漏洩 量, 燃料 漏れ 量)はSpに属する類義句ペアとなっている。またtwを0.8としており、「漏洩」と「漏れ」は類義語ペアに該当するものである。
【0048】
そうしてこの類義語グループについては、ユーザ指定のコーパスについて紐付けられる形で機械学習における教師データとして保存されてもよい(ステップS110)。なお類義語グループの全てについて教師データとしても良いし、ユーザ指定の類義語ペアのみ教師データとしてもよく、適時選択できるのが望ましい。機械学習を用いることで、コーパスに対して埋め込みモデルの構築および名詞句の抽出、類似度の二度の判定を行う時間の短縮を図りうるため好ましい。
【0049】
その後、記憶部22に一時的に格納された全ての類義語ペアと類義語グループは、上記ユーザの指定によって選別され、選別されたもののみ記憶され、残りについては消去され、一連のステップが終了することになる。
【0050】
こうして作成された類義語グループは、指定されたコーパスや埋め込みモデルと紐付く形でネットワークを介して、他のユーザ端末3と共有されることになる。また他のユーザ端末3が作成した類義語グループなども、データ形式が同じであればネットワークを介してサーバ2に導入できることになる。その際、サーバ2に導入するかどうかをユーザが自由に設定できることは言うまでもない。
【0051】
4.その他
本実施形態に係る情報処理システム1に関して、以下のような態様を採用してもよい。情報処理システム1において、前記集合ステップにおける前記類義語グループの作成を、教師データとして予め学習させた学習済みデータをも用いる、ものである。
機械学習を用いることで、作成された類義語グループの確からしさも判定することができ、さらに学習済みデータを上手く用いることで類似度判定を部分的に行うこともでき、時間の短縮も図れるため、好ましい。
【0052】
上述の機械学習を用いた情報処理システム1において、上記教師データが生成または更新されるものである。教師データの更新によりさらに確からしさが向上する点において、さらに好ましい。時間の短縮についても同様である。
【0053】
情報処理システム1において、上記コーパスが、予め本文以外のものを削除した電子メールや製品マニュアルである、ものである。
製品使用者等からの質問をウェブ上で受ける場合、相手側に待ち時間を発生させないように、チャットボットのような人工知能を活用した自動会話プログラムが使用されるのが一般的である。そこで上記類義語グループを作成するにあたっては、口語調で記載され、製品キーワードや名詞句を抽出しやすい電子メールや製品マニュアルは有用である。さらに名詞句を抽出する際に、ヘッダ情報や引用マークの存在は抽出の精度を下げるため、それらを予め削除されていることでより有用なものとなるからである。
【0054】
情報処理システム1において、上記名詞句の抽出部分が、上記ユーザが選定した辞書により名詞や形容動詞と判定された語が連続する部分である、ものである。
特に日本語においては漢字に「する」を加えて動詞句を構成するものが多いが、形容動詞も同様に漢字からなる複合語の成分に含まれるものである。そのため判定に加えるべく、その連続する部分を句として抽出することでさらに作成された類義語グループの精度が向上するため、好ましい。
例えば、例えば「高度経済成長」の「高度」はUniDic辞書では形容動詞 (UniDic辞書内では形状詞)と判定されるものである。
【0055】
最後に、本発明に係る種々の実施形態を説明したが、これらは、例として提示したものであり、発明の範囲を限定することは意図していない。当該新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。当該実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
【符号の説明】
【0056】
1 :情報処理システム
2 :サーバ
20 :通信バス
21 :通信部
22 :記憶部
23 :制御部
231 :構築部
232 :抽出部
233 :算出部
234 :判定部
235 :取出部
236 :集合部
3 :他のユーザ端末