特開2024-99884 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 三井造船株式会社の特許一覧

特開2024-99884自然言語処理システム、プログラム及び自然言語処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024099884

(43)【公開日】2024-07-26

(54)【発明の名称】自然言語処理システム、プログラム及び自然言語処理方法

(51)【国際特許分類】

G06F 40/247 20200101AFI20240719BHJP

G06F 40/216 20200101ALI20240719BHJP

G06F 40/44 20200101ALI20240719BHJP

【ＦＩ】

G06F40/247

G06F40/216

G06F40/44

【審査請求】未請求

【請求項の数】13

【出願形態】ＯＬ

(21)【出願番号】P 2023003486

(22)【出願日】2023-01-13

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＴＨＵＮＤＥＲＢＯＬＴ

(71)【出願人】

【識別番号】000005902

【氏名又は名称】株式会社三井Ｅ＆Ｓ

(72)【発明者】

【氏名】美尾樹

(72)【発明者】

【氏名】滝澤一樹

【テーマコード（参考）】

5B091

【Ｆターム（参考）】

5B091AB17

5B091EA01

(57)【要約】（修正有）

【課題】対象分野でのコーパスを用いた単語埋め込みモデルから類義語グループの作成を行う情報処理システム、プログラム及び情報処理方法を提供する。
【解決手段】情報処理方法は、ユーザ指定のコーパスを用いて、埋め込みモデルを構築しＳ１０２，上記コーパス全文に対し、名詞句を抽出しＳ１０３、上記名詞句の類似度を算出しＳ１０４、予め設定した閾値以上の場合に、類義句と判定しＳ１０５、判定されない上記類義句のペア間で共有されない単語を取出しＳ１０６、上記単語について、再び類似度を算定し、同様に予め設定した閾値を超える場合Ｓ１０５閾値以上、類義語と判定し、上記類義語ペアの各元を辺とするグラフの各連結成分の頂点を集合させ、類義語グループを作成するＳ１０９。
【選択図】図４

【特許請求の範囲】

【請求項1】

自然言語処理における類義語グループの作成システムであって、
次の各ステップを実行するように構成され、
構築ステップでは、ユーザ指定のコーパスを用いて、埋め込みモデルを構築し、
抽出ステップでは、前記コーパス全文に対し、名詞句を抽出し、
算出ステップ１では、前記埋め込みモデルにより、前記名詞句の類似度を算出し、
判定ステップ１では、前記算出値が予め設定した閾値以上の場合に、類義句と判定し、
取出ステップでは、前記類義句ペア間で共有されない単語を取出し、
算出ステップ２では、前記単語について、前記埋め込みモデルによる類似度を算定し、
判定ステップ２では、前記算定値が予め設定した閾値を超える場合に、類義語と判定し、
集合ステップでは、前記類義語ペアの各元を辺とするグラフの各連結成分の頂点を集合させ、類義語グループとする、もの。

【請求項2】

請求項１に記載の自然言語処理における類義語グループの作成システムにおいて、
前記集合ステップにおける前記類義語グループの作成を、教師データとして予め学習させた学習済みデータをも用いる、もの。

【請求項3】

請求項２に記載の自然言語処理における類義語グループの作成システムにおいて、
前記集合ステップは学習ステップをさらに備え、
前記学習ステップでは、前記作成された類義語グループを教師データとしてさらに加え、前記学習済みデータを生成又は更新する、もの。

【請求項4】

請求項１～３の何れか１つに記載の自然言語処理における類義語グループの作成システムにおいて、
前記コーパスが、予め本文以外のものを削除した電子メールや製品マニュアルである、もの。

【請求項5】

請求項１～請求項３の何れか１つに記載の自然言語処理における類義語グループの作成システムであって、
前記抽出ステップにおける前記名詞句の抽出部分が、前記ユーザが選定した辞書により名詞や形容動詞と判定された語が連続する部分である、もの。

【請求項6】

請求項４に記載の自然言語処理における類義語グループの作成システムであって、
前記抽出ステップにおける前記名詞句の抽出部分が、前記ユーザが選定した辞書により名詞や形容動詞と判定された語が連続する部分である、もの。

【請求項7】

自然言語処理における類義語グループの作成方法であって、
次の各ステップを実行するように構成され、
構築ステップでは、ユーザ指定のコーパスを用いて、埋め込みモデルを構築し、
抽出ステップでは、前記コーパス全文に対し、名詞句を抽出し、
算出ステップ１では、前記埋め込みモデルにより、前記名詞句の類似度を算出し、
判定ステップ１では、前記算出値が予め設定した閾値以上の場合に、類義句と判定し、
取出ステップでは、前記類義句ペア間で共有されない単語を取出し、
算出ステップ２では、前記単語について、前記埋め込みモデルによる類似度を算定し、
判定ステップ２では、前記算定値が予め設定した閾値を超える場合に、類義語と判定し、
集合ステップでは、前記類義語ペアの各元を辺とするグラフの各連結成分の頂点を集合させ、類義語グループとする、方法。

【請求項8】

請求項７に記載の自然言語処理における類義語グループの作成方法において、
前記集合ステップにおける前記類義語グループの作成を、教師データとして予め学習させた学習済みデータをも用いる、方法。

【請求項9】

請求項８に記載の自然言語処理における類義語グループの作成方法において、
前記集合ステップは学習ステップをさらに備え、
前記学習ステップでは、前記作成された類義語グループを教師データとしてさらに加え、前記学習済みデータを生成又は更新する、方法。

【請求項10】

請求項７～９の何れか１つに記載の自然言語処理における類義語グループの作成方法において、
前記コーパスが、予め本文以外のものを削除した電子メールや製品マニュアルである、方法。

【請求項11】

請求項７～請求項９の何れか１つに記載の自然言語処理における類義語グループの作成方法であって、
前記抽出ステップにおける前記名詞句の抽出部分が、前記ユーザが選定した辞書により名詞や形容動詞と判定された語が連続する部分である、方法。

【請求項12】

請求項１０に記載の自然言語処理における類義語グループの作成方法であって、
前記抽出ステップにおける前記名詞句の抽出部分が、前記ユーザが選定した辞書により名詞や形容動詞と判定された語が連続する部分である、方法。

【請求項13】

プログラムであって、
コンピュータに、請求項１～６の何れか1つに記載の自然言語における情報処理システムの各ステップを実行させる、もの。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、自然言語処理システム、プログラム及び自然言語処理方法に関する。

【背景技術】

【0002】

ユーザからのウェブページからの問い合わせ等には、チャットボットのような人工知能を活用した自動会話プログラムが使用されるのが一般的である。その際、対象となる分野に関連したコーパスを用いて単語埋め込みモデルを作成し、類義句グループを形成させ、会話応答精度を上げるなどの方法が取られている。

【0003】

特許文献１には自然言語における入力文について、時間表現を抽出し、そのタイプを自動的に分類することで、人工知能を活用した自動会話プログラムの応答能力を上げるシステムが記載されている。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０２２－１７８５２７号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、特許文献１に開示されるような時間表現を抽出し、そのタイプを自動的に分類するシステムでは時系列の把握において優位性を有するが、それ自体で会話応答精度の向上に適するシステムとなっていない。また自然言語処理において、指定コーパスによる単語埋め込みモデルを使用するのは一般的であるが、上記時間表現の抽出と当該埋め込みモデルとが相互に関連することで会話応答精度を上げるものとはなっていない。

【0006】

本発明では上記事情を鑑み、チャットボットのような人工知能を活用した自動会話プログラムにおける会話応答精度の向上を図るべく、対象となる分野に関連したコーパスを用いた単語埋め込みモデルから類義語グループの選定および作成を行う情報処理システム、プログラム及び情報処理方法を提供することを目的とする。

【課題を解決するための手段】

【0007】

本発明の第１の観点は、
自然言語処理における類義語グループの作成システムであって、
次の各ステップを実行するように構成され、
構築ステップでは、ユーザ指定のコーパスを用いて、埋め込みモデルを構築し、
抽出ステップでは、前記コーパス全文に対し、名詞句を抽出し、
算出ステップ１では、前記埋め込みモデルにより、前記名詞句の類似度を算出し、
判定ステップ１では、前記算出値が予め設定した閾値以上の場合に、類義句と判定し、
取出ステップでは、前記類義句ペア間で共有されない単語を取出し、
算出ステップ２では、前記単語について、前記埋め込みモデルによる類似度を算定し、
判定ステップ２では、前記算定値が予め設定した閾値を超える場合に、類義語と判定し、
集合ステップでは、前記類義語ペアの各元を辺とするグラフの各連結成分の頂点を集合させ、類義語グループとする、ものである。

【0008】

本発明の第２の観点は、
自然言語処理における類義語グループの作成方法であって、
次の各ステップを実行するように構成され、
構築ステップでは、ユーザ指定のコーパスを用いて、埋め込みモデルを構築し、
抽出ステップでは、前記コーパス全文に対し、名詞句を抽出し、
算出ステップ１では、前記埋め込みモデルにより、前記名詞句の類似度を算出し、
判定ステップ１では、前記算出値が予め設定した閾値以上の場合に、類義句と判定し、
取出ステップでは、前記類義句ペア間で共有されない単語を取出し、
算出ステップ２では、前記単語について、前記埋め込みモデルによる類似度を算定し、
判定ステップ２では、前記算定値が予め設定した閾値を超える場合に、類義語と判定し、
集合ステップでは、前記類義語ペアの各元を辺とするグラフの各連結成分の頂点を集合させ、類義語グループとする、方法である。

【0009】

これによれば、ユーザごとの個別設定によって、また対象ごとに類義語グループを作成でき、会話応答精度の向上を可能にする、自然言語における情報処理システム、プログラム及び情報処理方法が提供できる。

【図面の簡単な説明】

【0010】

【図1】本実施形態に係る情報処理システム１全体図である。

【図2】サーバ２のハードウェア構成を示すブロック図である。

【図3】サーバ２によって実現される機能を示すブロック図である。

【図4】本実施形態のフローチャート図である。

【発明を実施するための形態】

【0011】

以下、図面を用いて本発明の実施形態について説明する。以下に示す実施形態中で示した各種特徴事項は、互いに組み合わせ可能である。

【0012】

ところで、本実施形態に登場するソフトウェアを実現するためのプログラムは、コンピ
ュータが読み取り可能な非一時的な記録媒体（Ｎｏｎ-ＴｒａｎｓｉｔｏｒｙＣｏｍｐｕｔｅｒ-ＲｅａｄａｂｌｅＭｅｄｉｕｍ）として提供されてもよいし、外部のサーバからダウンロード可能に提供されてもよいし、外部のコンピュータで当該プログラムを起動させてクライアント端末でその機能を実現（いわゆるクラウドコンピューティング）するように提供されてもよい。

【0013】

また、本実施形態において「部」とは、例えば、広義の回路によって実施されるハード
ウェア資源と、これらのハードウェア資源によって具体的に実現されうるソフトウェアの
情報処理と、を合わせたものも含みうる。また、本実施形態においては様々な情報を取り扱うが、これら情報は、例えば電圧・電流を表す信号値の物理的な値、０または１で構成される２進数のビット集合体としての信号値の高低、または量子的な重ね合わせ（いわゆる量子ビット）によって表され、広義の回路上で通信・演算が実行されうる。

【0014】

また、広義の回路とは、回路（Ｃｉｒｃｕｉｔ）、回路類（Ｃｉｒｃｕｉｔｒｙ）、プロセッサ（Ｐｒｏｃｅｓｓｏｒ）、およびメモリ（Ｍｅｍｏｒｙ）等を少なくとも適当に組み合わせることによって実現される回路である。すなわち、特定用途向け集積回（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ：ＡＳＩＣ）、プログラマブル論理デバイス（例えば、単純プログラマブル論理デバイス（ＳｉｍｐｌｅＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ：ＳＰＤ）、複合プログラマブル論理デバイス（ＣｏｍｐｌｅｘＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ：ＣＰＬＤ）、およびフィールドプログラマブルゲートアレイ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ：ＦＰＧＡ））等を含むものである。

【0015】

１．ハードウェア構成
第１節では、本実施形態のハードウェア構成について説明する。

【0016】

１．１情報処理システム１
図１は、本実施形態に係る情報処理システム1の全体図である。情報処理システム１は、他のユーザ端末３（例えば、他のユーザ端末３－１、３－２、・・・、３－ｎ）と、自身のサーバ２とを備え、これらがネットワークを通じて接続されている。これらの構成要素についてさらに説明する。ここで、情報処理システム１に例示されるシステムとは、１つ又はそれ以上の装置又は構成要素からなるものである。

【0017】

１．２サーバ２
サーバ２は、ネットワークに接続されており、選択等により他のユーザ端末３とコーパスや埋込モデルを共有するように構成される。なお共有されるコーパスは、電子メール記録や製品マニュアルが考えられるが、これらに限定されるものではない。また埋め込みモデルについても、word2vecやfastTextなどが考えられるが、これらに限定されるものではない。つまりサーバ２の制御部２３における機能のひとつである抽出部２３２が、上記コーパス全文から名詞句を抽出しているが、上記名詞句の抽出と埋め込みモデルとは無関係である。

【0018】

図２は、サーバ２のハードウェア構成を示すブロック図である。サーバ２は、通信部２１と、記憶部２２と、制御部２３とを有し、これらの構成要素がサーバ２の内部において通信バス２０を介して電気的に接続されている。各構成要素についてさらに説明する。

【0019】

通信部２１は、ＵＳＢ、ＩＥＥＥ１３９４、Ｔｈｕｎｄｅｒｂｏｌｔ、有線ＬＡＮネットワーク通信等といった有線型の通信手段が好ましいものの、無線ＬＡＮネットワーク通信、３Ｇ／ＬＴＥ／５Ｇ等のモバイル通信、Ｂｌｕｅｔｏｏｔｈ（登録商標）通信等を必要に応じて含めてもよい。すなわち、通信部２１は、いわゆるネットワークインターフェースであって、上記複数の通信手段の集合として実施することがより好ましい。サーバ２は、通信部２１を介して、他のユーザ端末３とコーパスや埋込モデルを共有することができ、制御部２３は類義語グループを作成する。詳細は後述する。

【0020】

記憶部２２は、他のユーザ端末３と共有しうるコーパスや埋込モデル等を記憶する。これは、例えば、制御部２３によって実行されるサーバ２に格納された種々のプログラム等を記憶するソリッドステートドライブ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ：ＳＳＤ）等のストレージデバイスとして、あるいは、プログラムの演算に係る一時的に必要な情報（引数、配列等）を記憶するランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ：ＲＡＭ）等のメモリとして実施されうる。また、これらの組合せであってもよい。詳細は後述する。

【0021】

制御部２３は、サーバ２に関連する全体動作の処理・制御を行う。制御部２３は、例えば不図示の中央処理装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ：ＣＰＵ）である。制御部２３は、記憶部２２に記憶された所定のプログラムを読み出すことによって、ユーザが指定するコーパスを認識する。すなわち、記憶部２２に記憶されているソフトウェアによる情報処理が、ハードウェアの一例である制御部２３によって具体的に実現されることで、制御部２３に含まれる機能部として実行されうる。これらについては、次節においてさらに詳述する。なお、制御部２３は単一であることに限定されず、機能ごとに複数の制御部２３を有するように実施してもよい。またそれらの組合せであってもよい。

【0022】

また制御部２３は、記憶部２２に記憶された所定のプログラムを読み出すことによって、ユーザ指定のコーパスを用いて、埋め込みモデルを構築し、名詞句を抽出する。その後当該名詞句の類似度の判定等を行い、類義語グループを作成し、記憶部２２の別領域に一旦格納する。詳細は後述する。

【0023】

なお類義語ペアについて、上記類義語グループに全てを取り入れる必要はなく、ペアの一部のみでも可能であり、ユーザが取捨選択できるものであってもよい。当該選択の後に一旦格納ではなく、埋め込みモデルやユーザ指定のコーパスに紐付けられて記憶部２２に格納されることになる。詳細は後述する。

【0024】

１．３他のユーザ端末３
他のユーザ端末３はネットワークを介して、コーパスや埋込モデルをサーバ２に提供する、または提供されるように構成されていればよい。サーバ２に格納されている自動応答プログラムにより上記コーパスや埋込モデルが作成されるものでもよい。端末自体が特に限定されるものではなく、エッジデバイスに代表されるような端末装置やノート型ＰＣなど様々なものが対応可能である。またネットワークへの接続については有線、無線を問わない。

【0025】

２．機能構成
本節では、本実施形態の機能構成について説明する。前述の通り、記憶部２２に記憶されているソフトウェアによる情報処理がハードウェアの一例である制御部２３によって具体的に実現されることで、制御部２３に含まれる機能部として実行されうる。

【0026】

図３は、サーバ２（制御部２３）によって実現される機能を示すブロック図である。具体的には、サーバ２（制御部２３）は、構築部２３１と、抽出部２３２と、算出部２３３と、判定部２３４と、取出部２３５と、集合部２３６を備える。

【0027】

構築部２３１は、ユーザ指定のコーパスを用いて、埋め込みモデルを構築するよう構成される。例えば構築部２３１は、他のユーザ端末３から得られうるコーパス、もしくはサーバ２に格納されたコーパスから埋め込みモデルを作成する。ここでのコーパスとは類義語グループの作成における下地となるものであって、ユーザが対象となる分野を指定することで分析の対象領域を限定するものである。

【0028】

なおコーパスを用いて埋め込みモデルを作成することになるが、モデルの精度を高めるべく、ユーザが指定したコーパスの性能に適した前処理を実施してもよい。当然に他のユーザ端末３と共有しうるコーパスが上記前処理を施したものであっても勿論よい。

【0029】

上記埋め込みモデルは、word2vecやfastTextが用いられるが、これに限定されるものではない。ここで上記コーパスは対象となる分野に関連したものであってユーザが指定するものであるため、それにより適合する埋め込みモデルを選択できるのが好ましい。そのため以下に記載の方向ベクトルは、特定の手法かつ学習に固有のものではあるものの、方向ベクトルや相互にモデルのやり取りに差異が生じなければ、組み合わせて用いることも可能なものである。

【0030】

抽出部２３２は、上記コーパス全文に対して品詞タグ付けや係り受け解析を行い、これに基づいて名詞句を抽出する。具体的には、日本語に対してはUniDic辞書に基づいて形態素解析ソフトウェアMeCabより、名詞や形容動詞と判定された語が連続する部分を抽出し、英語に対しては係り受け解析結果を使用して抽出するなどが想定される。

【0031】

算出部２３３は、上記埋め込みモデルにより、上記抽出された名詞句の類似度を算出するよう構成される。判定部２３４は当該類似度を計測し、予め設定された閾値を超える場合には類義句と判定するよう構成される。例えば、上記類似度は、上記名詞句に対するベクトルのコサイン類似度を用いることが想定される。word2vecの場合は句を構成する単語ベクトルの和を用いて算出され、fastTextの場合は、上記単語ベクトルの和のほかに、句全体に対してのベクトルを算出するものであってもよい。

【0032】

そうして、取出部２３５は、上記算出された値が予め設定された閾値を超えていて、上記類義句ペア間で共有されない単語を取出すよう構成される。その後取り出された単語は、上記と同様に算出部２３３にて類似度を算出し、判定部２３４にて予め設定された閾値を超える場合には類義語と判定する。

【0033】

集合部２３６は、上記類義語ペアの各元を辺とするグラフの各連結成分の頂点を集合させ類義語グループとするよう、構成される。例えば、類義句ペア(燃料漏洩量, 燃料漏れ量) の間で共有されない単語「漏洩」と「漏れ」があった場合に、その類似度を算出し、閾値以上であれば類義語ペア(漏洩, 漏れ) として認められ、類義語グループとしてカテゴリーが作成されることになる。

【0034】

こうして得られた類義語グループは記憶部２２に格納される。またネットワークを介して他のユーザ端末３に送付するよう構成されてもよい。それぞれの端末において対象となる分野に関連したコーパスと埋め込みモデルにおいて上記類義語グループの取り込みの可否については、他のユーザ端末３の各ユーザが適時選択するよう構成されていてもよい。

【0035】

また、上記類義語ペアのそれぞれについて類義語グループに入れるかどうかを決定してもよく、予め設定する閾値についても同様に、独自に設定できるようにプログラミングされていても勿論良い。

【0036】

３．情報処理方法
本節では、前述した自然言語における情報処理システム１の情報処理方法について説明する。この情報処理方法は、次の各ステップを備える。構築ステップでは、ユーザ指定のコーパスを用いて、埋め込みモデルを構築する。抽出ステップでは、上記コーパス全文に対し、名詞句を抽出する。算出ステップ１では、上記埋め込みモデルにより、上記名詞句の類似度を算出する。判定ステップ１では、上記算出値が予め設定した閾値以上の場合に、類義句と判定する。取出ステップでは、上記類義句ペア間で共有されない単語を取出す。算出ステップ２では、上記単語について、上記埋め込みモデルによる類似度を算定する。判定ステップ２では、上記算定値が予め設定した閾値を超える場合に、類義語と判定する。集合ステップでは、上記類義語ペアの各元を辺とするグラフの各連結成分の頂点を集合させ、類義語グループとする。

【0037】

図４は、自然言語における情報処理システム１によって実行される情報処理の流れを示すフローチャート図である。以下、このフローチャート図の各フローに沿って、説明する。

【0038】

チャットボットのような人工知能を活用した自動会話プログラムにおいては、応答内容の精度を向上させるため、予め対象となる分野に関連したコーパスを用いて単語埋め込みモデルを作成し、類義語グループを形成しておくことが有用である。そこでサーバ２を管理するユーザは、まず予め対象となる分野のコーパスを選定および指定しておくことが必要となる（ステップＳ１０１）。なおモデルの精度を高めるべく、ユーザが指定したコーパスにおいてメールヘッダや引用マークの除去などのコーパスの性質に適した前処理を実施するのが好ましい。

【0039】

その後、word2vecやfastTextを用いて埋め込みモデルを構築することになる（ステップＳ１０２）が、これらに限定されるものではない。ここで上記コーパスは対象となる分野に関連したものであって、ユーザが指定するものであるが、埋め込みモデルとして採用するものを適時選択できるものであっても良い。さらに相互にモデルのやり取りや以下に記載の方向ベクトルに差異が生じなければ組み合わせたものを埋め込みモデルとして構築してもよい。

【0040】

そうしてコーパスから名詞句を抽出し（ステップＳ１０３）、名詞句同士の類似度を算出する（ステップＳ１０４）。上記類似度とは、名詞句に対するベクトルのコサイン類似度が代表例となる。コサイン類似度とは、名詞句について規格化し、当該名詞句のペアについて規格化ベクトルの内積を計算することとほぼ同義である。両規格化ベクトルのなす角が狭いほど内積は大きくなり、名詞句のベクトルの向きがかなり似通っていることになる。

【0041】

こうして、算出された類似度が予め設定された閾値を超えるか否かを判定し（ステップＳ１０５）、上記閾値以上となる場合には類義句ペアの間で共有されない単語を取り出す（ステップＳ１０６）。

【0042】

コーパスの全名詞句の集合をN、名詞句のペアをA、Bとすると、類義句ペアの集合Spは以下の式（１-１）で表されることになる。

…（１－１）
sim(A,B)は語句AとBの類似度で、t_pは上記類義句グループ作成の際に予め設定する任意の閾値である。

【0043】

なおステップＳ１０５で閾値判定を行った際に、上記閾値t_pが後述の閾値t_wをも超えている場合には、そのまま類義句グループとして作成される（ステップＳ１０９）。そうすることで後述の類義語グループを作成することなく、埋め込みモデルにフィードバックをかけられる。

【0044】

類義句ペアの類似度が閾値t_pと後述の閾値t_wの間にある場合は、上述のように類義句ペアの間で共有されない単語を取り出すことになり、取り出された共有されない単語間で再び類似度を算定し（ステップＳ１０７）、閾値判定を行う（ステップＳ１０８）。

【0045】

上記のように名詞句のペアをA、Bとし、Aに含まれBに含まれない単語をaと表すことにする。同様に、Bに含まれAに含まれない単語をbと表すことにすると、類義語ペアの集合Swは以下の式（１-２）で表されることになる。

…（１－２）
sim(a,b)は語句aとbの類似度で、t_wは上記類義語グループ作成の際に予め設定する任意の閾値である。

【0046】

例えば、Spに属する類義句ペア(燃料漏洩量, 燃料漏れ量) の間で共有されない単語「漏洩」と「漏れ」があった場合、その類似度を算定し、閾値以上であれば類義語ペア(漏洩, 漏れ) として認められ、当該類義語ペアの各元を辺とするグラフの、各連結成分の頂点を集合させ、類義語グループが作成されることになる（ステップＳ１０９）。

【0047】

なお上記の例では、t_pを０.６としており、句ペア(燃料漏洩量, 燃料漏れ量)はSpに属する類義句ペアとなっている。またt_wを０.８としており、「漏洩」と「漏れ」は類義語ペアに該当するものである。

【0048】

そうしてこの類義語グループについては、ユーザ指定のコーパスについて紐付けられる形で機械学習における教師データとして保存されてもよい（ステップＳ１１０）。なお類義語グループの全てについて教師データとしても良いし、ユーザ指定の類義語ペアのみ教師データとしてもよく、適時選択できるのが望ましい。機械学習を用いることで、コーパスに対して埋め込みモデルの構築および名詞句の抽出、類似度の二度の判定を行う時間の短縮を図りうるため好ましい。

【0049】

その後、記憶部２２に一時的に格納された全ての類義語ペアと類義語グループは、上記ユーザの指定によって選別され、選別されたもののみ記憶され、残りについては消去され、一連のステップが終了することになる。

【0050】

こうして作成された類義語グループは、指定されたコーパスや埋め込みモデルと紐付く形でネットワークを介して、他のユーザ端末３と共有されることになる。また他のユーザ端末３が作成した類義語グループなども、データ形式が同じであればネットワークを介してサーバ２に導入できることになる。その際、サーバ２に導入するかどうかをユーザが自由に設定できることは言うまでもない。

【0051】

４．その他
本実施形態に係る情報処理システム１に関して、以下のような態様を採用してもよい。情報処理システム１において、前記集合ステップにおける前記類義語グループの作成を、教師データとして予め学習させた学習済みデータをも用いる、ものである。
機械学習を用いることで、作成された類義語グループの確からしさも判定することができ、さらに学習済みデータを上手く用いることで類似度判定を部分的に行うこともでき、時間の短縮も図れるため、好ましい。

【0052】

上述の機械学習を用いた情報処理システム１において、上記教師データが生成または更新されるものである。教師データの更新によりさらに確からしさが向上する点において、さらに好ましい。時間の短縮についても同様である。

【0053】

情報処理システム１において、上記コーパスが、予め本文以外のものを削除した電子メールや製品マニュアルである、ものである。
製品使用者等からの質問をウェブ上で受ける場合、相手側に待ち時間を発生させないように、チャットボットのような人工知能を活用した自動会話プログラムが使用されるのが一般的である。そこで上記類義語グループを作成するにあたっては、口語調で記載され、製品キーワードや名詞句を抽出しやすい電子メールや製品マニュアルは有用である。さらに名詞句を抽出する際に、ヘッダ情報や引用マークの存在は抽出の精度を下げるため、それらを予め削除されていることでより有用なものとなるからである。

【0054】

情報処理システム１において、上記名詞句の抽出部分が、上記ユーザが選定した辞書により名詞や形容動詞と判定された語が連続する部分である、ものである。
特に日本語においては漢字に「する」を加えて動詞句を構成するものが多いが、形容動詞も同様に漢字からなる複合語の成分に含まれるものである。そのため判定に加えるべく、その連続する部分を句として抽出することでさらに作成された類義語グループの精度が向上するため、好ましい。
例えば、例えば「高度経済成長」の「高度」はUniDic辞書では形容動詞 (UniDic辞書内では形状詞)と判定されるものである。

【0055】

最後に、本発明に係る種々の実施形態を説明したが、これらは、例として提示したものであり、発明の範囲を限定することは意図していない。当該新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。当該実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

【符号の説明】

【0056】

１：情報処理システム
２：サーバ
２０：通信バス
２１：通信部
２２：記憶部
２３：制御部
２３１：構築部
２３２：抽出部
２３３：算出部
２３４：判定部
２３５：取出部
２３６：集合部
３：他のユーザ端末

【図1】

【図2】

【図3】

【図4】

知財求人

青山学院大学 (神奈川県相模原市中央区淵野辺)

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版