(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024133053
(43)【公開日】2024-10-01
(54)【発明の名称】情報処理システム、情報処理装置、情報処理方法、およびプログラム
(51)【国際特許分類】
G06F 16/36 20190101AFI20240920BHJP
【FI】
G06F16/36
【審査請求】有
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2024071382
(22)【出願日】2024-04-25
(62)【分割の表示】P 2023041733の分割
【原出願日】2023-03-16
(71)【出願人】
【識別番号】000006013
【氏名又は名称】三菱電機株式会社
(71)【出願人】
【識別番号】394013002
【氏名又は名称】三菱電機インフォメーションシステムズ株式会社
(74)【代理人】
【識別番号】100161207
【弁理士】
【氏名又は名称】西澤 和純
(74)【代理人】
【識別番号】100206081
【弁理士】
【氏名又は名称】片岡 央
(74)【代理人】
【識別番号】100188673
【弁理士】
【氏名又は名称】成田 友紀
(74)【代理人】
【識別番号】100188891
【弁理士】
【氏名又は名称】丹野 拓人
(72)【発明者】
【氏名】内出 隼人
(72)【発明者】
【氏名】田中 宏治
(72)【発明者】
【氏名】乙村 浩太郎
(72)【発明者】
【氏名】白浜 広彬
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175CA07
5B175DA01
5B175DA09
(57)【要約】
【課題】キーワード抽出におけるユーザの利便性を向上させること。
【解決手段】情報処理システムは、学習用の学習テキストデータから疑似的なキーワードである第一疑似キーワードを抽出する疑似キーワード抽出部と、前記第一疑似キーワードを特定する情報を前記学習テキストデータに付与する疑似キーワード付与部と、前記学習テキストデータにおける文脈と前記第一疑似キーワードとの対応関係を学習した学習モデルを用いてテキストデータからキーワードを抽出するキーワード抽出部と、を備える。
【選択図】
図3
【特許請求の範囲】
【請求項1】
学習用の学習テキストデータから疑似的なキーワードである第一疑似キーワードを抽出する疑似キーワード抽出部と、
前記第一疑似キーワードを特定する情報を前記学習テキストデータに付与する疑似キーワード付与部と、
前記学習テキストデータにおける文脈と前記第一疑似キーワードとの対応関係を学習した学習モデルを用いてテキストデータからキーワードを抽出するキーワード抽出部と、
を備える情報処理システム。
【請求項2】
前記キーワード抽出部が抽出したキーワードを専門用語として登録する否かの指定をユーザから受け付けるキーワード候補提示部、
をさらに備える、
請求項1に記載の情報処理システム。
【請求項3】
前記キーワード候補提示部が前記受け付けた前記指定に基づいて、前記キーワードを専門用語情報として辞書に記憶させる辞書生成部、
をさらに備える
請求項2に記載の情報処理システム。
【請求項4】
前記ユーザにより前記辞書が編集された場合に、前記学習モデルを用いて前記テキストデータからキーワードを再抽出するキーワード候補再抽出部と、
をさらに備える、
請求項3に記載の情報処理システム。
【請求項5】
前記キーワード候補提示部は、
前記キーワード候補再抽出部が再抽出したキーワードを専門用語として登録する否かの指定をユーザから更に受け付ける、
請求項4に記載の情報処理システム。
【請求項6】
学習用の学習テキストデータから疑似的なキーワードである第一疑似キーワードを抽出する疑似キーワード抽出部と、
前記第一疑似キーワードを特定する情報を前記学習テキストデータに付与する疑似キーワード付与部と、
前記学習テキストデータにおける文脈と前記第一疑似キーワードとの対応関係を学習した学習モデルを用いてテキストデータからキーワードを抽出するキーワード抽出部と、
を備える情報処理装置。
【請求項7】
コンピュータが実行する情報処理方法であって、
学習用の学習テキストデータから疑似的なキーワードである第一疑似キーワードを抽出する疑似キーワード抽出ステップと、
前記第一疑似キーワードを特定する情報を前記学習テキストデータに付与する疑似キーワード付与ステップと、
前記学習テキストデータにおける文脈と前記第一疑似キーワードとの対応関係を学習した学習モデルを用いてテキストデータからキーワードを抽出するキーワード抽出ステップと、
を有する情報処理方法。
【請求項8】
コンピュータに、
学習用の学習テキストデータから疑似的なキーワードである第一疑似キーワードを抽出する疑似キーワード抽出ステップと、
前記第一疑似キーワードを特定する情報を前記学習テキストデータに付与する疑似キーワード付与ステップと、
前記学習テキストデータにおける文脈と前記第一疑似キーワードとの対応関係を学習した学習モデルを用いてテキストデータからキーワードを抽出するキーワード抽出ステップと、
を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理システム、情報処理装置、情報処理方法、およびプログラムに関する。
【背景技術】
【0002】
文章からキーワードを抽出する技術がある。キーワードの抽出には、辞書が用いられる。
例えば、特許文献1には、未登録単語抽出部が認識辞書に登録されていない未登録単語を抽出し、未登録単語特徴量抽出部が共起頻度ベクトルを生成し、認識結果特徴量抽出部が単語頻度ベクトルを生成し、タスク関連度算出部がタスク関連度を算出し、暫定認識辞書を用いて暫定認識結果を生成し、認識信頼度算出部が認識信頼度を算出し、登録優先度算出部が信頼度重みを用いて登録優先度を算出し、認識辞書登録部が追加登録単語を抽出し、認識辞書に追加登録単語等生かして拡張辞書を生成することが開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
専門用語などのキーワードの抽出精度を向上させるためには、専門用語が登録された専門用語辞書が必要である。
しかしながら、特許文献1に記載の技術は、文中に出現する単語の係り受けや単語の出現頻度に基づいてキーワードを抽出する。そのため、専門用語の出現頻度が低いキーワードである場合には、当該キーワードが抽出されず、実際の専門用語とは異なるキーワードが抽出される場合があった。また、機械学習を用いたキーワード抽出では、抽出精度を向上させるために、テキストデータと、正しいキーワードとの対応関係を大量に学習させる必要があり、また、データ選別やデータ収集に手間やコストを要する。
そのため、キーワードの抽出精度を向上させることができないという課題があった。このように、キーワード抽出におけるユーザの利便性が十分でないという課題があった。
【0005】
本発明は、上記の点に鑑みてなされたものでありキーワード抽出におけるユーザの利便性を向上させることができる情報処理システム、情報処理装置、情報処理方法、およびプログラムを提供することを課題とする。
【課題を解決するための手段】
【0006】
本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、情報処理システムであって、学習用の学習テキストデータから疑似的なキーワードである第一疑似キーワードを抽出する疑似キーワード抽出部と、前記第一疑似キーワードを特定する情報を前記学習テキストデータに付与する疑似キーワード付与部と、前記学習テキストデータにおける文脈と前記第一疑似キーワードとの対応関係を学習した学習モデルを用いてテキストデータからキーワードを抽出するキーワード抽出部と、を備える情報処理システムである。
【0007】
また、本発明の一態様は、情報処理装置であって、学習用の学習テキストデータから疑似的なキーワードである第一疑似キーワードを抽出する疑似キーワード抽出部と、前記第一疑似キーワードを特定する情報を前記学習テキストデータに付与する疑似キーワード付与部と、前記学習テキストデータにおける文脈と前記第一疑似キーワードとの対応関係を学習した学習モデルを用いてテキストデータからキーワードを抽出するキーワード抽出部と、を備える情報処理装置である。
【0008】
また、本発明の一態様は、コンピュータが実行する情報処理方法であって、学習用の学習テキストデータから疑似的なキーワードである第一疑似キーワードを抽出する疑似キーワード抽出ステップと、前記第一疑似キーワードを特定する情報を前記学習テキストデータに付与する疑似キーワード付与ステップと、前記学習テキストデータにおける文脈と前記第一疑似キーワードとの対応関係を学習した学習モデルを用いてテキストデータからキーワードを抽出するキーワード抽出ステップと、を有する情報処理方法である。
【0009】
また、本発明の一態様は、プログラムであって、コンピュータに、学習用の学習テキストデータから疑似的なキーワードである第一疑似キーワードを抽出する疑似キーワード抽出ステップと、前記第一疑似キーワードを特定する情報を前記学習テキストデータに付与する疑似キーワード付与ステップと、前記学習テキストデータにおける文脈と前記第一疑似キーワードとの対応関係を学習した学習モデルを用いてテキストデータからキーワードを抽出するキーワード抽出ステップと、を実行させるためのプログラムである。
【発明の効果】
【0010】
本発明によれば、キーワード抽出におけるユーザの利便性を向上させることができる。
【図面の簡単な説明】
【0011】
【
図1】本発明の第1の実施形態に係る情報処理システムの構成の一例を示すシステム構成図である。
【
図2】本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。
【
図3】本実施形態に係る情報処理装置の機能構成の一例を示すブロック図である。
【
図4】本実施形態に係る専門用語の選定に係る表示画面の一例を示す図である。
【
図5】本実施形態に係る情報処理システムにおける情報処理の一例を示すフローチャートである。
【
図6】本発明の第2の実施形態に係る情報処理装置の機能構成の一例を示すブロック図である。
【
図7】本実施形態に係る情報処理システムにおける情報処理の一例を示すフローチャートである。
【
図8】本発明の第3の実施形態に係る情報処理装置の機能構成の一例を示すブロック図である。
【
図9】本実施形態に係る情報処理システムにおける情報処理の一例を示すフローチャートである。
【発明を実施するための形態】
【0012】
[第1の実施形態]
以下、図面を参照しながら本発明の実施形態について説明する。
<情報処理システムの構成>
まず、情報処理システムの構成について説明する。
図1は、本発明の第1の実施形態に係る情報処理システムの構成の一例を示すシステム構成図である。
情報処理システムSYSは、専門用語などのキーワードを抽出するシステムである。具体的には、情報処理システムSYSは、キーワードを抽出するための辞書を生成し、生成した辞書を用いてキーワードを抽出するシステムである。
【0013】
より具体的には、情報処理システムSYSは、学習用の学習テキストデータを取得し、学習テキストデータから疑似的なキーワードである第一疑似キーワードを抽出する。情報処理システムSYSは、第一疑似キーワードを学習テキストデータに付与し、学習テキストデータにおける文脈と第一疑似キーワードとの対応関係を学習した学習モデルを生成する。情報処理システムSYSは、テキストデータを取得し、学習モデルを用いてテキストデータからキーワードを抽出する。
【0014】
この構成により、情報処理システムSYSは、キーワードの抽出に用いられる辞書を効率的に生成することができる。そのため、キーワードの抽出精度を向上させることができる。また、キーワード抽出におけるユーザの利便性を向上させることができる。
【0015】
なお、以下の説明では、キーワードとして専門用語を抽出する場合について説明する。
【0016】
次いで、情報処理装置100のハードウェア構成について説明する。
【0017】
<ハードウェア構成>
図2は、本実施形態に係る情報処理装置100のハードウェア構成の一例を示すブロック図である。
情報処理装置100は、CPU101と、記憶媒体インタフェース部102と、記憶媒体103と、入力装置104と、出力装置105と、ROM106(Read Only Memory)と、RAM107(Random Access Memory)と、補助記憶部108と、ネットワークインタフェース部109と、を備える。CPU101と、記憶媒体インタフェース部102と、入力装置104と、出力装置105と、ROM106と、RAM107と、補助記憶部108と、ネットワークインタフェース部109とは、バスを介して相互に接続される。
【0018】
なお、ここで言うCPU101は、プロセッサ一般のことを示すものであって、狭義のいわゆるCPUと呼ばれるデバイスのことだけではなく、例えばGPUやDSP等も含む。また、ここで言うCPU101は、一つのプロセッサで実現されることに限られず、同じ、または異なる種類の複数のプロセッサを組み合わせることで実現されてもよい。
【0019】
<CPU101>
CPU101は、補助記憶部108、ROM106およびRAM107が記憶するプログラムを読み出して実行し、また、補助記憶部108、ROM106およびRAM107が記憶する各種データを読み出し、補助記憶部108、RAM107に対して各種データを書き込むことにより、情報処理装置100を制御する。また、CPU101は、記憶媒体インタフェース部102を介して記憶媒体103が記憶する各種データを読み出し、また、記憶媒体103に各種データを書き込む。
【0020】
<記憶媒体103>
記憶媒体103は、光磁気ディスク、フレキシブルディスク、フラッシュメモリなどの可搬記憶媒体であり、各種データを記憶する。
【0021】
<記憶媒体インタフェース部102>
記憶媒体インタフェース部102は、記憶媒体103の読み書きを行うインタフェースである。
【0022】
<入力装置104>
入力装置104は、マウス、キーボード、タッチパネル、音量調整ボタン、電源ボタン、設定ボタン、赤外線受信部などの入力装置である。
【0023】
<出力装置105>
出力装置105は、表示部、スピーカなどの出力装置である。
【0024】
<ROM106、RAM107>
ROM106、RAM107は、情報処理装置100の各機能部を動作させるためのプログラムや各種データを記憶する。
【0025】
<補助記憶部108>
補助記憶部108は、ハードディスクドライブ、フラッシュメモリなどであり、情報処理装置100の各機能部を動作させるためのプログラム、各種データを記憶する。
【0026】
<ネットワークインタフェース部109>
ネットワークインタフェース部109は、通信インタフェースを有し、無線通信によりネットワークNWに接続される。
【0027】
例えば、情報処理装置100のCPU101は、
図3に示す機能構成における制御部12に対応し、ROM106、RAM107、補助記憶部108、またはそれらの何れかの組み合わせは、
図3に示す機能構成における記憶部13に対応する。
【0028】
なお、ユーザ端末装置200のハードウェア構成については、図示および説明を省略するが、
図2に示す情報処理装置100と同様のハードウェア構成を有する。
【0029】
次いで、情報処理装置100の機能構成について説明する。
【0030】
<情報処理装置100の機能構成>
図3は、本実施形態に係る情報処理装置100の機能構成の一例を示すブロック図である。
情報処理装置100は、通信部11と、制御部12と、記憶部13と、を含んで構成される。通信部11と、制御部12と、記憶部13とは、バスを介して相互に接続される。
【0031】
<通信部11>
通信部11は、ユーザ端末装置200と通信する機能を有する。通信部11は、ユーザ端末装置200から受信した各種情報を制御部12に出力する。また、通信部11は、制御部12から入力される情報を、ユーザ端末装置200に送信する。
【0032】
<制御部12>
制御部12は、情報処理装置100を制御する機能を有する。制御部12は、記憶部13に記憶された各種データ、アプリケーション、プログラムなどを読み出して情報処理装置100を制御する。
【0033】
より詳細に制御部12の処理について説明する。
制御部12は、テキストデータ取得部121と、専門用語候補抽出部122と、辞書データ修正判定部123と、専門用語候補再抽出部124と、専門用語候補提示部125と、選定結果取得部126と、辞書生成部127と、を含んで構成される。
【0034】
<テキストデータ取得部121>
テキストデータ取得部121は、テキストデータを取得する。具体的には、テキストデータ取得部121は、予め記憶部13に記憶されたテキストデータまたはユーザ等によって入力されたテキストデータを取得する。
【0035】
<専門用語候補抽出部122>
専門用語候補抽出部122は、テキストデータ取得部121が取得したテキストデータから専門用語の候補となる文字列を抽出する。具体的には、専門用語候補抽出部122は、記憶部13に記憶された学習モデル131を用いてテキストデータから専門用語の候補を抽出する。当該学習モデルは、予め前後の文脈に基づいて専門用語であるか否かを判定可能なBERT(Bidirectional Encoder Representations from Transformers)などのTransformerモデルである。
【0036】
<辞書データ修正判定部123>
辞書データ修正判定部123は、ユーザによる専門用語辞書の編集が行われたか否かを判定する。具体的には、辞書データ修正判定部123は、前回処理時にユーザによる専門用語辞書に対する編集が行われたか否かを判定する。前回処理時にユーザによる専門用語辞書に対する編集が行われたと判定される場合、辞書データ修正判定部123は、専門用語候補再抽出部124に、テキストデータから専門用語候補を再抽出させる。前回処理時にユーザによる専門用語辞書に対する編集が行われていないと判定される場合や、初回処理時である場合や、前回処理時のユーザによる専門用語辞書に対する編集を反映させない設定である場合、辞書データ修正判定部123は、専門用語候補提示部125に専門用語候補を提示させる。
【0037】
ここで、辞書データ修正判定部123は、ユーザによる専門用語候補の選定処理が初回であるか否かの情報を保持しているものとする。また、辞書データ修正判定部123は、前回処理時のユーザによる専門用語辞書に対する編集を反映させるか否かの設定情報を保持しているものとする。さらに、辞書データ修正判定部123は、前回処理時のユーザによる専門用語辞書に対する編集が行われたか否かの情報と、編集が行われた場合ユーザによる専門用語辞書の編集結果とを保持しているものとする。ユーザによる専門用語辞書の編集結果とは、後述するようにユーザによる用語毎の専門用語であるか否かの選定結果を示す。
なお、辞書データ修正判定部123は、ユーザによる専門用語候補の選定処理が初回であるか否かの情報の保持に代えて、または加えて選定処理の回数を保持する構成でもよい。
【0038】
<専門用語候補再抽出部124>
専門用語候補再抽出部124は、テキストデータから専門用語候補を再抽出する。具体的には、前回処理時のユーザによる専門用語辞書の編集結果に基づいて、専門用語候補を再抽出する。
より詳細に専門用語候補再抽出部124について説明する。
専門用語候補再抽出部124は、正負ラベリング部1241と、正負ラベリング学習部1242と、候補再抽出部1243と、を含んで構成される。
【0039】
<正負ラベリング部1241>
正負ラベリング部1241は、前回処理時のユーザによる専門用語であるか否かを示す選定結果に基づいて、ラベリングする。具体的には、正負ラベリング部1241は、専門用語であることを示す選定が行われた専門用語に正例とラベリングし、専門用語であることを示す選定が行われなかった専門用語に負例とラベリングする。
【0040】
ここで、ユーザによる専門用語候補の選定について説明する。
【0041】
図4は、本実施形態に係る専門用語候補の選定に係る表示画面の一例を示す図である。
図示する例は、例えば、情報処理装置100の出力装置105において専門用語候補が表示される場合の一例である。
図示するように、表示画面例では、複数の専門用語候補が表示され、専門用語候補ごとに、選定するか否かを示す操作子と、参照元ファイルと、参照元テキストとが対応付けられて表示される。
選定するか否かを示す操作子は、例えばチェックボックスであり、複数の専門用語候補のうちユーザが専門用語として選定する専門用語候補に対応する操作子に対するチェックを受け付ける。参照元ファイルは、専門用語候補が出現するテキストデータのファイルを示す情報である。参照元テキストは、テキストデータにおいて専門用語候補が出現する前後の文章、テキストデータにおいて専門用語候補が出現する文節等などのテキストである。
【0042】
なお、専門用語候補は、ユーザが任意に追加、削除、編集を可能にしてもよい。なお、図示する例において、参照元ファイルが複数であってもよいし、参照元テキストが複数であってもよい。
【0043】
図3に戻って、正負ラベリング部1241は、
図4において選定するか否かを示す操作子に対してチェックされた専門用語候補に対して正例とラベリングし、チェックされた専門用語候補以外の専門用語候補、すなわち、チェックされていない専門用語候補に対して負例とラベリングする。
【0044】
<正負ラベリング学習部1242>
正負ラベリング学習部1242は、正負ラベリング部1241による正負ラベリングと、専門用語候補との対応関係を学習した学習モデル(ラベリング学習モデル134とも称する。)を生成する。当該学習には、例えば、Word2vecと従来の機械学習とを用いてもよいし、BERTなどのTransformerモデルを用いてもよい。
【0045】
<候補再抽出部1243>
候補再抽出部1243は、正負ラベリング学習部1242が生成したラベリング学習モデル134を用いて、テキストデータから専門用語候補を再抽出する。
【0046】
<専門用語候補提示部125>
専門用語候補提示部125は、専門用語候補抽出部122が抽出した専門用語候補、および専門用語候補再抽出部124が抽出した専門用語候補の一方または両方をユーザに提示する。具体的には、専門用語候補提示部125は、専門用語候補の中から専門用語をユーザが選定可能に、例えば、
図4に示す表示画面例のようにユーザに提示する。
【0047】
<選定結果取得部126>
選定結果取得部126は、専門用語候補提示部125が提示した専門用語候補に対するユーザの選定結果を取得する。選定結果取得部126は、取得した選定結果を編集情報として記憶部13に記憶させる。
【0048】
<辞書生成部127>
辞書生成部127は、ユーザに選定された専門用語を、専門用語辞書情報として記憶部13に記憶させる。
【0049】
<記憶部13>
記憶部13は、各種データ、アプリケーション、プログラムを記憶する機能を有する。
また、記憶部13は、学習モデル131と、専門用語辞書情報132と、編集情報133と、ラベリング学習モデル134と、を記憶する。
【0050】
次いで、本実施形態に係る情報処理の流れについて説明する。
【0051】
<フローチャート>
図5は、本実施形態に係る情報処理システムSYSにおける情報処理の一例を示すフローチャートである。
ステップS102において、情報処理装置100は、テキストデータを取得する。
ステップS104において、情報処理装置100は、学習モデル131を用いてテキストデータから専門用語候補を抽出する。
ステップS106において、情報処理装置100は、
図5に係る処理が初回の処理であるか否かを判定する。初回の処理である場合、情報処理装置100は、ステップS114の処理を行う。一方、初回の処理でない場合、情報処理装置100は、ステップS108の処理を行う。
【0052】
ステップS108において、情報処理装置100は、編集結果を反映させる設定であるか否かを判定する。編集結果を反映させる設定である場合、情報処理装置100は、ステップS110の処理を行う。一方、編集結果を反映させない設定である場合、情報処理装置100は、ステップS114の処理を行う。
ステップS110において、情報処理装置100は、前回処理時にユーザによる辞書の編集があるか否かを判定する。前回処理時にユーザによる辞書の編集があると判定される場合、情報処理装置100は、ステップS112の処理を行う。一方、前回処理時にユーザによる辞書の編集がないと判定される場合、情報処理装置100は、ステップS114の処理を行う。
【0053】
ステップS112において、情報処理装置100は、テキストデータから専門用語候補を再抽出する。
ステップS114において、情報処理装置100は、専門用語候補をユーザに提示して、専門用語の選定を受け付ける。
ステップS116において、情報処理装置100は、選定された専門用語を専門用語辞書情報として記憶部13に記憶させる。また、情報処理装置100は、選定結果を編集情報として記憶部13に記憶させる。
【0054】
[第2の実施形態]
次いで、本発明の第2の実施形態について説明する。
第2の実施形態では、専門用語候補を抽出するための学習モデル131の生成について説明する。
また、第2の実施形態では、第1の実施形態と異なる部分を中心に説明する。
【0055】
<情報処理装置100>
図6は、本発明の第2の実施形態に係る情報処理装置100の機能構成の一例を示すブロック図である。
情報処理装置100は、通信部11と、制御部12と、記憶部13と、を含んで構成される。通信部11と、制御部12と、記憶部13とは、バスを介して相互に接続される。
制御部12は、テキストデータ取得部121と、専門用語候補抽出部122と、辞書データ修正判定部123と、専門用語候補再抽出部124と、専門用語候補提示部125と、選定結果取得部126と、辞書生成部127と、専門用語学習部128と、を含んで構成される。専門用語候補再抽出部124は、正負ラベリング部1241と、正負ラベリング学習部1242と、候補再抽出部1243と、を含んで構成される。専門用語学習部128は、学習テキストデータ取得部1281と、疑似専門用語付与部1282と、疑似コーパス生成部1283と、疑似専門用語再付与部1284と、学習部1285と、を含んで構成される。
【0056】
<学習テキストデータ取得部1281>
学習テキストデータ取得部1281は、学習用のテキストデータを取得する。具体的には、学習テキストデータ取得部1281は、記憶部13に記憶された学習用のテキストデータ、あるいはユーザから入力された学習用のテキストデータを取得する。
【0057】
<疑似専門用語付与部1282>
疑似専門用語付与部1282は、学習テキストデータ取得部1281が取得した学習用の学習テキストデータに対して専門用語抽出処理を行い、学習テキストデータから専門用語を抽出する。専門用語抽出処理は、例えば、PositionRankによるスコアリングを用いてもよい。疑似専門用語付与部1282は、抽出した専門用語が第一の疑似教師専門用語(第一疑似キーワードとも称する)を特定する情報を学習テキストデータに付与する。
【0058】
なお、第一の疑似教師専門用語であることを特定する情報は、例えば、固有表現抽出などの「系列レベリング問題」に用いられるBIO形式のタグ付けであってもよい。
この場合、例えば、「長期金利操作の導入を決定」なる文章を形態素に分割すると、「長期」「金利」「操作」「の」「導入」「を」「決定」分割される。このうち「長期金利操作」が第一の疑似教師専門用語である場合には、「長期」にタグ「B」、「金利」にタグ「I」、「操作」にタグ「I」、「の」にタグ「O」、「導入」にタグ「O」、「を」にタグ「O」、「決定」にタグ「O」のようにタグが付与されればよい。
ここで、タグ「B」は、Begining、つまり、専門用語の先頭単語を表し、タグ「I」は、Inside、つまり、専門用語の先頭単語以外の単語を表し、タグ「O」は、Outside、つまり、専門用語以外の単語を表す。
【0059】
<疑似コーパス生成部1283>
疑似コーパス生成部1283は、第一の疑似教師専門用語が付与された学習用テキストデータにおける各文章中の専門用語を、所定規則に従って生成された第二の疑似教師専門用語に置換して疑似コーパスを生成する。疑似コーパス生成部1283は、第2の疑似教師専門用語と、疑似コーパスとを、第一の疑似教師専門用語が付与された学習用テキストデータに付与する。
【0060】
例えば、疑似コーパス生成部1283は、「○○という」や「○○によると」などの表現において「○○」が専門用語とすると、「○○」を「△△」などに所定規則、例えばランダムな単語に置き換え、「△△という」や「△△によると」などの疑似文章を生成する。
例えば、「△△」は、「〇〇」とは同じ分野の異なる他の専門用語である。あるいは、「△△」は、「〇〇」とは異なる分野の専門用語でもよい。あるいは、「△△」は、専門用語でもなく、機械的にランダムに選択された任意の単語や複合語あるいは、ユーザにより選択された任意の単語や複合語でもよい。なお、所定規則は、置換する単語の品詞を制限してもよい。
【0061】
このようにすることで、対象テキストデータにおける文章中の専門用語となりやすい単語そのものではなく、対象のテキストデータにおける文章中の専門用語が出現しやすい文脈を学習させることができる。そのため、専門用語の抽出精度を向上させることができる。
【0062】
なお、情報処理装置100は、疑似コーパス生成部1283の構成を備えなくても専門用語の抽出精度を向上させることができるが、疑似コーパス生成部1283を用いることで、文脈を学習させることができるため、専門用語の抽出精度をより向上させることができる。
【0063】
<疑似専門用語再付与部1284>
疑似専門用語再付与部1284は、前回の処理時にユーザによる専門用語辞書の編集が行われたか否かを判定する。疑似専門用語再付与部1284は、今回の処理が初回の処理である場合や、専門用語辞書の編集結果の反映を行わない設定である場合を除いて、前回の編集結果を用いて第一の疑似教師専門用語を再付与する。
【0064】
具体的には、疑似専門用語再付与部1284は、前回処理時のユーザによる専門用語であるか否かを示す選定結果に基づいて、ラベリングする。具体的には、疑似専門用語再付与部1284は、専門用語であることを示す選定が行われた専門用語に正例とラベリングし、専門用語であることを示す選定が行われなかった専門用語に負例とラベリングする。
疑似専門用語再付与部1284は、正負ラベリングと、専門用語候補との対応関係を学習した学習モデルを生成する。当該学習には、例えば、Word2vecと従来の機械学習とを用いてもよいし、BERTなどのTransformerモデルを用いてもよい。
疑似専門用語再付与部1284は、生成した学習モデルを用いて、学習用テキストデータから専門用語候補を再抽出し、再抽出した専門用語候補を第一の疑似教師専門用語として学習用テキストデータに再付与する。
【0065】
<学習部1285>
学習部1285は、疑似教師専門用語を抽出する学習モデル131を生成する。具体的には、学習部1285は、文脈を学習可能なBERTなどを用いて、疑似教師専門用語と当該疑似教師専門用語が出現する文脈との対応関係を学習することで、専門用語が出現する文脈を学習する。学習部1285は、生成した学習モデルを記憶部13に記憶させる。
このようにすることで、学習部1285は、文中でのその語の周辺の文脈を考慮可能な学習モデルを生成することで、単語の頻度や係り受け関係だけでなく専門用語が出現しそうな文脈を学習することができ、未知の専門用語を高い精度で抽出することができる。
【0066】
次いで、本実施形態に係る情報処理の流れについて説明する。
【0067】
<フローチャート>
図7は、本実施形態に係る情報処理システムSYSにおける情報処理の一例を示すフローチャートである。
ステップS202において、情報処理装置100は、学習用テキストデータを取得する。
ステップS204において、情報処理装置100は、学習用テキストデータから専門用語候補を抽出し、抽出した専門用語候補を第一の疑似教師専門用語として学習用テキストデータに付与する。
ステップS206において、情報処理装置100は、
図7に係る処理が初回の処理であるか否かを判定する。初回の処理である場合、情報処理装置100は、ステップS214の処理を行う。一方、初回の処理でない場合、情報処理装置100は、ステップS208の処理を行う。
【0068】
ステップS208において、情報処理装置100は、編集結果を反映させる設定であるか否かを判定する。編集結果を反映させる設定である場合、情報処理装置100は、ステップS210の処理を行う。一方、編集結果を反映させない設定である場合、情報処理装置100は、ステップS214の処理を行う。
ステップS210において、情報処理装置100は、前回処理時にユーザによる辞書の編集があるか否かを判定する。前回処理時にユーザによる辞書の編集があると判定される場合、情報処理装置100は、ステップS212の処理を行う。一方、前回処理時にユーザによる辞書の編集がないと判定される場合、情報処理装置100は、ステップS214の処理を行う。
【0069】
ステップS212において、情報処理装置100は、学習用テキストデータから専門用語候補を再抽出し、再抽出した専門用語候補を第一の疑似教師専門用語として学習用テキストデータに再付与する。
ステップS214において、情報処理装置100は、疑似教師専門用語と当該疑似教師専門用語が出現する文脈との対応関係を学習した専門用語抽出モデルを生成する。
ステップS216において、情報処理装置100は、生成した専門用語抽出モデルを学習モデルをとして記憶部13に記憶させる。
【0070】
このように、第1の実施形態および第2の実施形態に係る情報処理システムSYSは、学習用の学習テキストデータを取得する学習テキストデータ取得部1281と、学習テキストデータから疑似的なキーワードである第一疑似キーワードを抽出する疑似キーワード抽出部(疑似専門用語付与部1282)と、第一疑似キーワードを特定する情報を学習テキストデータに付与する疑似キーワード付与部(疑似専門用語付与部1282)と、学習テキストデータにおける文脈と第一疑似キーワードとの対応関係を学習した学習モデルを生成する学習モデル生成部(学習部1285)と、を備える。
【0071】
具体的には、学習モデルは、学習テキストデータにおける文脈と、第一疑似キーワードとの対応関係を学習することによって生成される。例えば、生成された学習モデルに入力情報としてテキストデータを入力すると、出力情報としてキーワードを得る。キーワード抽出部(専門用語候補抽出部122)は、学習モデルを用いて、所定のテキストデータからキーワードを抽出する。
【0072】
これにより、教師なし学習による専門用語の抽出結果を疑似教師専門用語とすることで、教師専門用語作成のコストを削減することができる。また、テキストデータにおける文章中のその語の周辺の文脈を学習した学習モデルを生成することができるため、未知の専門用語を高い精度で抽出することができる。また、抽出された専門用語のみを人手での確認・修正対象とすることで、低コストで高品質な辞書を生成することができる。また、ユーザによる専門用語辞書に対する編集内容に基づきラベリング学習モデル134を生成することで、ユーザの目的、用途、好みに合う専門用語を再抽出することができ、辞書生成の精度をさらに向上させることができる。
【0073】
[第3の実施形態]
次いで、本発明の第3の実施形態について説明する。
第3の実施形態では、第1の実施形態および第2の実施形態の一方または両方に基づいて生成された専門用語辞書を用いて専門用語を抽出する場合の一例について説明する。
【0074】
<ユーザ端末装置200>
図8は、本発明の第3の実施形態に係るユーザ端末装置200の構成の一例を示すブロック図である。
ユーザ端末装置200は、通信部21と、制御部22と、記憶部23と、を含んで構成される。
【0075】
<通信部21>
通信部21は、情報処理装置100と通信する機能を有する。通信部21は、情報処理装置100から受信した各種情報を制御部22に出力する。また、通信部21は、制御部22から入力される情報を、情報処理装置100に送信する。
【0076】
<制御部22>
制御部22は、ユーザ端末装置200を制御する機能を有する。制御部22は、記憶部23に記憶された各種データ、アプリケーション、プログラムなどを読み出して情報処理装置100を制御する。
【0077】
より詳細に制御部22の処理について説明する。
制御部22は、入力データ取得部221と、辞書データ取得部222と、テキストマイニング部223と、を含んで構成される。
【0078】
<入力データ取得部221>
入力データ取得部221は、ユーザから入力データを取得する。入力データは、音声データあるいはテキストデータである。入力データ取得部221は、入力データが音声データである場合には、音声認識により音声データをテキストデータに変換する。入力データ取得部221は、テキストデータをテキストマイニング部223に出力する。
【0079】
<辞書データ取得部222>
辞書データ取得部222は、専門用語辞書情報を、通信部21を介して情報処理装置100から取得する。辞書データ取得部222は、取得した専門用語辞書情報を記憶部23に記憶させる。
【0080】
<テキストマイニング部223>
テキストマイニング部223は、テキストデータに対してテキストマイニングを行い、記憶部23が記憶する専門用語辞書情報を参照して、テキストデータから専門用語を抽出する。
【0081】
<フローチャート>
図9は、本実施形態に係る情報処理の流れの一例を示すフローチャートである。
ステップS302において、ユーザ端末装置200は、ユーザからテキストデータまたは音声データを入力データとして取得する。ユーザ端末装置200は、音声データであれば、テキストデータに変換する。
ステップS304において、ユーザ端末装置200は、情報処理装置100から専門用語辞書情報を取得する。
ステップS306において、ユーザ端末装置200は、専門用語辞書情報を参照してテキストデータから専門用語を抽出する。
【0082】
第1の実施形態において、専門用語候補をユーザが任意に追加、削除、編集を可能とする点を説明したが、本実施形態によれば、ユーザ端末装置200において専門用語を抽出することができる。よってユーザの意思に基づく、専門用語の追加も可能となる。
【0083】
(付記1)
学習用の学習テキストデータから疑似的なキーワードである第一疑似キーワードを抽出する疑似キーワード抽出部と、前記第一疑似キーワードを特定する情報を前記学習テキストデータに付与する疑似キーワード付与部と、前記学習テキストデータにおける文脈と前記第一疑似キーワードとの対応関係を学習した学習モデルを生成する学習モデル生成部と、を備える情報処理システム。
【0084】
(付記2)
前記学習モデルを用いてテキストデータからキーワードを抽出するキーワード抽出部と、をさらに備える付記1に記載の情報処理システム。
【0085】
(付記3)
前記学習テキストデータに出現する前記第一疑似キーワードを、所定規則に従って生成された第二疑似キーワードに置換することで疑似文章を生成する疑似文書生成部、をさらに備え、前記学習モデル生成部は、前記第二疑似キーワードと前記疑似文章との対応関係をさらに学習する、付記1に記載の情報処理システム。
【0086】
(付記4)
前記キーワードを編集可能にユーザに提示する提示部、をさらに備え、前記学習モデル生成部は、前記ユーザに編集されたキーワードと前記編集されたキーワードが出現する文章の文脈との対応関係をさらに学習した学習モデルを生成する、付記2に記載の情報処理システム。
【0087】
(付記5)
学習用の学習テキストデータから疑似的なキーワードである第一疑似キーワードを抽出する疑似キーワード抽出部と、前記第一疑似キーワードを前記学習テキストデータに付与する疑似キーワード付与部と、前記学習テキストデータにおける文脈と前記第一疑似キーワードとの対応関係を学習した学習モデルを生成する学習モデル生成部と、を備える情報処理装置。
【0088】
(付記6)
コンピュータが実行する情報処理方法であって、学習用の学習テキストデータから疑似的なキーワードである第一疑似キーワードを抽出する疑似キーワード抽出過程と、前記第一疑似キーワードを前記学習テキストデータに付与する疑似キーワード付与過程と、前記学習テキストデータにおける文脈と前記第一疑似キーワードとの対応関係を学習した学習モデルを生成する学習モデル生成過程と、を有する情報処理方法。
【0089】
(付記7)
コンピュータに、学習用の学習テキストデータから疑似的なキーワードである第一疑似キーワードを抽出する疑似キーワード抽出ステップと、前記第一疑似キーワードを前記学習テキストデータに付与する疑似キーワード付与ステップと、前記学習テキストデータにおける文脈と前記第一疑似キーワードとの対応関係を学習した学習モデルを生成する学習モデル生成ステップと、を実行させるためのプログラム。
【0090】
以上、図面を参照してこの発明の各実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
【0091】
例えば、上述した各実施形態では、情報処理装置100、ユーザ端末装置200のようにそれぞれの装置によって構成される一例について説明したが、これらの装置の一部またはすべてを組み合わせた装置、あるいはこれらの装置の一部を組み替えた装置によって本発明の一態様を実現してもよい。
【0092】
なお、本発明の一態様における情報処理装置100、ユーザ端末装置200で動作するプログラムは、本発明の一態様に関わる上記の各実施形態や変形例で示した機能を実現するように、1つ、または複数の、CPU(Central Processing Unit)等のプロセッサを制御するプログラム(コンピュータを機能させるプログラム)であっても良い。ここでいう、コンピュータは、量子コンピュータも含まれる。そして、これらの各装置で取り扱われる情報は、その処理時に一時的にRAM(Random Access Memory)に蓄積され、その後、フラッシュメモリやHDD(Hard Disk Drive)等の各種ストレージに格納され、必要に応じてCPU等によって読み出し、修正・書き込みが行われても良い。
【0093】
なお、上述した各実施形態や変形例における情報処理装置100、ユーザ端末装置200の一部又は全部を1つ、または複数のプロセッサを備えたコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータが読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。
【0094】
なお、ここでいう「コンピュータシステム」とは、情報処理装置100、ユーザ端末装置200に内蔵されたコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
【0095】
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
【0096】
また、上述した各実施形態や変形例における情報処理装置100、ユーザ端末装置200の一部、又は全部を典型的には集積回路であるLSIとして実現してもよいし、チップセットとして実現してもよい。また、上述した各実施形態や変形例における情報処理装置100、ユーザ端末装置200の各機能ブロックは個別にチップ化してもよいし、一部、又は全部を集積してチップ化してもよい。また、集積回路化の手法は、LSIに限らず専用回路、および/または汎用プロセッサで実現しても良い。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いることも可能である。
【0097】
以上、この発明の一態様として各実施形態や変形例に関して図面を参照して詳述してきたが、具体的な構成は各実施形態や変形例に限られるものではなく、この発明の要旨を逸脱しない範囲の設計変更等も含まれる。また、本発明の一態様は、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。また、上記各実施形態や変形例に記載された要素であり、同様の効果を奏する要素同士を置換した構成も含まれる。
【符号の説明】
【0098】
SYS 情報処理システム
100 情報処理装置
11 通信部
12 制御部
121 テキストデータ取得部
122 専門用語候補抽出部
123 辞書データ修正判定部
124 専門用語候補再抽出部
1241 正負ラベリング部
1242 正負ラベリング学習部
1243 候補再抽出部
125 専門用語候補提示部
126 選定結果取得部
127 辞書生成部
128 専門用語学習部
1281 学習テキストデータ取得部
1282 疑似専門用語付与部
1283 疑似コーパス生成部
1284 疑似専門用語再付与部
1285 学習部
13 記憶部
131 学習モデル
132 専門用語辞書情報
133 編集情報
200 ユーザ端末装置
21 通信部
22 制御部
221 入力データ取得部
222 辞書データ取得部
223 テキストマイニング部
23 記憶部
231 専門用語辞書情報