IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社 日立産業制御ソリューションズの特許一覧

特開2023-51423情報処理システム、情報処理方法、および情報処理プログラム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023051423
(43)【公開日】2023-04-11
(54)【発明の名称】情報処理システム、情報処理方法、および情報処理プログラム
(51)【国際特許分類】
   G06F 16/383 20190101AFI20230404BHJP
   G06F 16/36 20190101ALI20230404BHJP
【FI】
G06F16/383
G06F16/36
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2021162073
(22)【出願日】2021-09-30
(71)【出願人】
【識別番号】000153443
【氏名又は名称】株式会社 日立産業制御ソリューションズ
(74)【代理人】
【識別番号】110001689
【氏名又は名称】青稜弁理士法人
(72)【発明者】
【氏名】浜 直史
(72)【発明者】
【氏名】安井 雅彦
(72)【発明者】
【氏名】和久井 一則
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FA01
5B175GB04
(57)【要約】
【課題】文書の主題との関連度が高い検索見出し語を生成すること。
【解決手段】情報処理システムは、プログラムを実行するプロセッサと、プログラムを記憶する記憶デバイスと、を有する情報処理システムであって、プロセッサは、自然言語データを、所定の自然言語データ分析モデルが分析可能なクエリへと変換する変換処理と、自然言語データ分析モデルが変換処理によって変換されたクエリを分析して分析結果を出力する分析処理と、分析処理で出力された分析結果への寄与の度合いを表す第一寄与値を自然言語データ内の語について算出する第一算出処理と、第一算出処理が算出した第一寄与値に基づいて自然言語データへ付与する候補である見出し語候補を取得する取得処理を実行する。
【選択図】図4A
【特許請求の範囲】
【請求項1】
プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する情報処理システムであって、前記プロセッサは、
自然言語データを、所定の自然言語データ分析モデルが分析可能なクエリへと変換する変換処理と、
当該自然言語データ分析モデルが前記変換処理によって変換されたクエリを分析して分析結果を出力する分析処理と、
当該分析処理で出力された分析結果への寄与の度合いを表す第一寄与値を前記自然言語データ内の語について算出する第一算出処理と、
前期第一算出処理が算出した第一寄与値に基づいて前記自然言語データへ付与する候補である見出し語候補を取得する取得処理を実行することを特徴とする情報処理システム。
【請求項2】
請求項1に記載の情報処理システムであって、前記プロセッサは、
前記取得処理によって取得された見出し語候補を出力し、提示させる第一出力処理を実行することを特徴とする情報処理システム。
【請求項3】
請求項1に記載の情報処理システムであって、
前記変換処理では、前記プロセッサは、前記自然言語データ中の、一部の語句または文の順序を入れ替えて、クエリへと変換する、
ことを特徴とする情報処理システム。
【請求項4】
請求項1に記載の情報処理システムであって、
前記自然言語データ内の複数の語句を1組にまとめた語句の組と、前記分析処理から出力された前記分析結果への、前記語句の組を構成する前記複数の語句の相互作用による寄与の度合いを表す第二寄与値と、を算出する第二算出処理と、
第二算出処理が算出した第二寄与値に基づいて、前記自然言語データへ付与する候補である語句の組見出し語候補およびその第二寄与値を出力し、提示させる第二出力処理を実行することを特徴とする情報処理システム。
【請求項5】
請求項1に記載の情報処理システムであって、
前記自然言語データに付与可能な1以上の見出し語を含む見出し語辞書データにアクセス可能であり、
前記プロセッサは、当該見出し語辞書データを参照して、前記見出し語辞書データから、前記取得処理で取得した前記見出し語候補に類似する語を抽出し、当該類似する語に基づいて前記見出し語候補を加工する加工処理を実行することを特徴とする情報処理システム。
【請求項6】
請求項1に記載の情報処理システムであって、
前記自然言語データに付与可能な1以上の見出し語を含む見出し語辞書データにアクセス可能であり、
前記プロセッサは、当該見出し語辞書データを参照して、前記見出し語辞書データから、前記取得処理で取得した前記見出し語候補に類似する語を抽出し、前記見出し語候補と、前記類似する語が新規語採用基準を充足するか否かを判定し、前記見出し語候補と、前記類似する語が新規語採用基準を充足すると判定された場合に、前記見出し語候補が前記見出し語辞書データに含まれない旨を、前記見出し語候補に対応づけて出力し、提示させる第三出力処理を実行することを特徴とする情報処理システム。
【請求項7】
請求項1に記載の情報処理システムであって、
学習用データを格納する学習用データベースにアクセス可能であり、
前記プロセッサは、学習用テキスト、および当該学習用テキストの作成者の情報または前記学習用データベースへの前記学習用テキストの提供者の情報を取得する情報取得処理と、
前記学習用テキストを入力データとし、前期情報取得処理によって取得した作成者の情報または提供者の情報を推論するように自然言語データ分析モデルを訓練する訓練処理を実行することを特徴とする情報処理システム。
【請求項8】
請求項1に記載の情報処理システムであって、
前記第一算出処理は、前記クエリから複数の語を抽出し、前記クエリ内の一部の前記語を所定の置換語に置き換えた置換クエリを作成し、前記自然言語データ分析モデルに前記置換クエリを分析した置換分析結果を取得し、取得した当該置換分析結果に基づいて、前記クエリ中の前記語に対する前記第一寄与値を算出する第一寄与値算出処理が可能な所定の説明可能AI(Explainable AI)技術を使用することを特徴とする情報処理システム。
【請求項9】
プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する情報処理システムが実行する情報処理方法であって、
前記プロセッサが、
自然言語データを、所定の自然言語データ分析モデルが分析可能なクエリへと変換する変換処理と、
当該自然言語データ分析モデルが前記変換処理によって変換されたクエリを分析して分析結果を出力する分析処理と、
当該分析処理で出力された分析結果への寄与の度合いを表す第一寄与値を前記自然言語データ内の語について算出する第一算出処理と、
前期第一算出処理が算出した第一寄与値に基づいて前記自然言語データへ付与する候補である見出し語候補を取得する取得処理を実行することを特徴とする情報処理方法。
【請求項10】
プログラムを実行するプロセッサに、
自然言語データを、所定の自然言語データ分析モデルが分析可能なクエリへと変換する変換処理と、
当該自然言語データ分析モデルが前記変換処理によって変換されたクエリを分析して分析結果を出力する分析処理と、
当該分析処理で出力された分析結果への寄与の度合いを表す第一寄与値を前記自然言語データ内の語について算出する第一算出処理と、
前期第一算出処理が算出した第一寄与値に基づいて前記自然言語データへ付与する候補である見出し語候補を取得する取得処理と、
を実行させるための情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報を処理する情報処理システム、情報処理方法、および情報処理プログラムに関する。
【背景技術】
【0002】
音声やテキストのような形式で格納された、自然言語で記述された文章または文のデータ(「自然言語データ」という)を分析する機械学習モデルの性能が、近年急速に向上している。これまで企業内で作成されては廃棄されていた各種文書も、データベースに格納し、要求に応じて呼び出され機械学習モデルの分析対象となることで、新たな価値を生むことが期待される。
【0003】
このような目的で企業内にて作成された文書は、一般のウェブ検索などと比すると、1件ごとの文書が比較的長く、また用いられる用語が企業ごとに類似しているなどの特徴がある。このため、これらの文書を呼び出す際には、ウェブ検索などで一般に用いられる全文検索技術を適用することが必ずしも最適ではない。データベース格納時に文書ごとに見出し語を設定し、当該見出し語に関する検索を行えば、検索精度や検索効率の点で十分であることが多い。
【0004】
他方、文書の見出し語として不適切な語を選択すると、検索の誤検出の原因となる。特に企業内で文書が大量に生成、格納される場合には、当該見出し語を厳選しなければ、偽陽性として当該見出し語との関連性がそれほど高くない文書が大量に呼び出され、実質的に文書検索が機能しなくなる問題がある。
【0005】
特許文献1には、収集した情報に基づいて、データベースを検索するためのインデックスを作成する装置が開示されている。当該装置は、特定の概念ごとに相互に関連付けられた複数のフレーズを含む辞書と、テキスト文の入力を受け付ける入力インターフェース部、前記テキスト文から複数の語をトークンとして切り出すテキスト処理部と、前記切り出した複数のトークンどうしの接続関係を表現した有向グラフを生成する有向グラフ生成部と、前記辞書を参照しながら前記有向グラフ内を探索し、探索対象フレーズが前記辞書中に発見された場合に、前記有向グラフを展開する有向グラフ探索部と、前記有向グラフ内における複数のトークンに基づいてインデックスを作成するインデックス作成部とを備える。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2019-153267号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
特許文献1に開示された技術では、事前に作成された辞書中に探索対象フレーズが発見された場合に入力されたテキスト文から生成された有向グラフを探索し、当該有向グラフ内におけるトークンに基づいてインデックス(見出し語)を作成するが、入力テキスト文内での当該探索対象フレーズの用いられ方や重要度を参照していない。したがって、入力テキスト文内での主題との関連度が低い箇所に探索対象フレーズが含まれていた場合、作成されたインデックスは当該入力テキストの主題との関連性が低いものとなる恐れが高く、検索時の誤検出の原因となりうる。
【0008】
本開示のひとつの目的は、文書の主題との関連度が高い検索見出し語を付与することができる情報処理システム、情報処理方法、情報処理プログラムを提供することである。
【課題を解決するための手段】
【0009】
本願において開示される発明の一側面となる情報処理システムは、プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する情報処理システムであって、前記プロセッサは、自然言語データを、所定の自然言語データ分析モデルが分析可能なクエリへと変換する変換処理と、当該自然言語データ分析モデルが前記変換処理によって変換されたクエリを分析して分析結果を出力する分析処理と、当該分析処理で出力された分析結果への寄与の度合いを表す第一寄与値を前記自然言語データ内の語について算出する第一算出処理と、前期第一算出処理が算出した第一寄与値に基づいて前記自然言語データへ付与する候補である見出し語候補を取得する取得処理を実行することを特徴とする。
【発明の効果】
【0010】
本発明の代表的な実施の形態によれば、文書の主題との関連度が高い検索見出し語を付与することができる情報処理システム、情報処理方法、情報処理プログラムを提供することができる。前述した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。
【図面の簡単な説明】
【0011】
図1図1は、実施例1の情報処理システムのブロック図である。
図2図2は、実施例1の情報処理システムのハードウェア構成例を示すブロック図である。
図3図3は、実施例1に係る分析条件の設定画面の一例を示す説明図である。
図4A図4Aは、実施例1に係るテキスト分析部によるテキスト分析手順例を示すフローチャートである。
図4B図4Bは、実施例1に見出し語候補提示部による見出し語候補を提示する手順例を示すフローチャートである。
図5A図5Aは、実施例1に係る見出し語候補表示画面の一例を示す説明図である。
図5B図5Bは、実施例1に係るテキスト分析部によるテキスト分析手順例の一部の例を示す説明図である。
図5C図5Cは、実施例1に係るテキスト分析部によるテキスト分析手順例の一部の例を示す説明図である。
図6A図6Aは、実施例2の情報処理装置システムのブロック図である。
図6B図6Bは、実施例2の情報処理システムのハードウェア構成例を示すブロック図である。
図7図7は、実施例2に係る分析条件の設定画面の一例を示す説明図である。
図8図8は、実施例2に係る辞書突合部による辞書突合手順例を示すフローチャートである。
図9図9は、実施例2に係る辞書突合部の内部で通信される情報の例を示す説明図である。
図10図10は、実施例2に係る見出し語候補表示画面の一例を示す説明図である。
図11A図11Aは、実施例3の情報処理装置システムのブロック図である。
図11B図11Bは、実施例3の情報処理システムのハードウェア構成例を示すブロック図である。
図12図12は、実施例3に係る自然言語分析モデル学習部による自然言語分析モデル学習例を示すフローチャートである。
図13図13は、実施例2および実施例3に係る全体構成図である。
【発明を実施するための形態】
【0012】
以下、本発明の実施の形態について図面を参照して説明する。
【実施例0013】
図1は、実施例1の情報処理システム100のブロック図である。図2は、情報処理システム100に含まれている計算機のハードウェア構成を示すブロック図である。
【0014】
図1を参照すると、情報処理システム100は、計算機100-1、100-2を有している。自然言語分析システムは、計算機100-1、100-2および端末101を有している。計算機100-1、100-2および端末101は通信ネットワーク102に接続されている。通信ネットワーク102は有線または無線の回線によりデータの送受信を可能にする設備である。
【0015】
計算機100-1は、テキスト分析部111と見出し語候補提示部112とを備え、自然言語データを入力とし見出し語候補を出力する計算機である。計算機100-2は、自然言語分析モデルストア120および説明可能AIプログラムストア130にアクセス可能な計算機である。
【0016】
自然言語分析モデルストア120は、自然言語データから加工されたクエリを分析し分析結果を出力する、自然言語分析モデルを1または複数格納する。特に当該自然言語分析モデルは、クエリをいくつかのクラスに分類するモデルであってもよいし、なんらかの数値を出力する回帰モデルであってもよいし、その他の形式で分析結果を出力するモデルであってもよい。
【0017】
説明可能AIプログラムストア130は、クエリから複数の語句を抽出し、抽出した複数の語句それぞれの第一寄与値を算出できる説明可能AI技術のプログラムを1または複数格納する。ここで、第一寄与値は、自然言語分析モデルがクエリを分析した分析結果へ語句への寄与(影響の大きさ)の度合いを表す値である。第一寄与値が大きい語句ほど、クエリQiの分析結果に与える影響が大きい語句である。また、説明可能AI技術のプログラムは、クエリ内の複数の語句をまとめた語句の組と、この語句の組の第二寄与値と、を算出できるプログラムであることが好ましい。ここで、第二寄与値は、語句の組を構成する複数の語句の相互作用(複数の語句の間の関係性)による、自然言語分析モデルがクエリを分析した分析結果への寄与の度合いを表す値である。説明可能AI技術のいわゆる「相互作用値」が第二寄与値に相当する場合がある。説明可能AI技術のプログラムは、例えば、Baseline SHAPやAttention値、ACD等のアルゴリズムのプログラムであってもよい。
【0018】
図2を参照すると、計算機100-1は、プロセッサ201、主記憶装置202、副記憶装置(記憶デバイス)203、ネットワークインタフェース204、入力装置205および出力装置206を有している。
【0019】
副記憶装置203は、書き込みおよび読み出しが可能にデータを記憶する装置である。計算処理に供されるデータや計算処理の結果は副記憶装置203に記憶される。また、副記憶装置203は、テキスト分析プログラム111Aおよび見出し語候補提示プログラム112Aを記憶している。
【0020】
プロセッサ201は、副記憶装置203に記憶されたデータを主記憶装置202に読み出してプログラムを実行する装置である。計算機100-1におけるテキスト分析部111および見出し語候補提示部112の機能は、プロセッサ201が副記憶装置203に記憶しているテキスト分析プログラム111Aおよび見出し語候補提示プログラム112Aを主記憶装置202に読み出して実行することにより実現される。
【0021】
ネットワークインタフェース204は、通信ネットワーク102を介して他の装置とデータを送受信する装置である。ネットワークインタフェース204は、プロセッサ201の処理結果のデータを通信ネットワーク102を介して他の装置に送信することができる。また、ネットワークインタフェース204は、通信ネットワーク102を介して他の装置から、プロセッサ201の処理に供するデータを受信することができる。
【0022】
入力装置205は、キーボードやマウスなどユーザが操作を受け付ける装置であり、ユーザの操作により入力された情報を取得する。出力装置206は、ディスプレイやスピーカなど情報を出力する装置であり、例えば画面への表示により情報をユーザに提示する。
【0023】
計算機100-2および端末101は、計算機100-1と同様のハードウェア資源を使用することで構成できる。なお、計算機100-2では、自然言語分析モデルストア120および説明可能AIプログラムストア130は、副記憶装置203に記憶されている。
【0024】
図1に戻り、計算機100-1は、テキスト分析部111および見出し語候補提示部112を備えている。計算機100-1は、設定情報Iに基づいて、自然言語データである入力テキストTの見出し語候補を生成する。なお、テキストデータではない音声データ等に見出し語候補を生成する場合には、音声データ等を公知の方法であらかじめテキストに変換し、入力テキストTとして保存してもよい。
【0025】
設定情報Iは、端末101を操作するユーザ等に設定される。図3は、設定情報Iを表示する設定画面の一例を示す説明図である。図3の設定画面300は一例として、クエリタスク設定欄310、モデル指定欄320、クエリ数設定欄330、寄与値算出手法設定欄340、候補採用閾値設定欄350および組み合わせ重み設定欄360などを含むことができる。ユーザは、チェックボックス(チェックボックス311等)をクリックして、条件を選択できる。ユーザが選択したチェックボックスは黒塗りで表示され、選択していないチェックボックスは白塗りで表示されている。
【0026】
クエリタスク設定欄310は、自然言語分析モデルNが分析するタスク(の分析内容)を設定する欄である。クエリは、入力テキストTを加工して作成される。自然言語分析モデルNがクエリを分析するタスクの分析内容に応じて、クエリの構成が変わる。図3では、黒塗りのチェックボックス312に対応する「Next Sentence Prediction」が、タスクの分析内容として選択されていることを示している。ユーザは、図3のタスク設定欄310に描かれた、「Masked Language Model」や、「Classification」(分類)を選択することもできる。
【0027】
モデル指定欄320は、自然言語分析モデルストア120から読み込んで使用する自然言語分析モデルNを指定する欄である。ユーザは、モデル指定欄320の「参照」と描かれたボタン321をクリックして、自然言語分析モデルNを指定できる。図3では、モデル指定欄320の参照欄322は空欄になっており、クエリタスク設定欄310で選択された「Next Sentence Prediction」に関するデフォルトの自然言語分析モデルNが選択されていることを示している。
【0028】
クエリ数設定欄330は、入力テキストTから分割するテキスト片Tiの数を設定する欄である。また、テキスト片Tiを加工してクエリQiが作成される。図3では、入力テキストTを、8つ(欄331)に分割して、8つのテキスト片Tiを生成することを示している。なお、入力テキストTの長さまたは自然言語分析モデルNもしくは自然言語分析モデルNに付随するメタデータから当該テキスト片Tiの数を自動的に設定することも可能である。
【0029】
寄与値算出手法設定欄340は、自然言語分析モデルNの出力(クエリQiの分析結果)から、クエリQi(テキスト片Ti)内の語句Pi1、Pi2からPimへ第一寄与値を算出する際の算出手法を設定する欄である。本欄では例えば、図3に例示されるBaseline SHAPやAttention値、ACDなどのいわゆる説明可能AI(eXplainable AI)技術のアルゴリズムや、当該算出に関する条件などの情報を設定することができる。なお、いうまでもなく、説明可能AIとして採用可能な手法はここに例示された手法に限定されない。図3では、黒塗りのチェックボックス343に対応する「ACD」が選択されていることを示している。
【0030】
また、本欄で設定することのできるアルゴリズムの一部または全てを、自然言語分析モデルNもしくは自然言語分析モデルNに付随するメタデータまたはクエリQiに係る情報から算出される適用可能性に応じて、強調表示を行いもしくは非表示とすることができる。
【0031】
候補採用閾値設定欄350は、算出された第一寄与値に応じて、クエリQi(テキスト片Ti)内の語句Pi1、Pi2からPimから見出し語候補として採用するための抽出条件を設定する欄である。図3では、白塗りのチェックボックス351に対応する「第一寄与値が0.20(欄352)以上の語句を見出し語候補として採用する」との条件は選択されておらず、黒塗りのチェックボックス353に対応する「第一寄与値が上位8(欄354)までの語句を見出し語候補として採用する」との条件が抽出条件として選択されていることを示している。
【0032】
この様に、本欄では例えば、当該第一寄与値に関する閾値として当該抽出条件を設定することができる。当該閾値としては、語句Pi1、Pi2からPimについて算出された第一寄与値から、平均値や標準偏差などの統計値を算出し、当該統計値に関する閾値として抽出条件の候補を設定することも可能である。また本欄では例えば、見出し語候補として採用する語句の数の最大数を設定することができる。
【0033】
組み合わせ重み設定欄360は、語句の組の第二寄与値に関する抽出条件を設定する欄である。本欄では例えば、算出する対象の語句の組を構成する(相互作用を行う)語句の数の最大数を設定することができる。また本欄では例えば、第二寄与値に関する閾値として当該抽出条件を設定することができる。当該閾値としては、第二寄与値から平均値や標準偏差などの統計値を算出し、当該統計値に関する閾値として設定することも可能である。また本欄では例えば、候補として採用する語句の組み合わせの最大数を設定することができる。
【0034】
図3では、チェックボックス361は白塗りとなっており、語句の組および第二寄与値を算出する設定となっていることを示している。また、チェックボックス362は白塗りとなっており、「算出する対象の語句の組は、語句の組を構成する語句の最大語数が4(欄363)まで」との条件を設定していないことを示している。また、チェックボックス364及びチェックボックス366の両方が黒塗りになっており、チェックボックス364に対応する「第二寄与値が、0.20(欄365)以上の語句の組」と、チェックボックス366に対応する「第二寄与値の上位からの順位が、8(欄367)位以上の語句の組」との両方が、抽出条件に設定されていることを示している。
【0035】
ユーザは、クエリタスク設定欄310、モデル指定欄320、クエリ数設定欄330、寄与値算出手法設定欄340、候補採用閾値設定欄350および組み合わせ重み設定欄360の一部または全てについて設定を行い、保存ボタン301を押下することにより、設定画面300に描かれている設定情報Iが保存される。保存された設定情報Iがテキスト分析部111による処理に適用される。また、同時にこれらの設定情報を副記憶装置203に格納することができる。
【0036】
また、図3の設定画面300内に示したGUI(Graphical User Interface)は例示である。設定画面は、図3に示す設定画面300に限定されることはない。また、ユーザはすべての設定情報Iを設定する必要は必ずしもなく、適当な方法で自動的に設定を定めてもよい。
【0037】
入力テキストTおよび設定情報Iは、計算機100-1および端末101とデータを送受信できる装置に保存されている。ユーザは端末101を操作して、入力テキストTが保存されている場所の情報と、設定情報Iが保存されている場所の情報とを、見出し語候補作成の処理開始命令とを、端末101から計算機100-1に送信する。この様にユーザが端末101から計算機100-1に送信する代わりに、ユーザが計算機100-1に入力しても良い。また、計算機100-1は、デフォルトの設定情報Iを自動的に読み込んでもよい。
【0038】
図4Aは、情報処理システム100のテキスト分析部111によるテキスト分析手順例を示すフローチャートである。
【0039】
情報処理システム100は、ユーザが端末101から入力されるなどして作成さした処理開始命令を受信すると、ユーザが端末101を操作して作成した、もしくは他の装置に格納された、指定された入力テキストTおよび設定情報Iを通信ネットワーク102を介して取得する(ステップS401)。
【0040】
次に情報処理システム100は、取得した設定情報Iに基づき、自然言語分析モデルストア120から自然言語分析モデルNを読み込み、また、説明可能AIプログラムストア130から説明可能AI技術のプログラムを読み込む(ステップS402)。
【0041】
次に情報処理システム100は、入力テキストTの一部もしくはすべてを、取得した設定情報Iに基づき、テキスト片T1、T2からTnへと分割する(ステップS403)。なお、当該分割は必ずしも入力テキストTの全ての箇所をテキスト片T1、T2からTnのいずれかに分割することを要さない。また当該分割は、テキスト片T1、T2からTnの間に重複箇所があることを妨げない。
【0042】
次に情報処理システム100は、分割したテキスト片Tiについてのループ処理を開始する(ステップS404)。ループ開始のS404からループ終了のS407の間に示す処理は、テキスト片Ti毎に繰り返し行う。ステップS404にて、情報処理システム100は、未処理のテキスト片Tの中から一つのテキスト片Tiを選択する。
【0043】
次に情報処理システム100は、取得した設定情報Iに基づき、テキスト片Tiの一部もしくはすべてを、自然言語分析モデルNが分析可能なクエリQiへ加工する(ステップS405)。ここで加工とは例えば、自然言語分析モデルNがMasked Language Modelとして構成されている場合には、テキスト片Tiの一部をマスクし、自然言語分析モデルNが当該マスクされた語を推論するための入力データとできるような操作を言う。この様に、テキスト片(自然言語データ)Ti中の、一部の語句を(マスクに)入れ替えてクエリQiへと加工することで、適切なクエリQiを提供できる。また自然言語分析モデルNが自然言語データを直接の入力データとして受け付けトピックを分類(Classification)するモデルとして構成されている場合には、テキスト片Tiに操作を加えず直接クエリQiとしてもよい。また自然言語分析モデルNがNext Sentence Predictionに関して推論するよう構成されている場合には、テキスト片Ti中の文の順序を一部入れ替えるなどの操作によってクエリQiへと加工される。この様に、テキスト片(自然言語データ)Ti中の、一部の文の順序を入れ替えてクエリQiへと加工することで、適切なクエリQiを提供できる。なお、当該加工はこれらの例示に限定されない。
【0044】
次に情報処理システム100は、クエリQiを自然言語分析モデルNに分析させた出力(分析結果)に関して、テキスト片Ti(クエリQi)内の語句Pi1、Pi2からPimを算出し、語句Pi1、Pi2からPimへと、当該出力(分析結果)への第一寄与値と、を算出し、さらに、語句Pi1、Pi2からPimのうちの複数の語句をまとめた語句の組と、その第二寄与値とを算出する(ステップS406)。ここで、クエリQiから算出する語句Pi1、Pi2からPimは、クエリQiに含まれている語句であるため、クエリQiの元となるテキスト片Tiおよび入力テキストTに含まれる語句である。また、語句Pi1、Pi2からPimは、意味を有する単語やそれらを連結した単位であってもよいし、外部データ(例えば、自然言語分析モデルNが以前に教師あり学習を行った際の学習データ)中の出現頻度から機械的に作成されたそれぞれに意味を持たない単位であってもよい。
【0045】
またここで、当該出力(分析結果)への第一寄与値の算出とは、当該出力結果(分析結果)の値そのものや出力結果に係る尤度の値が算出された根拠を、テキスト片(自然言語データ)Ti内の語句Pi1、Pi2からPimからの寄与として定量的に求める操作をいう。当該操作には例えば、いわゆる説明可能AI(eXplainable AI)技術を用いることができる。そこで、ステップS402にて読み出した説明可能AI技術のプログラムを用いて、テキスト片Ti(クエリQi)内の語句Pi1、Pi2からPimと、その第一寄与値を算出する。これにより、適切な第一寄与値を算出できる。
【0046】
説明可能AI技術により例えば自然言語分析モデルNがMasked Language Modelとして構成されている場合には、マスクされた語を自然言語分析モデルNが推論する過程にテキスト片Ti内の語句Pi1、Pi2からPimが寄与した度合い(第一寄与値)を求められる。自然言語分析モデルNが自然言語データのトピックを分類するモデルとして構成されている場合には、当該分類の過程にTi内の語句Pi1、Pi2からPimが寄与した度合い(第一寄与値)を求められる。また自然言語分析モデルNがNext Sentence Predictionに関して推論するよう構成されている場合には、当該推論する過程にテキスト片Ti内の語句Pi1、Pi2からPimが寄与した度合い(第一寄与値)を求められる。なおいうまでもなく、説明可能AI技術が適用可能な自然言語分析モデルNの構成はこれらの例示に留まらない。
【0047】
また寄与値の形態として、第一寄与値と第二寄与値とがある。情報処理システム100は、設定情報I(図3の組み合わせ重み設定欄360参照)に基づき、説明可能AI技術のプログラムを用いて、語句の組と、その第二寄与値を算出する。
【0048】
次に情報処理システム100は、全てのテキスト片Tiについて処理が完了したか否かを判定する(ステップS407)。
【0049】
全てのテキスト片Tiについて処理が完了していないと判定された場合、情報処理システム100は、ステップS404に戻り、処理を継続する。
【0050】
全てのテキスト片Tiについて処理が完了したと判定された場合、情報処理システム100は、語句P11、P12、からPnmから、見出し語候補A1、A2からAkを抽出し、また、語句の組から語句の組の見出し語候補を抽出する(ステップS408)。すなわち、語句P11からPnmのうち、設定情報Iの抽出条件(図3の候補採用閾値設定欄350参照)を満たす語句を抽出して、見出し語候補A1、A2からAkとする。また、語句の組のうち、設定情報Iの語句の組の抽出条件(図3の組み合わせ重み設定欄360参照)を満たす語句の組を抽出して、語句の組の見出し語候補とする。なお、以下では、見出し語候補A1、A2からAkを、高寄与値語句A1、A2からAkと呼ぶ場合もある。
【0051】
次に、情報処理システム100は、ステップS408で算出した見出し語候補A1、A2からAkと、語句の組の見出し語候補とその第二寄与値と、を見出し語候補提示部112へ送信して処理を終了する(ステップS409)。
【0052】
図4Bは、情報処理システム100の見出し語候補提示部112による見出し語候補を提示する手順例を示すフローチャートである。
【0053】
情報処理システム100の見出し語候補提示部112は、テキスト分析部111から、見出し語候補A1、A2からAkと、語句の組の見出し語候補とその第二寄与値と、を取得し、記憶する(ステップS451)。
【0054】
次に、情報処理システム100は、見出し語候補A1、A2からAkと、語句の組の見出し語候補とその第二寄与値とを、ディスプレイやスピーカを用いてユーザに提示して処理を終了する(ステップS452)。ここで、情報処理システム100は、提示する見出し語候補A1、A2からAk等の情報を、端末101に出力(送信)し、端末101に、端末101のディスプレイに表示させて端末101を操作するユーザに提示する。ここで、情報処理システム100は、端末101に、端末101のスピーカを用いて音声で提示させてもよい。さらに、情報処理システム100は、提示する見出し語候補A1、A2からAk等の情報を、計算機100-1のディスプレイへ表示させてもよく、計算機100-1のスピーカを用いて音声で提示させてもよい。
【0055】
なお、以上では、図4Aのフローチャートで示すテキスト分析手順例や、図4Bのフローチャートで示す見出し語候を補提示する手順例では、語句の組とその第二寄与値、語句の組の見出し語候補とその第二寄与値を算出し、提示するが、必ずしも算出しなくても良く、提示しなくても良い。
【0056】
図5Aは、実施例1に係る見出し語候補表示画面の一例を示す説明図である。見出し語候補表示画面500は、見出し語候補提示部112が作成した情報により端末101のディスプレイに表示される。見出し語候補表示画面500は、見出し語候補表示欄501と組み合わせスコア表示欄502とを有する。ユーザは、図5Aの見出し語候補表示画面500において、チェックボックス(チェックボックス511等)をクリックして、見出し語に設定する見出し語候補を選択できる。ユーザが選択したチェックボックスは黒塗りで表示され、選択していないチェックボックスは白塗りで表示されている。
【0057】
見出し語候補表示欄501は、見出し語候補A1、A2からAkの一部または全てを表示する。図5Aの見出し語候補表示欄501には、見出し語候補として、「カスタマイズ対応」、「追加アドオン」、「広域共通」が示されており、これらの語句は左ほど第一寄与値が高い。また、図5Aでは、黒塗りになっているチェックボックス512およびチェックボックス513に対応する見出し語候補「追加アドオン」および「広域共通」が見出し語に選ばれていることを示している。
【0058】
本欄では例えば、見出し語候補A1、A2からAkと合わせて、その第一寄与値を表示することができる。また本欄では例えば、見出し語候補A1、A2からAkの一部または全てを含むリストを表示してもよいし、テキストTの一部またはすべてを表示したうえで、語句Pi1、Pi2からPimを表示し、さらに、見出し語候補A1、A2からAkの一部または全ての箇所を強調して表示してもよい。また、本欄では例えば、クエリQiの一部またはすべてを表示したうえで、語句Pi1、Pi2からPimを表示し、さらに、見出し語候補A1、A2からAkの一部または全ての箇所を強調して表示してもよい。以上のように表示することで、ユーザは、ユーザが見出し語候補から見出し語をより容易に選択できる。
【0059】
なお、以上では、語句Pi1、Pi2からPimとその第一寄与値や、見出し語候補A1、A2からAkmの第一寄与値は、必要に応じて、テキスト分析部111から見出し語候補提示部112に、送信(出力)され、さらに見出し語候補提示部112から端末101に送信(出力)される。
【0060】
組み合わせスコア表示欄502は、語句の組の見出し語候補を表示する。本欄では例えば、語句の組の見出し語候補の一部または全てを含むリストを表示してもよい。また、語句の組の見出し語候補と、その第二寄与値を対応づけて表示することができる。また本欄では例えば、テキストTの一部またはすべてを表示したうえで、語句の組の見出し語候補の一部または全ての箇所を強調して表示してもよい。また、本欄では例えば、クエリQiの一部またはすべてを表示したうえで、語句の組の見出し語候補の一部または全ての箇所を強調して表示してもよい。以上のように表示することで、ユーザは、語句の組の見出し語候補から語句の組の見出し語をより容易に選択できる。
【0061】
なお、以上では、語句の組(語句の組の見出し語候補以外)とその第二寄与値は、必要に応じて、テキスト分析部111から見出し語候補提示部112に、送信され、さらに見出し語候補提示部112から端末101に送信(出力)される。
【0062】
図5Aの組み合わせスコア表示欄502では、白塗りとなっているチェックボックス521に対応する語句の組の見出し語候補「夜間 バッチ 版管理」が語句の組の見出し語に選ばれておらず、その第二寄与値が「+0.18」であることを示している。また、図5Aでは、黒塗りとなっているチェックボックス522に対応する語句の組の見出し語候補「アドオン 独自仕様 既存システム」が語句の組の見出し語に選ばれており、その第二寄与値が「+0.28」であることを示している。
【0063】
また、ユーザが採用ボタン503を押下することにより、選択された見出し語候補の語および語句の組の見出し語候補を、見出し語として、テキストTを検索用データベース(不図示)に保存する命令を送信して、見出し語とテキストTを対応づけて検索用データベース(不図示)に保存させることができる。もしくは選択された見出し語候補の語および語句の組の見出し語候補を、見出し語とするためのテキストTのメタデータを作成し副記憶装置203に格納することができる。また当該メタデータには、語句Pi1、Pi2からPimの第一寄与値および語句の組(語句の組の見出し語候補とそれ以外)とその第二寄与値を含むことができる。
【0064】
次に図4Aにフローチャートで示されている情報処理システム100のテキスト分析部111によるテキスト分析手順例の内、中心的な処理であるステップS403、ステップS405~ステップS406の処理の例について、図5B図5Cを用いて詳しく説明する。
【0065】
まず、図5Bに示すように、入力テキストTをテキスト片T1、T2からTnに分割し(ステップS403)、さらに分割したテキスト片T1、T2からTnそれぞれを加工して、クエリQ1、Q2からQnを作成する(ステップS405)。
【0066】
次に、ステップS406では、説明可能AI技術のプログラムは、クエリQiと自然言語分析モデルNとを用いて、クエリQi内の語句Pi1、Pi2からPimを取得する。クエリQiは、テキスト片Tiを加工して作成されているため、語句Pi1、Pi2からPimは、テキスト片Tiおよび入力テキストTに含まれる語句である。
【0067】
次に、第一寄与値を算出する。図5Cでは、1つの例として、自然言語分析モデルNがNext Sentence Predictionに関して推論するよう構成されており、自然言語分析モデルNの分析を、クエリQiの先頭から7番目の文(図中、文7)と、8番目の文(図中、文8)と、の順番が正しいか否かの推論とする。
【0068】
説明可能AI技術のプログラムでは、図5Cに示すように、クエリQiを自然言語分析モデルNに分析させて、先頭から7番目の文と、8番目の文の並び順が50%正しいとの分析結果を得る。そして、先頭から7番目の文の前には単語「公園」が記されており、8番目の文の後に単語「クラウド」が記されている。
【0069】
さらに、説明可能AI技術のプログラムでは、クエリQiの先頭から7番目の文の前にある単語「公園」を、所定の語(置換語)に置き換えた置換クエリQt1を作成し、置換クエリQt1を自然言語分析モデルNに分析させる。その分析結果1(置換分析結果)は、先頭から7番目の文と8番目の文の並び順が50%正しいとの結果を得たとする。分析結果1は、クエリQiの分析結果(50%)と同じであることから、置換クエリQt1で所定の語(置換語)に置き換えた単語「公園」は、クエリQiの分析結果に与える影響は少なく、その第一寄与値は小さいと考えられる。
【0070】
さらに、説明可能AI技術のプログラムでは、クエリQi先頭から8番目の文の後ろの単語「クラウド」を、所定の語(置換語)に置き換えた置換クエリQt2を作成し、置換クエリQt2を自然言語分析モデルNに分析させて、先頭から7番目の文と8番目の文の並び順が70%正しいとの分析結果2(置換分析結果)を得たとする。分析結果2は、クエリQiの分析結果(50%)から20%も増加しており、置換クエリQt2で所定の語(置換語)に置き換えた単語「クラウド」は、クエリQiの分析結果に対して与える影響が大きく、その第一寄与値は比較的大きな値であると考えられる。
【0071】
説明可能AI技術のプログラムでは、クエリQi内の様々な語それぞれに対して、以上で説明した処理(1、クエリQi内の一部の語を置換語に置き換えた置換クエリを作成する。2、自然言語分析モデルNに置換クエリを分析させて置換分析結果を得る。)を繰り返し行う。そして、置換語に置き換えた単語や、置換分析結果の比較などを行って、クエリQi内(テキスト片Ti内)の語句Pi1、Pi2からPimそれぞれに対する第一寄与値を算出する。
【0072】
なお、第二寄与値の算出方法は、説明可能AI技術のアルゴリズムによって異なり、ここではその説明を省略する。
【0073】
入力テキストT(文章)は、主題に基づいて作成される。このため、自然言語分析モデルNがクエリQiを分析するときに自然言語分析モデルNが参照する対象である、クエリQi中の単語の並び順や、クエリQiの内容や、クエリQi中の文の並び順などや、自然言語分析モデルNの分析結果は、入力テキストTの主題に応じて変わる。そして、入力テキストTの主題についてのキーワードは、入力テキストTの主題との関連性が高いため、クエリQiを分析するときに自然言語分析モデルNが参照する対象や、自然言語分析モデルNの分析結果に大きな影響を与える。このため、入力テキストTの主題についてのキーワードは、第一寄与値が大きい語句であると考えられる。また、情報処理システム100が算出した見出し語候補は、第一寄与値が比較的大きな語句であるため、情報処理システム100が算出した見出し語候補は、入力テキストTの主題についてのキーワードに相当すると考えられる。従って、見出し語候補は、入力テキストTの主題との関連性が高いと考えられる。換言すれば、情報処理システム100は、入力テキストT(文章)の主題との関連度が高い見出し語候補を適切に推定できる。そして、見出し語は見出し語候補から選択されるため、情報処理システム100は、文書の主題との関連度が高い検索見出し語を付与することができる。
【0074】
このように、実施例1によれば、テキストTを対象とする自然言語分析モデルNの分析に強く寄与し、テキストT中で重要だと推定される語句をユーザに提示することができる(図5A参照)。したがってユーザは当該語句が、テキストTを検索用データベースに格納する際の見出し語候補であることが把握できる。また、ユーザに見出し語候補を提示することで、見出し語候補の中から、ユーザが見出し語を選択することが容易になる。
【0075】
また特に、クエリタスク設定欄310(図3参照)において、Next Sentence Predictionなどのテキストの大域的な意味情報(テキストの多くの部分の文脈)を参照するとされるタスクを設定し、当該タスクに適した自然言語分析モデルNを選択することで、テキストの大域的な意味情報の参照に重要な寄与をする語句を適切に特定し、テキストTを検索用データベースに格納する際の見出し語候補として採用することが可能になる。
【0076】
また特に、テキストTを検索用データベースに格納する際に、見出し語に伴う重みスコアを算出する場合がある。語句Pi1、Pi2からPimの第一寄与値および語句の組の第二寄与値を、テキストTを検索用データベースに格納する際の見出し語に伴う検索重みスコアを算出する基準とすることで、当該語句のテキスト内での意味的な重要性や、語句が当該組み合わせで使われることによる重要性の加減を参照して、検索結果の優先表示などに反映させることが可能になる。
【0077】
また特に、見出し語候補を生成することで、文章の見出し語の作成や、文章への見出し語の付与を容易にする。これにより、文章の見出し語を付与するために必要となるエネルギーや生成される二酸化炭素の排出量を減らし、地球温暖化を抑制できる。
【実施例0078】
実施例2では、実施例1で見出し語候補として特定した語句A1、A2からAkに対し、外部的に作成された見出し語辞書と突合し、よりユーザが検索する際に用いる語句に近く直感的で有用な形式の見出し語候補を提供する例を示す。なお、実施例2では、実施例1との相違点を中心に説明するため、実施例1と同一構成には同一符号を付し、その説明を省略する。
【0079】
図6Aは、実施例2の情報処理システム100Aのブロック図である。図6Bは、情報処理システム100Aのハードウェア構成を示すブロック図である。図6Aを参照すると、実施例2の情報処理システム100Aでは、計算機100-1は、テキスト分析部111および見出し語候補提示部112に加え、辞書突合部610を備える。また計算機100-2は、自然言語分析モデルストア120および説明可能AIプログラムストア130に加え、見出し語辞書ストア620を備える。
【0080】
見出し語辞書ストア620は、ユーザが手動で作成または外部から取得するなどした、見出し語のリストである見出し語辞書Dが格納されている。すなわち、見出し語辞書Dは、入力テキストT(自然言語データ)に付与可能な1以上の見出し語を含む見出し語辞書データである。
【0081】
図6Bを参照すると、情報処理システム100Aでは、計算機100-1は、副記憶装置203に、テキスト分析プログラム111A、見出し語候補提示プログラム112Aに加え、辞書突合プログラム610Aおよび見出し語候補リスト611Aを記憶している。また計算機100-2は、副記憶装置203に、自然言語分析モデルストア120および説明可能AIプログラムストア130に加え、見出し語辞書ストア620を記憶している。計算機100-1における辞書突合部610の機能は、プロセッサ201が副記憶装置203に記憶している辞書突合プログラム610Aを主記憶装置202に読み出して実行することにより実現される。
【0082】
見出し語候補リスト611Aは、見出し語候補として採用する高寄与値語句Aと、高寄与値語句Aの第一寄与値と、高寄与値語句Aが見出し語辞書Dに含まれるか否か旨の情報とを対応付けて登録できる、見出し候補のデータベースである。
【0083】
実施例2では、テキスト分析部111は、辞書突合部610に、入力テキストT、語句P11、P12からPnmと、その第一寄与値、高寄与値語句(見出し語候補)A1、A2からAkと、その第一寄与値、設定情報Iを送信する。また、テキスト分析部111は、見出し語候補提示部112に、語句の組の見出し語候補と、その第二寄与値とを送信する。また、実施例2の設定情報Iは、実施例1の設定情報Iに加えて、新規語採用基準を含む。
【0084】
図7は、実施例2に係る分析条件の設定画面の一例を示す説明図である。
【0085】
実施例2では、設定画面300は一例として、クエリタスク設定欄310、モデル指定欄320、クエリ数設定欄330、寄与値算出手法設定欄340、候補採用閾値設定欄350および組み合わせ重み設定欄360などの他に、新規語採用基準設定欄910を備えることができる。設定画面400において、ユーザが選択したチェックボックスは黒塗りで表示され、選択していないチェックボックスは白塗りで表示されている。
【0086】
新規語採用基準設定欄910は、高寄与値語句Aが、見出し語辞書Dに含まれない語(新規語)とみなせるかどうかを判定する条件である新規語採用基準を設定する欄である。すなわち、見出し語辞書Dに格納されている語のうち、高寄与値語句Aと重複部分が多い語d(高寄与値語句Aに類似する語)と、高寄与値語句Aとが、新規語採用基準を満たす場合は高寄与値語句Aが見出し語辞書Dに含まれない語とみなし、満たさない場合には、高寄与値語句Aが見出し語辞書Dに含まれる語とみなす。
【0087】
また、図7では、白塗りになっているチェックボックス911に対応する、「高寄与値語句Aと語dとの重複率が、0.20(欄912)以下の語句」との条件を新規語採用基準にしないことを示している。また、図7では、黒塗りになっているチェックボックス913に対応する、「高寄与値語句Aと語dとの重複字数が2(欄914)以下の語句」との条件を新規語採用基準にすることを示している。また、図7では、白塗りになっているチェックボックス915に対応する「高寄与値語句Aと、語dとの編集距離が5(欄916)以上の語句」との条件を新規語採用基準にしないことを示している。
【0088】
本欄では例えば、高寄与値語句Aと語dの文字単位での重複数や語の長さに比した重複率に関する閾値として当該条件を設定することができる。また本欄では例えば、高寄与値語句Aと語dの編集距離に関する閾値として当該条件を設定することができる。これらの当該閾値としては、テキストTや見出し語辞書Dに含まれる語句を用いて平均値や標準偏差などの統計値を算出し、当該統計値に関する閾値として設定することも可能である。また当該統計値とは、別途用意されたコーパスやテキストTにおける共起関係を元に算出してもよい。
【0089】
図8は、実施例2に係る辞書突合部610による辞書突合手順例を示すフローチャートである。以下、図9を参照しつつ、図8のフローチャートに沿って、辞書突合手順例を説明する。なお、図9は、ステップS704からステップS711の間で作成される情報の例を表形式で示す図である。図9は表形式で情報の例を示しているが、辞書突合部610内部でこのような形式で実際にデータが作成されている必要はなく、また高寄与値語句Aごとの情報がこのように集約される必要はない。
【0090】
情報処理システム100A(辞書突合部610)は、テキスト分析部111から辞書突合部610に送信された、入力テキストT、語句P11からPnmとその第一寄与値、高寄与値語句(見し語候補)A1、A2からAkとその第一寄与値、設定情報Iを受信し、記憶する。また、見出し語辞書ストア620から見出し語辞書Dを読み込む(ステップS701)。
【0091】
次に、情報処理システム100A(辞書突合部610)は、受信した見出し語候補とされる高寄与値語句Aについてのループ処理を開始する(ステップS702)。ループ開始のステップS702からループ終了のステップS711の間に示す処理は、高寄与値語句Ai毎に繰り返し行う。ステップS702にて、情報処理システム100Aは、未処理の高寄与値語句Aの中から一つの高寄与値語句Aiを選択する。
【0092】
次に、情報処理システム100Aは、見出し語辞書Dを参照し、見出し語辞書Dに格納されている語のうち、高寄与値語句Aiと最も重複部分が多い語dを選択する(ステップS703)。ここで、重複部分は例えば、文字単位での重複数や語の長さに比した重複率を基準に抽出してもよいし、編集距離などを基準に抽出してもよいし、別途用意されたコーパスやテキストTにおける共起関係を元に算出してもよい。また、語dは、見出し語辞書D(見出し語辞書データ)から抽出した、見出し語候補に類似する語である。
【0093】
次に、情報処理システム100Aは、高寄与値語句Aiおよび選択された語dが設定情報Iにて設定された新規語採用基準を充足するか否かを判定する(ステップS704)。高寄与値語句Aiおよび選択された語dが新規語採用基準を充足すると判定された場合(ステップS704:YES)にはステップS705に進み、寄与値語句Aiおよび選択された語dが新規語採用基準を充足しないと判定された場合(ステップS704:NO)にはステップS706に進む。
【0094】
次に、情報処理システム100Aは、見出し語候補リスト611Aに高寄与値語句Aiを追加する(ステップS705)。その後情報処理システム100Aは、ステップS711に進む。ここで、高寄与値語句AiはステップS704において、新規語採用基準を充足すると判定(ステップS704:YES)された語であるので、、寄与値語句Aiを見出し語辞書D(見出し語辞書データ)に含まれない語とみなす。情報処理システム100Aは、高寄与値語句Aiと、高寄与値語句Aiの第一寄与値と、高寄与値語句Aiが見出し語辞書Dに含まれない旨の情報と、を対応づけて、見出し語候補リスト611Aに登録する。
【0095】
図9の情報810の行では、ステップS705(高寄与値語句Aiおよび語dが新規語採用基準を充足する場合)の高寄与値語句Aiの例として「陶瓷」を示している。
【0096】
図8に戻り、次に、情報処理システム100Aは、高寄与値語句Aiが語dに含まれない部分を持つかどうかを判定する(ステップS706)。高寄与値語句Aiが語dに含まれない部分を持つと判定された場合は(ステップS706:YES)、ステップS707に進み、高寄与値語句Aiが語dに含まれない部分を持たないと判定された場合は(ステップS706:NO)、ステップS708に進む。
【0097】
次に、情報処理システム100Aは、テキスト片Tiで第一寄与値を算出する語句Pi1、Pi2からPimの分割を変更し、高寄与値語句Aiを語dと重複する部分と重複しない部分とに分割したうえで、第一寄与値算出を再実行する命令をテキスト分析部111へ送信する(ステップS707)。辞書突合部610は再度見出し語候補とされる語句を受信し、当該語句についてステップS702以降の高寄与値語句についてのループ処理を継続する。
【0098】
図9の情報820の行では、ステップS707(高寄与値語句Aが語dに含まれない部分を持つ場合)における、高寄与値語句Aiの例として「新橋駅」を示し、語dの例として「新橋」を示している。この例では、高寄与値語句Aiの語dと重複する部分は「新橋」で、重複しない部分は「駅」である。
【0099】
図8に戻り、次に、情報処理システム100Aは、語dが高寄与値語句Aiに含まれない部分を持つかどうかを判定する(ステップS708)。語dが高寄与値語句Aに含まれない部分を持つと判定された場合は(ステップS708:YES)、ステップS710に進み、語dが高寄与値語句Aに含まれない部分を持たないと判定された場合は(ステップS708:NO)、ステップS709に進む。
【0100】
次に、情報処理システム100Aは、見出し語候補リスト611Aに語dを追加する(ステップS709)。その後情報処理システム100Aは、ステップS711に進む。見出し語候補リスト611Aに語dを追加する際、情報処理システム100Aは、語d(見出し語候補として)と、高寄与値語句Aiの第一寄与値と、高寄与値語句Aiが見出し語辞書Dに含まれる旨の情報と、を対応づけて、見出し語候補リスト611Aに登録する。この様に、高寄与値語句Aiを、語d(見出し語候補に類似する語)に置き換えて、見出し語候補リスト611Aに登録することは、換言すれば、見出し語候補に類似する語dに基づいて高寄与値語句(見出し語候補)Aiを加工して語dにすることである。またこれは、高寄与値語句として抽出された見出し語候補Aiを見出し語辞書内の語dを基準に変形することでもある。
【0101】
次に、情報処理システム100Aは、語dのうち高寄与値語句Aiに含まれない部分を語d′とし、テキスト分析部111から語d′の第一寄与値を受信し、高寄与値語句Aiの第一寄与値と加算した値が、設定情報Iで設定した見出し語候補採用のための抽出条件(図7の候補採用閾値設定欄350参照)を満たすかどうかを判定する(ステップS710)。加算した値が、設定情報Iで設定した見出し語候補採用のための抽出条件を満たすと判定された場合(ステップS710:YES)はステップS709に進み、加算した値が、設定情報Iで設定した見出し語候補採用のための抽出条件を満たさないと判定された場合(ステップS710:NO)は、ステップS711に進む。
【0102】
図9の情報830の行には、ステップS710(語dが高寄与値語句Aに含まれない部分d′を持たない場合)の、高寄与値語句Aiの例として「音」、語dの例として「音綴文字」、語句d′の例として「綴文字」を示している。
【0103】
ここで情報処理システム100Aは、当該加算について単純に第一寄与値もしくは第一寄与値から算出される統計値(第一寄与値の平均値や標準偏差など)を加算するのではなく、テキスト片Tiで第一寄与値を算出する語句Pi1、Pi2からPimの分割を変更し、語dに対応する語句への第一寄与値の算出を再実行する命令をテキスト分析部111へ送信し、当該値について判定を行ってもよい。
【0104】
図8に戻り、次に、情報処理システム100Aは、全ての高寄与値語句Aiについて処理が完了したか否かを判定する(ステップS711)。
【0105】
全ての高寄与値語句Aiについて処理が完了していないと判定された場合、情報処理システム100Aは、ステップS702に戻り、処理を継続する。
【0106】
全ての高寄与値語句Aiについて処理が完了したと判定された場合、情報処理システム100Aは、作成された見出し語候補リスト611Aに登録された情報を見出し語候補提示部112に送信して処理を終了する(ステップS712)。なお、語句の組の見出し語候補とその第二寄与値は、テキスト分析部111から見出し語候補提示部112に送信されている。
【0107】
見出し語候補提示部112(情報処理システム100A)は、見出し語候補リスト611Aに登録された情報に基づいて、見出し語候補をユーザに提示する。見出し語候補提示部112(情報処理システム100A)は、見出し語候補リスト中で、見出し語辞書Dに含まれない旨の情報が対応付けられている見出し語候補に対して、見出し語辞書Dに含まれない旨の情報(例えば、図10の新規辞書追加候補表示ボタン1001)を対応付けてユーザに提示する。
【0108】
図10は、見出し語候補と、語句の組の見出し語候補と、その第二寄与値を、計算機100-1または端末101のディスプレイに表示させた場合の、実施例2に係る見出し語候補表示画面の一例を示す説明図である。
【0109】
実施例2では、見出し語候補表示画面500は、見出し語候補表示欄501と組み合わせスコア表示欄502との他に、「New!」と描かれた新規辞書追加候補表示ボタン1001を含むことができる。
【0110】
新規辞書追加候補表示ボタン1001は、見出し語候補表示欄501に表示される見出し語候補のうち、見出し語辞書Dに含まれない語(とみなす語)に表示される。また、ユーザが新規辞書追加候補表示ボタン1001を押下することにより、見出し語辞書Dに当該語を追加し保存する命令を送信する形態とすることもできる。これにより、見出し語辞書Dに登録されていない見出し語候補を容易に見出し語辞書Dに登録できる。
【0111】
このように、実施例2によれば、外部的に作成された見出し語辞書と突合し、高寄与値語句として抽出された見出し語候補を当該見出し語辞書内の語を基準に変形できるため、よりユーザが検索する際に用いる語句に近く直感的で有用な形式の見出し語を提供することができる。
【0112】
また、高寄与値語句Aのうち見出し語辞書に含まれない語を明示し(図10の新規辞書追加候補表示ボタン1001参照)、また見出し語辞書に追加することができるため、外部的に作成された見出し語辞書に抜け漏れがあった場合や、経時的な変化があった場合に見出し語辞書の更新を促すことができる。
【実施例0113】
実施例3では、実施例1で自然言語分析モデルストア120に格納されているとした自然言語分析モデルNに対し、ユーザによるアノテーションや操作ユーザに係るメタデータを取得し、自然言語分析モデルNを作成する例を示す。なお、実施例3では、実施例1との相違点を中心に説明するため、実施例1または実施例2と同一構成には同一符号を付し、その説明を省略する。
【0114】
図11Aは、実施例3の情報処理システム100Bのブロック図である。図11Bは、情報処理システム100Bのハードウェア構成を示すブロック図である。図11Aを参照すると、実施例3の情報処理システム100Bでは、計算機100-2は、自然言語分析モデルストア120および説明可能AIプログラムストア130に加え、一時保存テキストデータストア(学習用データベース)1110および自然言語分析モデル学習部1120を備える。
【0115】
一時保存テキストデータストア1110は、自然言語分析モデルを学習する際のいわゆる教師データを、自然言語分析モデルの学習ができるほど十分な量格納しているが、常には、十分な量格納しなくても良い。
【0116】
図11Bを参照すると、情報処理システム100Bでは、計算機100-1は、副記憶装置203に、テキスト分析プログラム111A、見出し語候補提示プログラム112Aを記憶している。また計算機100-2は、副記憶装置203に、自然言語分析モデルストア120および説明可能AIプログラムストア130に加え、一時保存テキストデータストア1110及び自然言語分析モデル学習プログラム1120Aを記憶している。計算機100-2における自然言語分析モデル学習部1120の機能は、プロセッサ201が副記憶装置203に記憶している自然言語分析モデル学習プログラム1120Aを主記憶装置202に読み出して実行することにより実現される。
【0117】
ユーザは、端末101を操作して、入力テキストT′(学習用テキスト)が保存されている場所の情報と、ユーザ情報L′と、入力テキストT′を一時保存テキストデータストア1110に格納する旨の格納命令と、を入力し、端末101に、これらを端末101から計算機100-1に送信させる。入力テキストT′は自然言語分析モデルを学習させる際の学習データに用いる自然言語データである。また、ユーザ情報L′を送信しない場合もある。後述するが、ユーザ情報L′は、自然言語分析モデル学習部1120が、アノテーションデータ(正解データ)に加工する。ユーザ情報L′として、例えば、次の2種類の情報を挙げることができる。
1、ユーザが、端末101を操作して入力する、入力テキストT′に関するアノテーション情報。
2、入力テキストT′の作成者の情報(例えば、職種や役職に関する情報)。
【0118】
例えば、端末101を操作するユーザが入力テキストT′を作成し、入力テキストT′を情報処理システム100Bに送信(入力テキストT′を提供する)する。さらに、情報処理システム100Bが、端末101にアクセスし、ユーザの端末101の操作履歴やログイン情報から、ユーザ(入力テキストT′の作成者)の職種や役職に関する情報を取得し、ユーザ情報L′を作成してもよい。この場合のユーザ情報L′は、入力テキストT′の作成者の情報であり、かつ、一時保存テキストデータストア(学習用データベース)1110への入力テキストT′(学習用テキスト)の提供者の情報でもある。さらにこの場合は、ユーザがアノテーション情報を入力できない場合であっても、情報処理システム100Bによってユーザ情報L′が作成される。
【0119】
図12は、実施例3に係る自然言語分析モデル学習部1120による自然言語分析モデル学習例を示すフローチャートである。
【0120】
情報処理システム100Bは、ユーザが端末101を操作して指定する入力テキストT′を取得する(ステップS1201)。
【0121】
次に、情報処理システム100Bは、ステップS1201にて端末101を操作したユーザに関するユーザ情報L′を取得する(ステップS1202)。このユーザ情報L′は、ユーザが明に端末101を操作して入力した入力テキストT′に関するアノテーション情報であってもよい。またこのユーザ情報L′は、情報処理システム100Bが、端末101の操作履歴やログイン情報から取得した、端末101を操作するユーザの職種や役職に関する情報であってもよい。
【0122】
次に、情報処理システム100Bは、テキストT′およびユーザ情報L′を一時保存テキストデータストア1110へ格納する(ステップS1203)。ここで自然言語分析モデル学習部1120は、自然言語分析モデルをいわゆる教師あり学習で作成する際に入力テキストT′を入力データとしユーザ情報L′をアノテーションデータとして用いるために必要な加工を行ったうえで一時保存テキストデータストア1110へ格納することができる。
【0123】
次に、情報処理システム100Bは、入力テキストT′を入力データとしユーザ情報L′をアノテーションデータ(ラベル)とした教師あり学習を行い、自然言語分析モデルを作成する(ステップS1204)。ここで、教師あり学習は、ユーザ情報L′を推論するように自然言語データ分析モデルを訓練する。この際の教師あり学習は、一般に知られている自然言語分析モデルの作成方法を用いることができる。また特に、外部的に作成された事前学習済み言語モデルへいわゆる遷移学習を行い自然言語分析モデルを作成することができる。また、一時保存テキストデータストア1110に格納されている学習用テキストの量が十分でない場合では、予め指定した所定量のテキストT′(学習用テキスト)が一時保存テキストデータストア1110へ格納されたときや、ユーザからの命令を受信したときに、教師あり学習を開始してもよい。
【0124】
次に、情報処理システム100Bは、作成した自然言語分析モデルを自然言語分析モデルストア120に格納して処理を終了する。
【0125】
このように、実施例3によれば、テキストの大域的な(多くの部分の)意味情報を参照するタスクに適した自然言語分析モデルが用意されていない場合でも、ユーザからのアノテーション付加を受け付け、見出し語候補の抽出に適当な自然言語分析モデルを作成することが可能になる。
【0126】
また更に、ユーザがアノテーション情報を明に入力できない場合であっても、テキストから当該テキストを作成したユーザの職種や役職を推論するという大域的な意味情報を参照するタスクについての学習データを構築し、見出し語候補の抽出に適当な自然言語分析モデルを作成することが可能になる。
【0127】
なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。たとえば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加、削除、または置換をしてもよい。
【0128】
図13は実施例2及び実施例3に係る全体構成図である。図13に示すように、すべての実施例の構成を加えても良い。
【0129】
また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、たとえば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。
【0130】
各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、SSD(Solid State Drive)等の記憶装置、又は、IC(Integrated Circuit)カード、SDカード、DVD(Digital Versatile Disc)の記録媒体に格納することができる。
【0131】
また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要なすべての制御線や情報線を示しているとは限らない。実際には、ほとんどすべての構成が相互に接続されていると考えてよい。
【符号の説明】
【0132】
100、100A、100B:情報処理システム
101:端末
102:通信ネットワーク
111:テキスト分析部
112:見出し語候補提示部
120:自然言語分析モデルストア
130:説明可能AIプログラムストア
201:プロセッサ
202:主記憶装置
203:副記憶装置
204:ネットワークインタフェース
205:入力装置
206:出力装置
610:辞書突合部
620:見出し語辞書ストア
1110:一時保存テキストデータストア
1120:自然言語分析モデル学習部
図1
図2
図3
図4A
図4B
図5A
図5B
図5C
図6A
図6B
図7
図8
図9
図10
図11A
図11B
図12
図13