IP Force 特許公報掲載プロジェクト 2022.1.31 β版

ホーム > 特許ランキング > 株式会社日立産業制御ソリューションズ

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社　日立産業制御ソリューションズの特許一覧

特開2023-51423情報処理システム、情報処理方法、および情報処理プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4A
4B
5A
5B
5C
6A
6B
7
8
9
10
11A
11B
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023051423

(43)【公開日】2023-04-11

(54)【発明の名称】情報処理システム、情報処理方法、および情報処理プログラム

(51)【国際特許分類】

G06F 16/383 20190101AFI20230404BHJP

G06F 16/36 20190101ALI20230404BHJP

【ＦＩ】

G06F16/383

G06F16/36

【審査請求】未請求

【請求項の数】10

【出願形態】ＯＬ

(21)【出願番号】P 2021162073

(22)【出願日】2021-09-30

(71)【出願人】

【識別番号】000153443

【氏名又は名称】株式会社日立産業制御ソリューションズ

(74)【代理人】

【識別番号】110001689

【氏名又は名称】青稜弁理士法人

(72)【発明者】

【氏名】浜直史

(72)【発明者】

【氏名】安井雅彦

(72)【発明者】

【氏名】和久井一則

【テーマコード（参考）】

5B175

【Ｆターム（参考）】

5B175DA01

5B175FA01

5B175GB04

(57)【要約】

【課題】文書の主題との関連度が高い検索見出し語を生成すること。
【解決手段】情報処理システムは、プログラムを実行するプロセッサと、プログラムを記憶する記憶デバイスと、を有する情報処理システムであって、プロセッサは、自然言語データを、所定の自然言語データ分析モデルが分析可能なクエリへと変換する変換処理と、自然言語データ分析モデルが変換処理によって変換されたクエリを分析して分析結果を出力する分析処理と、分析処理で出力された分析結果への寄与の度合いを表す第一寄与値を自然言語データ内の語について算出する第一算出処理と、第一算出処理が算出した第一寄与値に基づいて自然言語データへ付与する候補である見出し語候補を取得する取得処理を実行する。
【選択図】図４Ａ

【特許請求の範囲】

【請求項1】

プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する情報処理システムであって、前記プロセッサは、
自然言語データを、所定の自然言語データ分析モデルが分析可能なクエリへと変換する変換処理と、
当該自然言語データ分析モデルが前記変換処理によって変換されたクエリを分析して分析結果を出力する分析処理と、
当該分析処理で出力された分析結果への寄与の度合いを表す第一寄与値を前記自然言語データ内の語について算出する第一算出処理と、
前期第一算出処理が算出した第一寄与値に基づいて前記自然言語データへ付与する候補である見出し語候補を取得する取得処理を実行することを特徴とする情報処理システム。

【請求項2】

請求項１に記載の情報処理システムであって、前記プロセッサは、
前記取得処理によって取得された見出し語候補を出力し、提示させる第一出力処理を実行することを特徴とする情報処理システム。

【請求項3】

請求項１に記載の情報処理システムであって、
前記変換処理では、前記プロセッサは、前記自然言語データ中の、一部の語句または文の順序を入れ替えて、クエリへと変換する、
ことを特徴とする情報処理システム。

【請求項4】

請求項１に記載の情報処理システムであって、
前記自然言語データ内の複数の語句を１組にまとめた語句の組と、前記分析処理から出力された前記分析結果への、前記語句の組を構成する前記複数の語句の相互作用による寄与の度合いを表す第二寄与値と、を算出する第二算出処理と、
第二算出処理が算出した第二寄与値に基づいて、前記自然言語データへ付与する候補である語句の組見出し語候補およびその第二寄与値を出力し、提示させる第二出力処理を実行することを特徴とする情報処理システム。

【請求項5】

請求項１に記載の情報処理システムであって、
前記自然言語データに付与可能な１以上の見出し語を含む見出し語辞書データにアクセス可能であり、
前記プロセッサは、当該見出し語辞書データを参照して、前記見出し語辞書データから、前記取得処理で取得した前記見出し語候補に類似する語を抽出し、当該類似する語に基づいて前記見出し語候補を加工する加工処理を実行することを特徴とする情報処理システム。

【請求項6】

請求項１に記載の情報処理システムであって、
前記自然言語データに付与可能な１以上の見出し語を含む見出し語辞書データにアクセス可能であり、
前記プロセッサは、当該見出し語辞書データを参照して、前記見出し語辞書データから、前記取得処理で取得した前記見出し語候補に類似する語を抽出し、前記見出し語候補と、前記類似する語が新規語採用基準を充足するか否かを判定し、前記見出し語候補と、前記類似する語が新規語採用基準を充足すると判定された場合に、前記見出し語候補が前記見出し語辞書データに含まれない旨を、前記見出し語候補に対応づけて出力し、提示させる第三出力処理を実行することを特徴とする情報処理システム。

【請求項7】

請求項１に記載の情報処理システムであって、
学習用データを格納する学習用データベースにアクセス可能であり、
前記プロセッサは、学習用テキスト、および当該学習用テキストの作成者の情報または前記学習用データベースへの前記学習用テキストの提供者の情報を取得する情報取得処理と、
前記学習用テキストを入力データとし、前期情報取得処理によって取得した作成者の情報または提供者の情報を推論するように自然言語データ分析モデルを訓練する訓練処理を実行することを特徴とする情報処理システム。

【請求項8】

請求項１に記載の情報処理システムであって、
前記第一算出処理は、前記クエリから複数の語を抽出し、前記クエリ内の一部の前記語を所定の置換語に置き換えた置換クエリを作成し、前記自然言語データ分析モデルに前記置換クエリを分析した置換分析結果を取得し、取得した当該置換分析結果に基づいて、前記クエリ中の前記語に対する前記第一寄与値を算出する第一寄与値算出処理が可能な所定の説明可能ＡＩ（ＥｘｐｌａｉｎａｂｌｅＡＩ）技術を使用することを特徴とする情報処理システム。

【請求項9】

プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する情報処理システムが実行する情報処理方法であって、
前記プロセッサが、
自然言語データを、所定の自然言語データ分析モデルが分析可能なクエリへと変換する変換処理と、
当該自然言語データ分析モデルが前記変換処理によって変換されたクエリを分析して分析結果を出力する分析処理と、
当該分析処理で出力された分析結果への寄与の度合いを表す第一寄与値を前記自然言語データ内の語について算出する第一算出処理と、
前期第一算出処理が算出した第一寄与値に基づいて前記自然言語データへ付与する候補である見出し語候補を取得する取得処理を実行することを特徴とする情報処理方法。

【請求項10】

プログラムを実行するプロセッサに、
自然言語データを、所定の自然言語データ分析モデルが分析可能なクエリへと変換する変換処理と、
当該自然言語データ分析モデルが前記変換処理によって変換されたクエリを分析して分析結果を出力する分析処理と、
当該分析処理で出力された分析結果への寄与の度合いを表す第一寄与値を前記自然言語データ内の語について算出する第一算出処理と、
前期第一算出処理が算出した第一寄与値に基づいて前記自然言語データへ付与する候補である見出し語候補を取得する取得処理と、
を実行させるための情報処理プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、情報を処理する情報処理システム、情報処理方法、および情報処理プログラムに関する。

【背景技術】

【0002】

音声やテキストのような形式で格納された、自然言語で記述された文章または文のデータ（「自然言語データ」という）を分析する機械学習モデルの性能が、近年急速に向上している。これまで企業内で作成されては廃棄されていた各種文書も、データベースに格納し、要求に応じて呼び出され機械学習モデルの分析対象となることで、新たな価値を生むことが期待される。

【0003】

このような目的で企業内にて作成された文書は、一般のウェブ検索などと比すると、１件ごとの文書が比較的長く、また用いられる用語が企業ごとに類似しているなどの特徴がある。このため、これらの文書を呼び出す際には、ウェブ検索などで一般に用いられる全文検索技術を適用することが必ずしも最適ではない。データベース格納時に文書ごとに見出し語を設定し、当該見出し語に関する検索を行えば、検索精度や検索効率の点で十分であることが多い。

【0004】

他方、文書の見出し語として不適切な語を選択すると、検索の誤検出の原因となる。特に企業内で文書が大量に生成、格納される場合には、当該見出し語を厳選しなければ、偽陽性として当該見出し語との関連性がそれほど高くない文書が大量に呼び出され、実質的に文書検索が機能しなくなる問題がある。

【0005】

特許文献１には、収集した情報に基づいて、データベースを検索するためのインデックスを作成する装置が開示されている。当該装置は、特定の概念ごとに相互に関連付けられた複数のフレーズを含む辞書と、テキスト文の入力を受け付ける入力インターフェース部、前記テキスト文から複数の語をトークンとして切り出すテキスト処理部と、前記切り出した複数のトークンどうしの接続関係を表現した有向グラフを生成する有向グラフ生成部と、前記辞書を参照しながら前記有向グラフ内を探索し、探索対象フレーズが前記辞書中に発見された場合に、前記有向グラフを展開する有向グラフ探索部と、前記有向グラフ内における複数のトークンに基づいてインデックスを作成するインデックス作成部とを備える。

【先行技術文献】

【特許文献】

【0006】

【特許文献1】特開２０１９－１５３２６７号公報

【発明の概要】

【発明が解決しようとする課題】

【0007】

特許文献１に開示された技術では、事前に作成された辞書中に探索対象フレーズが発見された場合に入力されたテキスト文から生成された有向グラフを探索し、当該有向グラフ内におけるトークンに基づいてインデックス（見出し語）を作成するが、入力テキスト文内での当該探索対象フレーズの用いられ方や重要度を参照していない。したがって、入力テキスト文内での主題との関連度が低い箇所に探索対象フレーズが含まれていた場合、作成されたインデックスは当該入力テキストの主題との関連性が低いものとなる恐れが高く、検索時の誤検出の原因となりうる。

【0008】

本開示のひとつの目的は、文書の主題との関連度が高い検索見出し語を付与することができる情報処理システム、情報処理方法、情報処理プログラムを提供することである。

【課題を解決するための手段】

【0009】

本願において開示される発明の一側面となる情報処理システムは、プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する情報処理システムであって、前記プロセッサは、自然言語データを、所定の自然言語データ分析モデルが分析可能なクエリへと変換する変換処理と、当該自然言語データ分析モデルが前記変換処理によって変換されたクエリを分析して分析結果を出力する分析処理と、当該分析処理で出力された分析結果への寄与の度合いを表す第一寄与値を前記自然言語データ内の語について算出する第一算出処理と、前期第一算出処理が算出した第一寄与値に基づいて前記自然言語データへ付与する候補である見出し語候補を取得する取得処理を実行することを特徴とする。

【発明の効果】

【0010】

本発明の代表的な実施の形態によれば、文書の主題との関連度が高い検索見出し語を付与することができる情報処理システム、情報処理方法、情報処理プログラムを提供することができる。前述した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。

【図面の簡単な説明】

【0011】

【図1】図１は、実施例１の情報処理システムのブロック図である。

【図2】図２は、実施例１の情報処理システムのハードウェア構成例を示すブロック図である。

【図3】図３は、実施例１に係る分析条件の設定画面の一例を示す説明図である。

【図4A】図４Ａは、実施例１に係るテキスト分析部によるテキスト分析手順例を示すフローチャートである。

【図4B】図４Ｂは、実施例１に見出し語候補提示部による見出し語候補を提示する手順例を示すフローチャートである。

【図5A】図５Ａは、実施例１に係る見出し語候補表示画面の一例を示す説明図である。

【図5B】図５Ｂは、実施例１に係るテキスト分析部によるテキスト分析手順例の一部の例を示す説明図である。

【図5C】図５Ｃは、実施例１に係るテキスト分析部によるテキスト分析手順例の一部の例を示す説明図である。

【図6A】図６Ａは、実施例２の情報処理装置システムのブロック図である。

【図6B】図６Ｂは、実施例２の情報処理システムのハードウェア構成例を示すブロック図である。

【図7】図７は、実施例２に係る分析条件の設定画面の一例を示す説明図である。

【図8】図８は、実施例２に係る辞書突合部による辞書突合手順例を示すフローチャートである。

【図9】図９は、実施例２に係る辞書突合部の内部で通信される情報の例を示す説明図である。

【図10】図１０は、実施例２に係る見出し語候補表示画面の一例を示す説明図である。

【図11A】図１１Ａは、実施例３の情報処理装置システムのブロック図である。

【図11B】図１１Ｂは、実施例３の情報処理システムのハードウェア構成例を示すブロック図である。

【図12】図１２は、実施例３に係る自然言語分析モデル学習部による自然言語分析モデル学習例を示すフローチャートである。

【図13】図１３は、実施例２および実施例３に係る全体構成図である。

【発明を実施するための形態】

【0012】

以下、本発明の実施の形態について図面を参照して説明する。

【実施例0013】

図１は、実施例１の情報処理システム１００のブロック図である。図２は、情報処理システム１００に含まれている計算機のハードウェア構成を示すブロック図である。

【0014】

図１を参照すると、情報処理システム１００は、計算機１００－１、１００－２を有している。自然言語分析システムは、計算機１００－１、１００－２および端末１０１を有している。計算機１００－１、１００－２および端末１０１は通信ネットワーク１０２に接続されている。通信ネットワーク１０２は有線または無線の回線によりデータの送受信を可能にする設備である。

【0015】

計算機１００－１は、テキスト分析部１１１と見出し語候補提示部１１２とを備え、自然言語データを入力とし見出し語候補を出力する計算機である。計算機１００－２は、自然言語分析モデルストア１２０および説明可能ＡＩプログラムストア１３０にアクセス可能な計算機である。

【0016】

自然言語分析モデルストア１２０は、自然言語データから加工されたクエリを分析し分析結果を出力する、自然言語分析モデルを１または複数格納する。特に当該自然言語分析モデルは、クエリをいくつかのクラスに分類するモデルであってもよいし、なんらかの数値を出力する回帰モデルであってもよいし、その他の形式で分析結果を出力するモデルであってもよい。

【0017】

説明可能ＡＩプログラムストア１３０は、クエリから複数の語句を抽出し、抽出した複数の語句それぞれの第一寄与値を算出できる説明可能ＡＩ技術のプログラムを１または複数格納する。ここで、第一寄与値は、自然言語分析モデルがクエリを分析した分析結果へ語句への寄与（影響の大きさ）の度合いを表す値である。第一寄与値が大きい語句ほど、クエリＱｉの分析結果に与える影響が大きい語句である。また、説明可能ＡＩ技術のプログラムは、クエリ内の複数の語句をまとめた語句の組と、この語句の組の第二寄与値と、を算出できるプログラムであることが好ましい。ここで、第二寄与値は、語句の組を構成する複数の語句の相互作用（複数の語句の間の関係性）による、自然言語分析モデルがクエリを分析した分析結果への寄与の度合いを表す値である。説明可能ＡＩ技術のいわゆる「相互作用値」が第二寄与値に相当する場合がある。説明可能ＡＩ技術のプログラムは、例えば、ＢａｓｅｌｉｎｅＳＨＡＰやＡｔｔｅｎｔｉｏｎ値、ＡＣＤ等のアルゴリズムのプログラムであってもよい。

【0018】

図２を参照すると、計算機１００－１は、プロセッサ２０１、主記憶装置２０２、副記憶装置（記憶デバイス）２０３、ネットワークインタフェース２０４、入力装置２０５および出力装置２０６を有している。

【0019】

副記憶装置２０３は、書き込みおよび読み出しが可能にデータを記憶する装置である。計算処理に供されるデータや計算処理の結果は副記憶装置２０３に記憶される。また、副記憶装置２０３は、テキスト分析プログラム１１１Ａおよび見出し語候補提示プログラム１１２Ａを記憶している。

【0020】

プロセッサ２０１は、副記憶装置２０３に記憶されたデータを主記憶装置２０２に読み出してプログラムを実行する装置である。計算機１００－１におけるテキスト分析部１１１および見出し語候補提示部１１２の機能は、プロセッサ２０１が副記憶装置２０３に記憶しているテキスト分析プログラム１１１Ａおよび見出し語候補提示プログラム１１２Ａを主記憶装置２０２に読み出して実行することにより実現される。

【0021】

ネットワークインタフェース２０４は、通信ネットワーク１０２を介して他の装置とデータを送受信する装置である。ネットワークインタフェース２０４は、プロセッサ２０１の処理結果のデータを通信ネットワーク１０２を介して他の装置に送信することができる。また、ネットワークインタフェース２０４は、通信ネットワーク１０２を介して他の装置から、プロセッサ２０１の処理に供するデータを受信することができる。

【0022】

入力装置２０５は、キーボードやマウスなどユーザが操作を受け付ける装置であり、ユーザの操作により入力された情報を取得する。出力装置２０６は、ディスプレイやスピーカなど情報を出力する装置であり、例えば画面への表示により情報をユーザに提示する。

【0023】

計算機１００－２および端末１０１は、計算機１００－１と同様のハードウェア資源を使用することで構成できる。なお、計算機１００－２では、自然言語分析モデルストア１２０および説明可能ＡＩプログラムストア１３０は、副記憶装置２０３に記憶されている。

【0024】

図１に戻り、計算機１００－１は、テキスト分析部１１１および見出し語候補提示部１１２を備えている。計算機１００－１は、設定情報Ｉに基づいて、自然言語データである入力テキストＴの見出し語候補を生成する。なお、テキストデータではない音声データ等に見出し語候補を生成する場合には、音声データ等を公知の方法であらかじめテキストに変換し、入力テキストＴとして保存してもよい。

【0025】

設定情報Ｉは、端末１０１を操作するユーザ等に設定される。図３は、設定情報Ｉを表示する設定画面の一例を示す説明図である。図３の設定画面３００は一例として、クエリタスク設定欄３１０、モデル指定欄３２０、クエリ数設定欄３３０、寄与値算出手法設定欄３４０、候補採用閾値設定欄３５０および組み合わせ重み設定欄３６０などを含むことができる。ユーザは、チェックボックス（チェックボックス３１１等）をクリックして、条件を選択できる。ユーザが選択したチェックボックスは黒塗りで表示され、選択していないチェックボックスは白塗りで表示されている。

【0026】

クエリタスク設定欄３１０は、自然言語分析モデルＮが分析するタスク（の分析内容）を設定する欄である。クエリは、入力テキストＴを加工して作成される。自然言語分析モデルＮがクエリを分析するタスクの分析内容に応じて、クエリの構成が変わる。図３では、黒塗りのチェックボックス３１２に対応する「ＮｅｘｔＳｅｎｔｅｎｃｅＰｒｅｄｉｃｔｉｏｎ」が、タスクの分析内容として選択されていることを示している。ユーザは、図３のタスク設定欄３１０に描かれた、「ＭａｓｋｅｄＬａｎｇｕａｇｅＭｏｄｅｌ」や、「Ｃｌａｓｓｉｆｉｃａｔｉｏｎ」（分類）を選択することもできる。

【0027】

モデル指定欄３２０は、自然言語分析モデルストア１２０から読み込んで使用する自然言語分析モデルＮを指定する欄である。ユーザは、モデル指定欄３２０の「参照」と描かれたボタン３２１をクリックして、自然言語分析モデルＮを指定できる。図３では、モデル指定欄３２０の参照欄３２２は空欄になっており、クエリタスク設定欄３１０で選択された「ＮｅｘｔＳｅｎｔｅｎｃｅＰｒｅｄｉｃｔｉｏｎ」に関するデフォルトの自然言語分析モデルＮが選択されていることを示している。

【0028】

クエリ数設定欄３３０は、入力テキストＴから分割するテキスト片Ｔｉの数を設定する欄である。また、テキスト片Ｔｉを加工してクエリＱｉが作成される。図３では、入力テキストＴを、８つ（欄３３１）に分割して、８つのテキスト片Ｔｉを生成することを示している。なお、入力テキストＴの長さまたは自然言語分析モデルＮもしくは自然言語分析モデルＮに付随するメタデータから当該テキスト片Ｔｉの数を自動的に設定することも可能である。

【0029】

寄与値算出手法設定欄３４０は、自然言語分析モデルＮの出力（クエリＱｉの分析結果）から、クエリＱｉ（テキスト片Ｔｉ）内の語句Ｐｉ１、Ｐｉ２からＰｉｍへ第一寄与値を算出する際の算出手法を設定する欄である。本欄では例えば、図３に例示されるＢａｓｅｌｉｎｅＳＨＡＰやＡｔｔｅｎｔｉｏｎ値、ＡＣＤなどのいわゆる説明可能ＡＩ（ｅＸｐｌａｉｎａｂｌｅＡＩ）技術のアルゴリズムや、当該算出に関する条件などの情報を設定することができる。なお、いうまでもなく、説明可能ＡＩとして採用可能な手法はここに例示された手法に限定されない。図３では、黒塗りのチェックボックス３４３に対応する「ＡＣＤ」が選択されていることを示している。

【0030】

また、本欄で設定することのできるアルゴリズムの一部または全てを、自然言語分析モデルＮもしくは自然言語分析モデルＮに付随するメタデータまたはクエリＱｉに係る情報から算出される適用可能性に応じて、強調表示を行いもしくは非表示とすることができる。

【0031】

候補採用閾値設定欄３５０は、算出された第一寄与値に応じて、クエリＱｉ（テキスト片Ｔｉ）内の語句Ｐｉ１、Ｐｉ２からＰｉｍから見出し語候補として採用するための抽出条件を設定する欄である。図３では、白塗りのチェックボックス３５１に対応する「第一寄与値が０．２０（欄３５２）以上の語句を見出し語候補として採用する」との条件は選択されておらず、黒塗りのチェックボックス３５３に対応する「第一寄与値が上位８（欄３５４）までの語句を見出し語候補として採用する」との条件が抽出条件として選択されていることを示している。

【0032】

この様に、本欄では例えば、当該第一寄与値に関する閾値として当該抽出条件を設定することができる。当該閾値としては、語句Ｐｉ１、Ｐｉ２からＰｉｍについて算出された第一寄与値から、平均値や標準偏差などの統計値を算出し、当該統計値に関する閾値として抽出条件の候補を設定することも可能である。また本欄では例えば、見出し語候補として採用する語句の数の最大数を設定することができる。

【0033】

組み合わせ重み設定欄３６０は、語句の組の第二寄与値に関する抽出条件を設定する欄である。本欄では例えば、算出する対象の語句の組を構成する（相互作用を行う）語句の数の最大数を設定することができる。また本欄では例えば、第二寄与値に関する閾値として当該抽出条件を設定することができる。当該閾値としては、第二寄与値から平均値や標準偏差などの統計値を算出し、当該統計値に関する閾値として設定することも可能である。また本欄では例えば、候補として採用する語句の組み合わせの最大数を設定することができる。

【0034】

図３では、チェックボックス３６１は白塗りとなっており、語句の組および第二寄与値を算出する設定となっていることを示している。また、チェックボックス３６２は白塗りとなっており、「算出する対象の語句の組は、語句の組を構成する語句の最大語数が４（欄３６３）まで」との条件を設定していないことを示している。また、チェックボックス３６４及びチェックボックス３６６の両方が黒塗りになっており、チェックボックス３６４に対応する「第二寄与値が、０．２０（欄３６５）以上の語句の組」と、チェックボックス３６６に対応する「第二寄与値の上位からの順位が、８（欄３６７）位以上の語句の組」との両方が、抽出条件に設定されていることを示している。

【0035】

ユーザは、クエリタスク設定欄３１０、モデル指定欄３２０、クエリ数設定欄３３０、寄与値算出手法設定欄３４０、候補採用閾値設定欄３５０および組み合わせ重み設定欄３６０の一部または全てについて設定を行い、保存ボタン３０１を押下することにより、設定画面３００に描かれている設定情報Ｉが保存される。保存された設定情報Ｉがテキスト分析部１１１による処理に適用される。また、同時にこれらの設定情報を副記憶装置２０３に格納することができる。

【0036】

また、図３の設定画面３００内に示したＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）は例示である。設定画面は、図３に示す設定画面３００に限定されることはない。また、ユーザはすべての設定情報Ｉを設定する必要は必ずしもなく、適当な方法で自動的に設定を定めてもよい。

【0037】

入力テキストＴおよび設定情報Ｉは、計算機１００－１および端末１０１とデータを送受信できる装置に保存されている。ユーザは端末１０１を操作して、入力テキストＴが保存されている場所の情報と、設定情報Ｉが保存されている場所の情報とを、見出し語候補作成の処理開始命令とを、端末１０１から計算機１００－１に送信する。この様にユーザが端末１０１から計算機１００－１に送信する代わりに、ユーザが計算機１００－１に入力しても良い。また、計算機１００－１は、デフォルトの設定情報Ｉを自動的に読み込んでもよい。

【0038】

図４Ａは、情報処理システム１００のテキスト分析部１１１によるテキスト分析手順例を示すフローチャートである。

【0039】

情報処理システム１００は、ユーザが端末１０１から入力されるなどして作成さした処理開始命令を受信すると、ユーザが端末１０１を操作して作成した、もしくは他の装置に格納された、指定された入力テキストＴおよび設定情報Ｉを通信ネットワーク１０２を介して取得する（ステップＳ４０１）。

【0040】

次に情報処理システム１００は、取得した設定情報Ｉに基づき、自然言語分析モデルストア１２０から自然言語分析モデルＮを読み込み、また、説明可能ＡＩプログラムストア１３０から説明可能ＡＩ技術のプログラムを読み込む（ステップＳ４０２）。

【0041】

次に情報処理システム１００は、入力テキストＴの一部もしくはすべてを、取得した設定情報Ｉに基づき、テキスト片Ｔ１、Ｔ２からＴｎへと分割する（ステップＳ４０３）。なお、当該分割は必ずしも入力テキストＴの全ての箇所をテキスト片Ｔ１、Ｔ２からＴｎのいずれかに分割することを要さない。また当該分割は、テキスト片Ｔ１、Ｔ２からＴｎの間に重複箇所があることを妨げない。

【0042】

次に情報処理システム１００は、分割したテキスト片Ｔｉについてのループ処理を開始する（ステップＳ４０４）。ループ開始のＳ４０４からループ終了のＳ４０７の間に示す処理は、テキスト片Ｔｉ毎に繰り返し行う。ステップＳ４０４にて、情報処理システム１００は、未処理のテキスト片Ｔの中から一つのテキスト片Ｔｉを選択する。

【0043】

次に情報処理システム１００は、取得した設定情報Ｉに基づき、テキスト片Ｔｉの一部もしくはすべてを、自然言語分析モデルＮが分析可能なクエリＱｉへ加工する（ステップＳ４０５）。ここで加工とは例えば、自然言語分析モデルＮがＭａｓｋｅｄＬａｎｇｕａｇｅＭｏｄｅｌとして構成されている場合には、テキスト片Ｔｉの一部をマスクし、自然言語分析モデルＮが当該マスクされた語を推論するための入力データとできるような操作を言う。この様に、テキスト片（自然言語データ）Ｔｉ中の、一部の語句を（マスクに）入れ替えてクエリＱｉへと加工することで、適切なクエリＱｉを提供できる。また自然言語分析モデルＮが自然言語データを直接の入力データとして受け付けトピックを分類（Ｃｌａｓｓｉｆｉｃａｔｉｏｎ）するモデルとして構成されている場合には、テキスト片Ｔｉに操作を加えず直接クエリＱｉとしてもよい。また自然言語分析モデルＮがＮｅｘｔＳｅｎｔｅｎｃｅＰｒｅｄｉｃｔｉｏｎに関して推論するよう構成されている場合には、テキスト片Ｔｉ中の文の順序を一部入れ替えるなどの操作によってクエリＱｉへと加工される。この様に、テキスト片（自然言語データ）Ｔｉ中の、一部の文の順序を入れ替えてクエリＱｉへと加工することで、適切なクエリＱｉを提供できる。なお、当該加工はこれらの例示に限定されない。

【0044】

次に情報処理システム１００は、クエリＱｉを自然言語分析モデルＮに分析させた出力（分析結果）に関して、テキスト片Ｔｉ（クエリＱｉ）内の語句Ｐｉ１、Ｐｉ２からＰｉｍを算出し、語句Ｐｉ１、Ｐｉ２からＰｉｍへと、当該出力（分析結果）への第一寄与値と、を算出し、さらに、語句Ｐｉ１、Ｐｉ２からＰｉｍのうちの複数の語句をまとめた語句の組と、その第二寄与値とを算出する（ステップＳ４０６）。ここで、クエリＱｉから算出する語句Ｐｉ１、Ｐｉ２からＰｉｍは、クエリＱｉに含まれている語句であるため、クエリＱｉの元となるテキスト片Ｔｉおよび入力テキストＴに含まれる語句である。また、語句Ｐｉ１、Ｐｉ２からＰｉｍは、意味を有する単語やそれらを連結した単位であってもよいし、外部データ（例えば、自然言語分析モデルＮが以前に教師あり学習を行った際の学習データ）中の出現頻度から機械的に作成されたそれぞれに意味を持たない単位であってもよい。

【0045】

またここで、当該出力（分析結果）への第一寄与値の算出とは、当該出力結果（分析結果）の値そのものや出力結果に係る尤度の値が算出された根拠を、テキスト片（自然言語データ）Ｔｉ内の語句Ｐｉ１、Ｐｉ２からＰｉｍからの寄与として定量的に求める操作をいう。当該操作には例えば、いわゆる説明可能ＡＩ（ｅＸｐｌａｉｎａｂｌｅＡＩ）技術を用いることができる。そこで、ステップS４０２にて読み出した説明可能ＡＩ技術のプログラムを用いて、テキスト片Ｔｉ（クエリＱｉ）内の語句Ｐｉ１、Ｐｉ２からＰｉｍと、その第一寄与値を算出する。これにより、適切な第一寄与値を算出できる。

【0046】

説明可能ＡＩ技術により例えば自然言語分析モデルＮがＭａｓｋｅｄＬａｎｇｕａｇｅＭｏｄｅｌとして構成されている場合には、マスクされた語を自然言語分析モデルＮが推論する過程にテキスト片Ｔｉ内の語句Ｐｉ１、Ｐｉ２からＰｉｍが寄与した度合い（第一寄与値）を求められる。自然言語分析モデルＮが自然言語データのトピックを分類するモデルとして構成されている場合には、当該分類の過程にＴｉ内の語句Ｐｉ１、Ｐｉ２からＰｉｍが寄与した度合い（第一寄与値）を求められる。また自然言語分析モデルＮがＮｅｘｔＳｅｎｔｅｎｃｅＰｒｅｄｉｃｔｉｏｎに関して推論するよう構成されている場合には、当該推論する過程にテキスト片Ｔｉ内の語句Ｐｉ１、Ｐｉ２からＰｉｍが寄与した度合い（第一寄与値）を求められる。なおいうまでもなく、説明可能ＡＩ技術が適用可能な自然言語分析モデルＮの構成はこれらの例示に留まらない。

【0047】

また寄与値の形態として、第一寄与値と第二寄与値とがある。情報処理システム１００は、設定情報Ｉ（図３の組み合わせ重み設定欄３６０参照）に基づき、説明可能ＡＩ技術のプログラムを用いて、語句の組と、その第二寄与値を算出する。

【0048】

次に情報処理システム１００は、全てのテキスト片Ｔｉについて処理が完了したか否かを判定する（ステップＳ４０７）。

【0049】

全てのテキスト片Ｔｉについて処理が完了していないと判定された場合、情報処理システム１００は、ステップＳ４０４に戻り、処理を継続する。

【0050】

全てのテキスト片Ｔｉについて処理が完了したと判定された場合、情報処理システム１００は、語句Ｐ１１、Ｐ１２、からＰｎｍから、見出し語候補Ａ１、Ａ２からＡｋを抽出し、また、語句の組から語句の組の見出し語候補を抽出する（ステップＳ４０８）。すなわち、語句Ｐ１１からＰｎｍのうち、設定情報Ｉの抽出条件（図３の候補採用閾値設定欄３５０参照）を満たす語句を抽出して、見出し語候補Ａ１、Ａ２からＡｋとする。また、語句の組のうち、設定情報Ｉの語句の組の抽出条件（図３の組み合わせ重み設定欄３６０参照）を満たす語句の組を抽出して、語句の組の見出し語候補とする。なお、以下では、見出し語候補Ａ１、Ａ２からＡｋを、高寄与値語句Ａ１、Ａ２からＡｋと呼ぶ場合もある。

【0051】

次に、情報処理システム１００は、ステップＳ４０８で算出した見出し語候補Ａ１、Ａ２からＡｋと、語句の組の見出し語候補とその第二寄与値と、を見出し語候補提示部１１２へ送信して処理を終了する（ステップＳ４０９）。

【0052】

図４Ｂは、情報処理システム１００の見出し語候補提示部１１２による見出し語候補を提示する手順例を示すフローチャートである。

【0053】

情報処理システム１００の見出し語候補提示部１１２は、テキスト分析部１１１から、見出し語候補Ａ１、Ａ２からＡｋと、語句の組の見出し語候補とその第二寄与値と、を取得し、記憶する（ステップＳ４５１）。

【0054】

次に、情報処理システム１００は、見出し語候補Ａ１、Ａ２からＡｋと、語句の組の見出し語候補とその第二寄与値とを、ディスプレイやスピーカを用いてユーザに提示して処理を終了する（ステップＳ４５２）。ここで、情報処理システム１００は、提示する見出し語候補Ａ１、Ａ２からＡｋ等の情報を、端末１０１に出力（送信）し、端末１０１に、端末１０１のディスプレイに表示させて端末１０１を操作するユーザに提示する。ここで、情報処理システム１００は、端末１０１に、端末１０１のスピーカを用いて音声で提示させてもよい。さらに、情報処理システム１００は、提示する見出し語候補Ａ１、Ａ２からＡｋ等の情報を、計算機１００－１のディスプレイへ表示させてもよく、計算機１００－１のスピーカを用いて音声で提示させてもよい。

【0055】

なお、以上では、図４Ａのフローチャートで示すテキスト分析手順例や、図４Ｂのフローチャートで示す見出し語候を補提示する手順例では、語句の組とその第二寄与値、語句の組の見出し語候補とその第二寄与値を算出し、提示するが、必ずしも算出しなくても良く、提示しなくても良い。

【0056】

図５Ａは、実施例１に係る見出し語候補表示画面の一例を示す説明図である。見出し語候補表示画面５００は、見出し語候補提示部１１２が作成した情報により端末１０１のディスプレイに表示される。見出し語候補表示画面５００は、見出し語候補表示欄５０１と組み合わせスコア表示欄５０２とを有する。ユーザは、図５Ａの見出し語候補表示画面５００において、チェックボックス（チェックボックス５１１等）をクリックして、見出し語に設定する見出し語候補を選択できる。ユーザが選択したチェックボックスは黒塗りで表示され、選択していないチェックボックスは白塗りで表示されている。

【0057】

見出し語候補表示欄５０１は、見出し語候補Ａ１、Ａ２からＡｋの一部または全てを表示する。図５Ａの見出し語候補表示欄５０１には、見出し語候補として、「カスタマイズ対応」、「追加アドオン」、「広域共通」が示されており、これらの語句は左ほど第一寄与値が高い。また、図５Ａでは、黒塗りになっているチェックボックス５１２およびチェックボックス５１３に対応する見出し語候補「追加アドオン」および「広域共通」が見出し語に選ばれていることを示している。

【0058】

本欄では例えば、見出し語候補Ａ１、Ａ２からＡｋと合わせて、その第一寄与値を表示することができる。また本欄では例えば、見出し語候補Ａ１、Ａ２からＡｋの一部または全てを含むリストを表示してもよいし、テキストＴの一部またはすべてを表示したうえで、語句Ｐｉ１、Ｐｉ２からＰｉｍを表示し、さらに、見出し語候補Ａ１、Ａ２からＡｋの一部または全ての箇所を強調して表示してもよい。また、本欄では例えば、クエリＱｉの一部またはすべてを表示したうえで、語句Ｐｉ１、Ｐｉ２からＰｉｍを表示し、さらに、見出し語候補Ａ１、Ａ２からＡｋの一部または全ての箇所を強調して表示してもよい。以上のように表示することで、ユーザは、ユーザが見出し語候補から見出し語をより容易に選択できる。

【0059】

なお、以上では、語句Ｐｉ１、Ｐｉ２からＰｉｍとその第一寄与値や、見出し語候補Ａ１、Ａ２からＡｋｍの第一寄与値は、必要に応じて、テキスト分析部１１１から見出し語候補提示部１１２に、送信（出力）され、さらに見出し語候補提示部１１２から端末１０１に送信（出力）される。

【0060】

組み合わせスコア表示欄５０２は、語句の組の見出し語候補を表示する。本欄では例えば、語句の組の見出し語候補の一部または全てを含むリストを表示してもよい。また、語句の組の見出し語候補と、その第二寄与値を対応づけて表示することができる。また本欄では例えば、テキストＴの一部またはすべてを表示したうえで、語句の組の見出し語候補の一部または全ての箇所を強調して表示してもよい。また、本欄では例えば、クエリＱｉの一部またはすべてを表示したうえで、語句の組の見出し語候補の一部または全ての箇所を強調して表示してもよい。以上のように表示することで、ユーザは、語句の組の見出し語候補から語句の組の見出し語をより容易に選択できる。

【0061】

なお、以上では、語句の組（語句の組の見出し語候補以外）とその第二寄与値は、必要に応じて、テキスト分析部１１１から見出し語候補提示部１１２に、送信され、さらに見出し語候補提示部１１２から端末１０１に送信（出力）される。

【0062】

図５Ａの組み合わせスコア表示欄５０２では、白塗りとなっているチェックボックス５２１に対応する語句の組の見出し語候補「夜間バッチ版管理」が語句の組の見出し語に選ばれておらず、その第二寄与値が「＋０．１８」であることを示している。また、図５Ａでは、黒塗りとなっているチェックボックス５２２に対応する語句の組の見出し語候補「アドオン独自仕様既存システム」が語句の組の見出し語に選ばれており、その第二寄与値が「＋０．２８」であることを示している。

【0063】

また、ユーザが採用ボタン５０３を押下することにより、選択された見出し語候補の語および語句の組の見出し語候補を、見出し語として、テキストＴを検索用データベース（不図示）に保存する命令を送信して、見出し語とテキストＴを対応づけて検索用データベース（不図示）に保存させることができる。もしくは選択された見出し語候補の語および語句の組の見出し語候補を、見出し語とするためのテキストＴのメタデータを作成し副記憶装置２０３に格納することができる。また当該メタデータには、語句Ｐｉ１、Ｐｉ２からＰｉｍの第一寄与値および語句の組（語句の組の見出し語候補とそれ以外）とその第二寄与値を含むことができる。

【0064】

次に図４Ａにフローチャートで示されている情報処理システム１００のテキスト分析部１１１によるテキスト分析手順例の内、中心的な処理であるステップＳ４０３、ステップＳ４０５～ステップＳ４０６の処理の例について、図５Ｂ、図５Ｃを用いて詳しく説明する。

【0065】

まず、図５Ｂに示すように、入力テキストＴをテキスト片Ｔ１、Ｔ２からＴｎに分割し（ステップＳ４０３）、さらに分割したテキスト片Ｔ１、Ｔ２からＴｎそれぞれを加工して、クエリＱ１、Ｑ２からＱｎを作成する（ステップＳ４０５）。

【0066】

次に、ステップＳ４０６では、説明可能ＡＩ技術のプログラムは、クエリＱｉと自然言語分析モデルＮとを用いて、クエリＱｉ内の語句Ｐｉ１、Ｐｉ２からＰｉｍを取得する。クエリＱｉは、テキスト片Ｔｉを加工して作成されているため、語句Ｐｉ１、Ｐｉ２からＰｉｍは、テキスト片Ｔｉおよび入力テキストＴに含まれる語句である。

【0067】

次に、第一寄与値を算出する。図５Ｃでは、１つの例として、自然言語分析モデルＮがＮｅｘｔＳｅｎｔｅｎｃｅＰｒｅｄｉｃｔｉｏｎに関して推論するよう構成されており、自然言語分析モデルＮの分析を、クエリＱｉの先頭から７番目の文（図中、文７）と、８番目の文（図中、文８）と、の順番が正しいか否かの推論とする。

【0068】

説明可能ＡＩ技術のプログラムでは、図５Ｃに示すように、クエリＱｉを自然言語分析モデルＮに分析させて、先頭から７番目の文と、８番目の文の並び順が５０％正しいとの分析結果を得る。そして、先頭から７番目の文の前には単語「公園」が記されており、８番目の文の後に単語「クラウド」が記されている。

【0069】

さらに、説明可能ＡＩ技術のプログラムでは、クエリＱｉの先頭から７番目の文の前にある単語「公園」を、所定の語（置換語）に置き換えた置換クエリＱｔ１を作成し、置換クエリＱｔ１を自然言語分析モデルＮに分析させる。その分析結果１（置換分析結果）は、先頭から７番目の文と８番目の文の並び順が５０％正しいとの結果を得たとする。分析結果１は、クエリＱｉの分析結果（５０％）と同じであることから、置換クエリＱｔ１で所定の語（置換語）に置き換えた単語「公園」は、クエリＱｉの分析結果に与える影響は少なく、その第一寄与値は小さいと考えられる。

【0070】

さらに、説明可能ＡＩ技術のプログラムでは、クエリＱｉ先頭から８番目の文の後ろの単語「クラウド」を、所定の語（置換語）に置き換えた置換クエリＱｔ２を作成し、置換クエリＱｔ２を自然言語分析モデルＮに分析させて、先頭から７番目の文と８番目の文の並び順が７０％正しいとの分析結果２（置換分析結果）を得たとする。分析結果２は、クエリＱｉの分析結果（５０％）から２０％も増加しており、置換クエリＱｔ２で所定の語（置換語）に置き換えた単語「クラウド」は、クエリＱｉの分析結果に対して与える影響が大きく、その第一寄与値は比較的大きな値であると考えられる。

【0071】

説明可能ＡＩ技術のプログラムでは、クエリＱｉ内の様々な語それぞれに対して、以上で説明した処理（１、クエリＱｉ内の一部の語を置換語に置き換えた置換クエリを作成する。２、自然言語分析モデルＮに置換クエリを分析させて置換分析結果を得る。）を繰り返し行う。そして、置換語に置き換えた単語や、置換分析結果の比較などを行って、クエリＱｉ内（テキスト片Ｔｉ内）の語句Ｐｉ１、Ｐｉ２からＰｉｍそれぞれに対する第一寄与値を算出する。

【0072】

なお、第二寄与値の算出方法は、説明可能ＡＩ技術のアルゴリズムによって異なり、ここではその説明を省略する。

【0073】

入力テキストＴ（文章）は、主題に基づいて作成される。このため、自然言語分析モデルＮがクエリＱｉを分析するときに自然言語分析モデルＮが参照する対象である、クエリＱｉ中の単語の並び順や、クエリＱｉの内容や、クエリＱｉ中の文の並び順などや、自然言語分析モデルＮの分析結果は、入力テキストＴの主題に応じて変わる。そして、入力テキストＴの主題についてのキーワードは、入力テキストＴの主題との関連性が高いため、クエリＱｉを分析するときに自然言語分析モデルＮが参照する対象や、自然言語分析モデルＮの分析結果に大きな影響を与える。このため、入力テキストＴの主題についてのキーワードは、第一寄与値が大きい語句であると考えられる。また、情報処理システム１００が算出した見出し語候補は、第一寄与値が比較的大きな語句であるため、情報処理システム１００が算出した見出し語候補は、入力テキストＴの主題についてのキーワードに相当すると考えられる。従って、見出し語候補は、入力テキストＴの主題との関連性が高いと考えられる。換言すれば、情報処理システム１００は、入力テキストＴ（文章）の主題との関連度が高い見出し語候補を適切に推定できる。そして、見出し語は見出し語候補から選択されるため、情報処理システム１００は、文書の主題との関連度が高い検索見出し語を付与することができる。

【0074】

このように、実施例１によれば、テキストＴを対象とする自然言語分析モデルＮの分析に強く寄与し、テキストＴ中で重要だと推定される語句をユーザに提示することができる（図５Ａ参照）。したがってユーザは当該語句が、テキストＴを検索用データベースに格納する際の見出し語候補であることが把握できる。また、ユーザに見出し語候補を提示することで、見出し語候補の中から、ユーザが見出し語を選択することが容易になる。

【0075】

また特に、クエリタスク設定欄３１０（図３参照）において、ＮｅｘｔＳｅｎｔｅｎｃｅＰｒｅｄｉｃｔｉｏｎなどのテキストの大域的な意味情報（テキストの多くの部分の文脈）を参照するとされるタスクを設定し、当該タスクに適した自然言語分析モデルＮを選択することで、テキストの大域的な意味情報の参照に重要な寄与をする語句を適切に特定し、テキストＴを検索用データベースに格納する際の見出し語候補として採用することが可能になる。

【0076】

また特に、テキストＴを検索用データベースに格納する際に、見出し語に伴う重みスコアを算出する場合がある。語句Ｐｉ１、Ｐｉ２からＰｉｍの第一寄与値および語句の組の第二寄与値を、テキストＴを検索用データベースに格納する際の見出し語に伴う検索重みスコアを算出する基準とすることで、当該語句のテキスト内での意味的な重要性や、語句が当該組み合わせで使われることによる重要性の加減を参照して、検索結果の優先表示などに反映させることが可能になる。

【0077】

また特に、見出し語候補を生成することで、文章の見出し語の作成や、文章への見出し語の付与を容易にする。これにより、文章の見出し語を付与するために必要となるエネルギーや生成される二酸化炭素の排出量を減らし、地球温暖化を抑制できる。

【実施例0078】

実施例２では、実施例１で見出し語候補として特定した語句Ａ１、Ａ２からＡｋに対し、外部的に作成された見出し語辞書と突合し、よりユーザが検索する際に用いる語句に近く直感的で有用な形式の見出し語候補を提供する例を示す。なお、実施例２では、実施例１との相違点を中心に説明するため、実施例１と同一構成には同一符号を付し、その説明を省略する。

【0079】

図６Ａは、実施例２の情報処理システム１００Ａのブロック図である。図６Ｂは、情報処理システム１００Ａのハードウェア構成を示すブロック図である。図６Ａを参照すると、実施例２の情報処理システム１００Ａでは、計算機１００－１は、テキスト分析部１１１および見出し語候補提示部１１２に加え、辞書突合部６１０を備える。また計算機１００－２は、自然言語分析モデルストア１２０および説明可能ＡＩプログラムストア１３０に加え、見出し語辞書ストア６２０を備える。

【0080】

見出し語辞書ストア６２０は、ユーザが手動で作成または外部から取得するなどした、見出し語のリストである見出し語辞書Ｄが格納されている。すなわち、見出し語辞書Ｄは、入力テキストＴ（自然言語データ）に付与可能な１以上の見出し語を含む見出し語辞書データである。

【0081】

図６Ｂを参照すると、情報処理システム１００Ａでは、計算機１００－１は、副記憶装置２０３に、テキスト分析プログラム１１１Ａ、見出し語候補提示プログラム１１２Ａに加え、辞書突合プログラム６１０Ａおよび見出し語候補リスト６１１Aを記憶している。また計算機１００－２は、副記憶装置２０３に、自然言語分析モデルストア１２０および説明可能ＡＩプログラムストア１３０に加え、見出し語辞書ストア６２０を記憶している。計算機１００－１における辞書突合部６１０の機能は、プロセッサ２０１が副記憶装置２０３に記憶している辞書突合プログラム６１０Ａを主記憶装置２０２に読み出して実行することにより実現される。

【0082】

見出し語候補リスト６１１Aは、見出し語候補として採用する高寄与値語句Ａと、高寄与値語句Ａの第一寄与値と、高寄与値語句Ａが見出し語辞書Ｄに含まれるか否か旨の情報とを対応付けて登録できる、見出し候補のデータベースである。

【0083】

実施例２では、テキスト分析部１１１は、辞書突合部６１０に、入力テキストＴ、語句Ｐ１１、Ｐ１２からＰｎｍと、その第一寄与値、高寄与値語句（見出し語候補）Ａ１、Ａ２からＡｋと、その第一寄与値、設定情報Ｉを送信する。また、テキスト分析部１１１は、見出し語候補提示部１１２に、語句の組の見出し語候補と、その第二寄与値とを送信する。また、実施例２の設定情報Ｉは、実施例１の設定情報Ｉに加えて、新規語採用基準を含む。

【0084】

図７は、実施例２に係る分析条件の設定画面の一例を示す説明図である。

【0085】

実施例２では、設定画面３００は一例として、クエリタスク設定欄３１０、モデル指定欄３２０、クエリ数設定欄３３０、寄与値算出手法設定欄３４０、候補採用閾値設定欄３５０および組み合わせ重み設定欄３６０などの他に、新規語採用基準設定欄９１０を備えることができる。設定画面４００において、ユーザが選択したチェックボックスは黒塗りで表示され、選択していないチェックボックスは白塗りで表示されている。

【0086】

新規語採用基準設定欄９１０は、高寄与値語句Ａが、見出し語辞書Ｄに含まれない語（新規語）とみなせるかどうかを判定する条件である新規語採用基準を設定する欄である。すなわち、見出し語辞書Ｄに格納されている語のうち、高寄与値語句Ａと重複部分が多い語ｄ（高寄与値語句Ａに類似する語）と、高寄与値語句Ａとが、新規語採用基準を満たす場合は高寄与値語句Ａが見出し語辞書Ｄに含まれない語とみなし、満たさない場合には、高寄与値語句Ａが見出し語辞書Ｄに含まれる語とみなす。

【0087】

また、図７では、白塗りになっているチェックボックス９１１に対応する、「高寄与値語句Ａと語ｄとの重複率が、０．２０（欄９１２）以下の語句」との条件を新規語採用基準にしないことを示している。また、図７では、黒塗りになっているチェックボックス９１３に対応する、「高寄与値語句Ａと語ｄとの重複字数が２（欄９１４）以下の語句」との条件を新規語採用基準にすることを示している。また、図７では、白塗りになっているチェックボックス９１５に対応する「高寄与値語句Ａと、語ｄとの編集距離が５（欄９１６）以上の語句」との条件を新規語採用基準にしないことを示している。

【0088】

本欄では例えば、高寄与値語句Ａと語ｄの文字単位での重複数や語の長さに比した重複率に関する閾値として当該条件を設定することができる。また本欄では例えば、高寄与値語句Ａと語ｄの編集距離に関する閾値として当該条件を設定することができる。これらの当該閾値としては、テキストＴや見出し語辞書Ｄに含まれる語句を用いて平均値や標準偏差などの統計値を算出し、当該統計値に関する閾値として設定することも可能である。また当該統計値とは、別途用意されたコーパスやテキストＴにおける共起関係を元に算出してもよい。

【0089】

図８は、実施例２に係る辞書突合部６１０による辞書突合手順例を示すフローチャートである。以下、図９を参照しつつ、図８のフローチャートに沿って、辞書突合手順例を説明する。なお、図９は、ステップＳ７０４からステップＳ７１１の間で作成される情報の例を表形式で示す図である。図９は表形式で情報の例を示しているが、辞書突合部６１０内部でこのような形式で実際にデータが作成されている必要はなく、また高寄与値語句Ａごとの情報がこのように集約される必要はない。

【0090】

情報処理システム１００Ａ（辞書突合部６１０）は、テキスト分析部１１１から辞書突合部６１０に送信された、入力テキストＴ、語句Ｐ１１からＰｎｍとその第一寄与値、高寄与値語句（見し語候補）Ａ１、Ａ２からＡｋとその第一寄与値、設定情報Ｉを受信し、記憶する。また、見出し語辞書ストア６２０から見出し語辞書Ｄを読み込む（ステップＳ７０１）。

【0091】

次に、情報処理システム１００Ａ（辞書突合部６１０）は、受信した見出し語候補とされる高寄与値語句Ａについてのループ処理を開始する（ステップＳ７０２）。ループ開始のステップＳ７０２からループ終了のステップＳ７１１の間に示す処理は、高寄与値語句Ａｉ毎に繰り返し行う。ステップＳ７０２にて、情報処理システム１００Ａは、未処理の高寄与値語句Ａの中から一つの高寄与値語句Ａｉを選択する。

【0092】

次に、情報処理システム１００Ａは、見出し語辞書Ｄを参照し、見出し語辞書Ｄに格納されている語のうち、高寄与値語句Ａｉと最も重複部分が多い語ｄを選択する（ステップＳ７０３）。ここで、重複部分は例えば、文字単位での重複数や語の長さに比した重複率を基準に抽出してもよいし、編集距離などを基準に抽出してもよいし、別途用意されたコーパスやテキストＴにおける共起関係を元に算出してもよい。また、語ｄは、見出し語辞書Ｄ（見出し語辞書データ）から抽出した、見出し語候補に類似する語である。

【0093】

次に、情報処理システム１００Ａは、高寄与値語句Ａｉおよび選択された語ｄが設定情報Ｉにて設定された新規語採用基準を充足するか否かを判定する（ステップＳ７０４）。高寄与値語句Ａｉおよび選択された語ｄが新規語採用基準を充足すると判定された場合（ステップＳ７０４：ＹＥＳ）にはステップＳ７０５に進み、寄与値語句Ａｉおよび選択された語ｄが新規語採用基準を充足しないと判定された場合（ステップＳ７０４：ＮＯ）にはステップＳ７０６に進む。

【0094】

次に、情報処理システム１００Ａは、見出し語候補リスト６１１Aに高寄与値語句Ａｉを追加する（ステップＳ７０５）。その後情報処理システム１００Ａは、ステップＳ７１１に進む。ここで、高寄与値語句ＡｉはステップＳ７０４において、新規語採用基準を充足すると判定（ステップＳ７０４：ＹＥＳ）された語であるので、、寄与値語句Ａｉを見出し語辞書Ｄ（見出し語辞書データ）に含まれない語とみなす。情報処理システム１００Ａは、高寄与値語句Ａｉと、高寄与値語句Ａｉの第一寄与値と、高寄与値語句Ａｉが見出し語辞書Ｄに含まれない旨の情報と、を対応づけて、見出し語候補リスト６１１Aに登録する。

【0095】

図９の情報８１０の行では、ステップＳ７０５（高寄与値語句Ａｉおよび語ｄが新規語採用基準を充足する場合）の高寄与値語句Ａｉの例として「陶瓷」を示している。

【0096】

図８に戻り、次に、情報処理システム１００Ａは、高寄与値語句Ａｉが語ｄに含まれない部分を持つかどうかを判定する（ステップＳ７０６）。高寄与値語句Ａｉが語ｄに含まれない部分を持つと判定された場合は（ステップＳ７０６：ＹＥＳ）、ステップＳ７０７に進み、高寄与値語句Ａｉが語ｄに含まれない部分を持たないと判定された場合は（ステップＳ７０６：ＮＯ）、ステップＳ７０８に進む。

【0097】

次に、情報処理システム１００Ａは、テキスト片Ｔｉで第一寄与値を算出する語句Ｐｉ１、Ｐｉ２からＰｉｍの分割を変更し、高寄与値語句Ａｉを語ｄと重複する部分と重複しない部分とに分割したうえで、第一寄与値算出を再実行する命令をテキスト分析部１１１へ送信する（ステップＳ７０７）。辞書突合部６１０は再度見出し語候補とされる語句を受信し、当該語句についてステップＳ７０２以降の高寄与値語句についてのループ処理を継続する。

【0098】

図９の情報８２０の行では、ステップＳ７０７（高寄与値語句Ａが語ｄに含まれない部分を持つ場合）における、高寄与値語句Ａｉの例として「新橋駅」を示し、語ｄの例として「新橋」を示している。この例では、高寄与値語句Ａｉの語ｄと重複する部分は「新橋」で、重複しない部分は「駅」である。

【0099】

図８に戻り、次に、情報処理システム１００Ａは、語ｄが高寄与値語句Ａｉに含まれない部分を持つかどうかを判定する（ステップＳ７０８）。語ｄが高寄与値語句Ａに含まれない部分を持つと判定された場合は（ステップＳ７０８：ＹＥＳ）、ステップＳ７１０に進み、語ｄが高寄与値語句Ａに含まれない部分を持たないと判定された場合は（ステップＳ７０８：ＮＯ）、ステップＳ７０９に進む。

【0100】

次に、情報処理システム１００Ａは、見出し語候補リスト６１１Ａに語ｄを追加する（ステップＳ７０９）。その後情報処理システム１００Ａは、ステップＳ７１１に進む。見出し語候補リスト６１１Ａに語ｄを追加する際、情報処理システム１００Ａは、語ｄ（見出し語候補として）と、高寄与値語句Ａｉの第一寄与値と、高寄与値語句Ａｉが見出し語辞書Ｄに含まれる旨の情報と、を対応づけて、見出し語候補リスト６１１Ａに登録する。この様に、高寄与値語句Ａｉを、語ｄ（見出し語候補に類似する語）に置き換えて、見出し語候補リスト６１１Ａに登録することは、換言すれば、見出し語候補に類似する語ｄに基づいて高寄与値語句（見出し語候補）Ａｉを加工して語ｄにすることである。またこれは、高寄与値語句として抽出された見出し語候補Ａｉを見出し語辞書内の語ｄを基準に変形することでもある。

【0101】

次に、情報処理システム１００Ａは、語ｄのうち高寄与値語句Ａｉに含まれない部分を語ｄ′とし、テキスト分析部１１１から語ｄ′の第一寄与値を受信し、高寄与値語句Ａｉの第一寄与値と加算した値が、設定情報Ｉで設定した見出し語候補採用のための抽出条件（図７の候補採用閾値設定欄３５０参照）を満たすかどうかを判定する（ステップＳ７１０）。加算した値が、設定情報Ｉで設定した見出し語候補採用のための抽出条件を満たすと判定された場合（ステップＳ７１０：ＹＥＳ）はステップＳ７０９に進み、加算した値が、設定情報Ｉで設定した見出し語候補採用のための抽出条件を満たさないと判定された場合（ステップＳ７１０：ＮＯ）は、ステップＳ７１１に進む。

【0102】

図９の情報８３０の行には、ステップＳ７１０（語ｄが高寄与値語句Ａに含まれない部分ｄ′を持たない場合）の、高寄与値語句Ａｉの例として「音」、語ｄの例として「音綴文字」、語句ｄ′の例として「綴文字」を示している。

【0103】

ここで情報処理システム１００Ａは、当該加算について単純に第一寄与値もしくは第一寄与値から算出される統計値（第一寄与値の平均値や標準偏差など）を加算するのではなく、テキスト片Ｔｉで第一寄与値を算出する語句Ｐｉ１、Ｐｉ２からＰｉｍの分割を変更し、語ｄに対応する語句への第一寄与値の算出を再実行する命令をテキスト分析部１１１へ送信し、当該値について判定を行ってもよい。

【0104】

図８に戻り、次に、情報処理システム１００Ａは、全ての高寄与値語句Ａｉについて処理が完了したか否かを判定する（ステップＳ７１１）。

【0105】

全ての高寄与値語句Ａｉについて処理が完了していないと判定された場合、情報処理システム１００Ａは、ステップＳ７０２に戻り、処理を継続する。

【0106】

全ての高寄与値語句Ａｉについて処理が完了したと判定された場合、情報処理システム１００Ａは、作成された見出し語候補リスト６１１Aに登録された情報を見出し語候補提示部１１２に送信して処理を終了する（ステップＳ７１２）。なお、語句の組の見出し語候補とその第二寄与値は、テキスト分析部１１１から見出し語候補提示部１１２に送信されている。

【0107】

見出し語候補提示部１１２（情報処理システム１００Ａ）は、見出し語候補リスト６１１Aに登録された情報に基づいて、見出し語候補をユーザに提示する。見出し語候補提示部１１２（情報処理システム１００Ａ）は、見出し語候補リスト中で、見出し語辞書Ｄに含まれない旨の情報が対応付けられている見出し語候補に対して、見出し語辞書Ｄに含まれない旨の情報（例えば、図１０の新規辞書追加候補表示ボタン１００１）を対応付けてユーザに提示する。

【0108】

図１０は、見出し語候補と、語句の組の見出し語候補と、その第二寄与値を、計算機１００－１または端末１０１のディスプレイに表示させた場合の、実施例２に係る見出し語候補表示画面の一例を示す説明図である。

【0109】

実施例２では、見出し語候補表示画面５００は、見出し語候補表示欄５０１と組み合わせスコア表示欄５０２との他に、「Ｎｅｗ！」と描かれた新規辞書追加候補表示ボタン１００１を含むことができる。

【0110】

新規辞書追加候補表示ボタン１００１は、見出し語候補表示欄５０１に表示される見出し語候補のうち、見出し語辞書Ｄに含まれない語（とみなす語）に表示される。また、ユーザが新規辞書追加候補表示ボタン１００１を押下することにより、見出し語辞書Ｄに当該語を追加し保存する命令を送信する形態とすることもできる。これにより、見出し語辞書Ｄに登録されていない見出し語候補を容易に見出し語辞書Ｄに登録できる。

【0111】

このように、実施例２によれば、外部的に作成された見出し語辞書と突合し、高寄与値語句として抽出された見出し語候補を当該見出し語辞書内の語を基準に変形できるため、よりユーザが検索する際に用いる語句に近く直感的で有用な形式の見出し語を提供することができる。

【0112】

また、高寄与値語句Ａのうち見出し語辞書に含まれない語を明示し（図１０の新規辞書追加候補表示ボタン１００１参照）、また見出し語辞書に追加することができるため、外部的に作成された見出し語辞書に抜け漏れがあった場合や、経時的な変化があった場合に見出し語辞書の更新を促すことができる。

【実施例0113】

実施例３では、実施例１で自然言語分析モデルストア１２０に格納されているとした自然言語分析モデルＮに対し、ユーザによるアノテーションや操作ユーザに係るメタデータを取得し、自然言語分析モデルＮを作成する例を示す。なお、実施例３では、実施例１との相違点を中心に説明するため、実施例１または実施例２と同一構成には同一符号を付し、その説明を省略する。

【0114】

図１１Ａは、実施例３の情報処理システム１００Ｂのブロック図である。図１１Ｂは、情報処理システム１００Ｂのハードウェア構成を示すブロック図である。図１１Ａを参照すると、実施例３の情報処理システム１００Ｂでは、計算機１００－２は、自然言語分析モデルストア１２０および説明可能ＡＩプログラムストア１３０に加え、一時保存テキストデータストア（学習用データベース）１１１０および自然言語分析モデル学習部１１２０を備える。

【0115】

一時保存テキストデータストア１１１０は、自然言語分析モデルを学習する際のいわゆる教師データを、自然言語分析モデルの学習ができるほど十分な量格納しているが、常には、十分な量格納しなくても良い。

【0116】

図１１Ｂを参照すると、情報処理システム１００Ｂでは、計算機１００－１は、副記憶装置２０３に、テキスト分析プログラム１１１Ａ、見出し語候補提示プログラム１１２Ａを記憶している。また計算機１００－２は、副記憶装置２０３に、自然言語分析モデルストア１２０および説明可能ＡＩプログラムストア１３０に加え、一時保存テキストデータストア１１１０及び自然言語分析モデル学習プログラム１１２０Ａを記憶している。計算機１００－２における自然言語分析モデル学習部１１２０の機能は、プロセッサ２０１が副記憶装置２０３に記憶している自然言語分析モデル学習プログラム１１２０Ａを主記憶装置２０２に読み出して実行することにより実現される。

【0117】

ユーザは、端末１０１を操作して、入力テキストＴ′（学習用テキスト）が保存されている場所の情報と、ユーザ情報Ｌ′と、入力テキストＴ′を一時保存テキストデータストア１１１０に格納する旨の格納命令と、を入力し、端末１０１に、これらを端末１０１から計算機１００－１に送信させる。入力テキストＴ′は自然言語分析モデルを学習させる際の学習データに用いる自然言語データである。また、ユーザ情報Ｌ′を送信しない場合もある。後述するが、ユーザ情報Ｌ′は、自然言語分析モデル学習部１１２０が、アノテーションデータ（正解データ）に加工する。ユーザ情報Ｌ′として、例えば、次の２種類の情報を挙げることができる。
１、ユーザが、端末１０１を操作して入力する、入力テキストＴ′に関するアノテーション情報。
２、入力テキストＴ′の作成者の情報（例えば、職種や役職に関する情報）。

【0118】

例えば、端末１０１を操作するユーザが入力テキストＴ′を作成し、入力テキストＴ′を情報処理システム１００Ｂに送信（入力テキストＴ′を提供する）する。さらに、情報処理システム１００Ｂが、端末１０１にアクセスし、ユーザの端末１０１の操作履歴やログイン情報から、ユーザ（入力テキストＴ′の作成者）の職種や役職に関する情報を取得し、ユーザ情報Ｌ′を作成してもよい。この場合のユーザ情報Ｌ′は、入力テキストＴ′の作成者の情報であり、かつ、一時保存テキストデータストア（学習用データベース）１１１０への入力テキストＴ′（学習用テキスト）の提供者の情報でもある。さらにこの場合は、ユーザがアノテーション情報を入力できない場合であっても、情報処理システム１００Ｂによってユーザ情報Ｌ′が作成される。

【0119】

図１２は、実施例３に係る自然言語分析モデル学習部１１２０による自然言語分析モデル学習例を示すフローチャートである。

【0120】

情報処理システム１００Ｂは、ユーザが端末１０１を操作して指定する入力テキストＴ′を取得する（ステップＳ１２０１）。

【0121】

次に、情報処理システム１００Ｂは、ステップＳ１２０１にて端末１０１を操作したユーザに関するユーザ情報Ｌ′を取得する（ステップＳ１２０２）。このユーザ情報Ｌ′は、ユーザが明に端末１０１を操作して入力した入力テキストＴ′に関するアノテーション情報であってもよい。またこのユーザ情報Ｌ′は、情報処理システム１００Ｂが、端末１０１の操作履歴やログイン情報から取得した、端末１０１を操作するユーザの職種や役職に関する情報であってもよい。

【0122】

次に、情報処理システム１００Ｂは、テキストＴ′およびユーザ情報Ｌ′を一時保存テキストデータストア１１１０へ格納する（ステップＳ１２０３）。ここで自然言語分析モデル学習部１１２０は、自然言語分析モデルをいわゆる教師あり学習で作成する際に入力テキストＴ′を入力データとしユーザ情報Ｌ′をアノテーションデータとして用いるために必要な加工を行ったうえで一時保存テキストデータストア１１１０へ格納することができる。

【0123】

次に、情報処理システム１００Ｂは、入力テキストＴ′を入力データとしユーザ情報Ｌ′をアノテーションデータ（ラベル）とした教師あり学習を行い、自然言語分析モデルを作成する（ステップＳ１２０４）。ここで、教師あり学習は、ユーザ情報Ｌ′を推論するように自然言語データ分析モデルを訓練する。この際の教師あり学習は、一般に知られている自然言語分析モデルの作成方法を用いることができる。また特に、外部的に作成された事前学習済み言語モデルへいわゆる遷移学習を行い自然言語分析モデルを作成することができる。また、一時保存テキストデータストア１１１０に格納されている学習用テキストの量が十分でない場合では、予め指定した所定量のテキストＴ′（学習用テキスト）が一時保存テキストデータストア１１１０へ格納されたときや、ユーザからの命令を受信したときに、教師あり学習を開始してもよい。

【0124】

次に、情報処理システム１００Ｂは、作成した自然言語分析モデルを自然言語分析モデルストア１２０に格納して処理を終了する。

【0125】

このように、実施例３によれば、テキストの大域的な（多くの部分の）意味情報を参照するタスクに適した自然言語分析モデルが用意されていない場合でも、ユーザからのアノテーション付加を受け付け、見出し語候補の抽出に適当な自然言語分析モデルを作成することが可能になる。

【0126】

また更に、ユーザがアノテーション情報を明に入力できない場合であっても、テキストから当該テキストを作成したユーザの職種や役職を推論するという大域的な意味情報を参照するタスクについての学習データを構築し、見出し語候補の抽出に適当な自然言語分析モデルを作成することが可能になる。

【0127】

なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。たとえば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加、削除、または置換をしてもよい。

【0128】

図１３は実施例２及び実施例３に係る全体構成図である。図１３に示すように、すべての実施例の構成を加えても良い。

【0129】

また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、たとえば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。

【0130】

各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記憶装置、又は、ＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）カード、ＳＤカード、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）の記録媒体に格納することができる。

【0131】

また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要なすべての制御線や情報線を示しているとは限らない。実際には、ほとんどすべての構成が相互に接続されていると考えてよい。