(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-07
(45)【発行日】2024-08-16
(54)【発明の名称】情報処理装置、情報処理方法、および情報処理プログラム
(51)【国際特許分類】
G06F 40/44 20200101AFI20240808BHJP
G06F 40/242 20200101ALI20240808BHJP
【FI】
G06F40/44
G06F40/242
(21)【出願番号】P 2021038868
(22)【出願日】2021-03-11
【審査請求日】2023-04-19
(73)【特許権者】
【識別番号】000153443
【氏名又は名称】株式会社 日立産業制御ソリューションズ
(74)【代理人】
【識別番号】110001678
【氏名又は名称】藤央弁理士法人
(72)【発明者】
【氏名】浜 直史
(72)【発明者】
【氏名】和久井 一則
(72)【発明者】
【氏名】安井 雅彦
【審査官】長 由紀子
(56)【参考文献】
【文献】特開2014-098760(JP,A)
【文献】杉野 峰大 外3名,執筆・翻訳のための制限語彙の構築とその自動化の検討,言語処理学会第27回年次大会 発表論文集 [online],日本,言語処理学会,2021年03月08日,pp.913-918
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/00-58
(57)【特許請求の範囲】
【請求項1】
プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する情報処理装置であって、
複数の語を含む語彙データ
を記憶し、かつ、文字列を構成するクエリが入力されると前記クエリ内のマスクされた第1語についての推論に前記語彙データおよび前記クエリに含まれる第2語がどの程度寄与するかを推定する計算機にアクセス可能であり、
前記記憶デバイスは、自然言語データの文を含むコーパスデータを記憶し、
前記プロセッサは、
前記計算機から前記語彙データを取得する第1取得処理と、
前記第1取得処理によって取得された語彙データのうち、前記コーパスデータに含まれる自然言語データの文にも含まれている語を選択して、前記第1語に設定する第1設定処理と、
前記第1設定処理によって設定された前記第1語を含む自然言語データの文をクエリ由来文として前記コーパスデータから選択する選択処理と、
前記選択処理によって選択されたクエリ由来文
から前記第1語以外の他の語を選択して、前記他の語を前記第2語が挿入可能な入替対象語に設定する第2設定処理と、
前記第2設定処理によって前記他の語が前記入替対象語に設定され、かつ、前記第1語がマスクされた前記クエリ由来文を、前記クエリとして生成する
第1生成処理と、
を実行することを特徴とする情報処理装置。
【請求項2】
請求項1に記載の情報処理装置であって、
前記プロセッサは、
前記第1生成処理によって生成されたクエリを視認可能または再生可能に出力する第1出力処理を実行することを特徴とする情報処理装置。
【請求項3】
請求項1に記載の情報処理装置であって、
前記プロセッサは、
前記第1生成処理によって生成されたクエリを
前記計算機に出力する第2出力処理を実行することを特徴とする情報処理装置。
【請求項4】
請求項3に記載の情報処理装置であって、
前記プロセッサは、
前記第2出力処理により前記クエリを前記計算機に出力した結果、前記クエリ内のマスクされた前記第1語についての推論に前記第2語がどの程度寄与するかを前記計算機が推定した推定結果を取得する第2取得処理を実行することを特徴とする情報処理装置。
【請求項5】
請求項4に記載の情報処理装置であって、
前記第2取得処理では、前記プロセッサは、前記推定結果に基づいて前記語彙データから不要語候補を取得する、
ことを特徴とする情報処理装置。
【請求項6】
請求項5に記載の情報処理装置であって、
前記プロセッサは、
前記不要語候補が所定数に到達するまで、前記入替対象語を前記語彙データ内の異なる語に入れ替えて前記クエリを再生成する第2生成処理を実行することを特徴とする情報処理装置。
【請求項7】
請求項6に記載の情報処理装置であって、
前記
第2生成処理では、前記プロセッサは、前記不要語候補が所定数に到達するまで、
異なるクエリ由来文ごとに前記クエリを
再生成する、
ことを特徴とする情報処理装置。
【請求項8】
請求項7に記載の情報処理装置であって、
前記プロセッサは、
前記第2取得処理によって取得された不要語候補を視認可能に出力する第3出力処理を実行することを特徴とする情報処理装置。
【請求項9】
請求項1に記載の情報処理装置であって、
前記記憶デバイスは、前記コーパスデータまたは前記語彙データに関連する1以上の追加語を含む追加語リストデータを記憶し、
前記第1設定処理では、前記プロセッサは、前記クエリの生成に用いる前記追加語を追加語リストデータから選択してクエリ追加語に設定し、
前記選択処理では、前記プロセッサは、前記第1設定処理によって設定された前記第1語および前記クエリ追加語を含む自然言語データの文をクエリ由来文として前記コーパスデータから選択し、
前記第2設定処理では、前記プロセッサは、前記選択処理によって選択されたクエリ由来文から前記クエリ追加語を選択して、前記クエリ追加語を前記第2語が挿入可能な入替対象語に設定する、
ことを特徴とする情報処理装置。
【請求項10】
請求項9に記載の情報処理装置であって、
前記プロセッサは、
前記第1生成処理によって生成されたクエリを視認可能または再生可能に出力する第4出力処理を実行することを特徴とする情報処理装置。
【請求項11】
請求項9に記載の情報処理装置であって、
前記プロセッサは、
前記第1生成処理によって生成されたクエリを前記計算機に出力する第5出力処理を実行することを特徴とする情報処理装置。
【請求項12】
請求項11に記載の情報処理装置であって、
前記プロセッサは、
前記第5出力処理により前記クエリを前記計算機に出力した結果、前記クエリ内のマスクされた前記第1語についての推論に前記第2語がどの程度寄与するかを前記計算機が推定した推定結果を取得する第3取得処理を実行することを特徴とする情報処理装置。
【請求項13】
請求項12に記載の情報処理装置であって、
前記第3取得処理では、前記プロセッサは、前記推定結果に基づいて前記語彙データから不要語候補を取得する、
ことを特徴とする情報処理装置。
【請求項14】
請求項13に記載の情報処理装置であって、
前記プロセッサは、
前記第3取得処理によって取得された不要語候補と前記クエリ追加語とを視認可能に出力する第5出力処理を実行することを特徴とする情報処理装置。
【請求項15】
請求項14に記載の情報処理装置であって、
前記第5出力処理では、前記プロセッサは、前記語彙データにおいて前記不要語候補を前記クエリ追加語に上書き操作可能に出力する、
ことを特徴とする情報処理装置。
【請求項16】
プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する情報処理装置が実行する情報処理方法であって、
前記情報処理装置は、複数の語を含む語彙データを記憶し、かつ、文字列を構成するクエリが入力されると前記クエリ内のマスクされた第1語についての推論に前記語彙データおよび前記クエリに含まれる第2語がどの程度寄与するかを推定する計算機にアクセス可能であり、
前記記憶デバイスは、自然言語データの文を含むコーパスデータを記憶し、
前記プロセッサは、
前記計算機から前記語彙データを取得する第1取得処理と、
前記第1取得処理によって取得された語彙データのうち、前記コーパスデータに含まれる自然言語データの文にも含まれている語を選択して、前記第1語に設定する第1設定処理と、
前記第1設定処理によって設定された前記第1語を含む自然言語データの文をクエリ由来文として前記コーパスデータから選択する選択処理と、
前記選択処理によって選択されたクエリ由来文から前記第1語以外の他の語を選択して、前記他の語を前記第2語が挿入可能な入替対象語に設定する第2設定処理と、
前記第2設定処理によって前記他の語が前記入替対象語に設定され、かつ、前記第1語がマスクされた前記クエリ由来文を、前記クエリとして生成する第1生成処理と、
を実行することを特徴とする情報処理方法。
【請求項17】
複数の語を含む語彙データを記憶し、かつ、文字列を構成するクエリが入力されると前記クエリ内のマスクされた第1語についての推論に前記語彙データおよび前記クエリに含まれる第2語がどの程度寄与するかを推定する計算機にアクセス可能な情報処理装置のプロセッサに実行させる情報処理プログラムであって、
前記情報処理装置は、自然言語データの文を含むコーパスデータを記憶し、
前記プロセッサに、
前記計算機から前記語彙データを取得する第1取得処理と、
前記第1取得処理によって取得された語彙データのうち、前記コーパスデータに含まれる自然言語データの文にも含まれている語を選択して、前記第1語に設定する第1設定処理と、
前記第1設定処理によって設定された前記第1語を含む自然言語データの文をクエリ由来文として前記コーパスデータから選択する選択処理と、
前記選択処理によって選択されたクエリ由来文から前記第1語以外の他の語を選択して、前記他の語を前記第2語が挿入可能な入替対象語に設定する第2設定処理と、
前記第2設定処理によって前記他の語が前記入替対象語に設定され、かつ、前記第1語がマスクされた前記クエリ由来文を、前記クエリとして生成する第1生成処理と、
を実行させることを特徴とする情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報を処理する情報処理装置、情報処理方法、および情報処理プログラムに関する。
【背景技術】
【0002】
自然言語で記述され音声やテキストのような形式で格納された大量の文章または文のデータ(「自然言語データ」という)を分析する機械学習モデルの汎用性は高い。たとえば、広範に集められた自然言語データから作成された大規模な分析モデルをユーザの目的に応じ特定ドメインから収集された比較的少量の自然言語データに適応させることで、特定ドメインでの自然言語データの高精度な分析モデルが、比較的少量のデータから作成可能である。
【0003】
他方、このように広範に集められた自然言語データから作成された大規模な分析モデルにおいて、自然言語データを電子的に処理可能な数値などに置き換えるための語彙データも汎用的に作成されている。語彙データには、ユーザが作成する分析モデルが適用される特定ドメインでは用いられない語が登録されている場合がある。用いられない語が語彙データに登録されていると、データ容量が余剰になるほか、誤認識の原因となるなど分析結果に悪影響を及ぼす。
【0004】
特許文献1には、語彙テーブルの選択方法、装置およびコンピュータ読み取り可能な記憶媒体が開示されている。特許文献1に開示された語彙テーブルの選択方法は、第1語彙テーブルによって予備トレーニングモデルをトレーニングし、かつトレーニング過程においてモデルパラメータ及び語彙重みを更新し、さらに、トレーニング終了後、得たターゲット語彙の語彙重みを利用して第1語彙テーブル中の語彙を選別してターゲットニューラルネットワークモデルをトレーニングするための第2語彙テーブルを得る。当該第2語彙テーブルにより高価値の語彙が含まれるので、第2語彙テーブルによってターゲットニューラルネットワークモデルをトレーニングする時、モデルのトレーニング効率を向上かつトレーニング時間を減少でき、かつトレーニングし得たモデルの正確性を上げる。
【先行技術文献】
【特許文献】
【0005】
【発明の概要】
【発明が解決しようとする課題】
【0006】
特許文献1に開示された技術では、第1語彙テーブルに含まれかつ予備トレーニングモデルをトレーニングする際に用いる自然言語データに含まれない語彙の重みが更新されない。したがって、当該語彙が第2語彙テーブル作成時に選別されない確率が高くなる。特に、特定ドメインでの分析モデルを少量の自然言語データから作成する際、当該ドメインでしばしば用いられるがユーザの収集した自然言語データに用いられない語があるときに問題となる。
【0007】
本開示のひとつの目的は、語彙データから不要語を適切に推定可能にすることである。
【課題を解決するための手段】
【0008】
本願において開示される発明の一側面となる情報処理装置は、プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する情報処理装置であって、複数の語を含む語彙データを記憶し、かつ、文字列を構成するクエリが入力されると前記クエリ内のマスクされた第1語についての推論に前記語彙データおよび前記クエリに含まれる第2語がどの程度寄与するかを推定する計算機にアクセス可能であり、前記記憶デバイスは、自然言語データの文を含むコーパスデータを記憶し、前記プロセッサは、前記計算機から前記語彙データを取得する第1取得処理と、前記第1取得処理によって取得された語彙データのうち、前記コーパスデータに含まれる自然言語データの文にも含まれている語を選択して、前記第1語に設定する第1設定処理と、前記第1設定処理によって設定された前記第1語を含む自然言語データの文をクエリ由来文として前記コーパスデータから選択する選択処理と、前記選択処理によって選択されたクエリ由来文から前記第1語以外の他の語を選択して、前記他の語を前記第2語が挿入可能な入替対象語に設定する第2設定処理と、前記第2設定処理によって前記他の語が前記入替対象語に設定され、かつ、前記第1語がマスクされた前記クエリ由来文を、前記クエリとして生成する第1生成処理と、を実行することを特徴とする。
【発明の効果】
【0009】
本発明の代表的な実施の形態によれば、語彙データから不要語を適切に推定可能にすることができる。前述した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。
【図面の簡単な説明】
【0010】
【
図2】
図2は、実施例1の自然言語分析システムのブロック図である。
【
図3】
図3は、計算機のハードウェア構成例を示すブロック図である。
【
図4】
図4は、語彙データの一例を示す説明図である。
【
図5】
図5は、実施例1にかかるクエリ生成部によるクエリ生成処理手順例を示すフローチャートである。
【
図6A】
図6Aは、実施例1にかかるクエリ表示画面の一例を示す説明図である。
【
図6B】
図6Bは、実施例1にかかるクエリ表示画面の他の例を示す説明図である。
【
図7】
図7は、実施例2の自然言語分析システムのブロック図である。
【
図8】
図8は、取得部による認識結果の取得処理手順例を示すフローチャートである。
【
図9】
図9は、取得部による取得条件の設定画面の一例を示す説明図である。
【
図10】
図10は、実施例2にかかる取得データの一例を示す説明図である。
【
図11A】
図11Aは、実施例2にかかるクエリ表示画面の一例を示す説明図である。
【
図11B】
図11Bは、実施例2にかかるクエリ表示画面の他の例を示す説明図である。
【
図12】
図12は、実施例3の自然言語分析システムのブロック図である。
【
図13】
図13は、実施例3にかかるクエリ生成部によるクエリ生成処理手順例を示すフローチャートである。
【
図14】
図14は、実施例3にかかる取得データの一例を示す説明図である。
【
図15A】
図15Aは、実施例3にかかるクエリ表示画面の一例を示す説明図である。
【
図15B】
図15Bは、実施例3にかかるクエリ表示画面の他の例を示す説明図である。
【発明を実施するための形態】
【実施例1】
【0011】
ユーザは、自身が保有する特定ドメインのコーパスデータと一般に公開されている巨大NLPモデルが有する語彙データとをダウンロードして、語彙データを軽量化して学習効率を高めたいと考えている。ただし、語彙データには特定ドメインには不要な語も混在するため、ユーザは語彙データ内の語を削除したい。コーパスデータ内の語の出現頻度に基づいてユーザにとっての不要語を語彙データから削除すると、必要な語も削除してしまい、未知語処理(コーパスデータに存在しない語の形態素解析)が発生してしまう。実施例1では、このような未知語処理の発生を抑制し、かつ、学習効率を向上させるためのクエリを作成する例を示す。
【0012】
<クエリ作成例>
図1は、クエリ作成例を示す説明図である。
図1は、語彙データ150を有する巨大NLP(Natural Language Processing)モデル140に入力するためのクエリ120を作成する例を示す。巨大NLPモデル140は、膨大な量の多種多様な語を含む語彙データ150を用いて、形態素解析、構文解析、意味解析および文脈解析を実行する。巨大NLPモデル140は、クエリ120が入力されると、語彙データ150からコーパスデータ100のユーザにとって不要な語を推定する。
【0013】
コーパスデータ100は、ユーザの目的に応じて特定ドメインから収集される自然言語データである。特定ドメインとは、ユーザが自然言語データを使用する分野である。たとえば、特定ドメインが医療分野であれば、コーパスデータ100は、医学用語を含む自然言語データとなる。コーパスデータ100における自然言語データのデータ量は、巨大NLPモデル140に入力される自然言語データ(すなわち、語彙データ150の生成元)のデータ量よりも少ない。コーパスデータ100は、たとえば、音声またはテキストのデータ形式で格納されている。
【0014】
クエリ由来文110は、クエリ120の作成元となる自然言語データであり、コーパスデータ100から選択される。
図1では、『煙草は、本来、日本になかった植物である。』がクエリ由来文110として選択されている。ここで、クエリ由来文110に含まれている語のうち「煙草」(語111)は、
図1下方の語彙データ150とコーパスデータ100との関係
図160に示すように、コーパスデータ100に含まれているが、語彙データ150には含まれていない語Cとする。「植物」(語112)は、関係
図160に示すように、語彙データ150およびコーパスデータ100の両方に含まれる共通語Bとする。
【0015】
クエリ120は、クエリ由来文110から作成される。クエリ120では、語Bがマスクされ、MASK122に置換される。また、語彙データ150から「一塁」、「滝沢」、「手当て」、…といった語121が語彙データ150から選択されて、語Cに替えて挿入される。語121は、関係
図160に示すように、語彙データ150には含まれるが、コーパスデータ100には含まれない語Aとする。
【0016】
このように作成されたクエリ120が巨大NLPモデル140に入力されると、巨大NLPモデル140は、MASK122で置換された共通語Bについての推論に語Aがどの程度寄与するか測定する。測定結果である寄与度がしきい値以下であれば、巨大NLPモデル140は、語Aがユーザにとっての不要語であると推定する。
【0017】
このように、コーパスデータ100内の共通語Bおよび語Cの出現頻度に基づいてユーザにとっての不要語を語彙データ150から推定するのではなく、コーパスデータ100外の語彙データ150に含まれている、すなわち、巨大NLPモデル140が既になんらかの情報を学習している、ということを考慮して、巨大NLPモデル140から情報を抽出することにより、ユーザにとっての不要語を語彙データ150から推定することができる。
【0018】
<自然言語分析システム>
図2は、実施例1の自然言語分析システムのブロック図である。自然言語分析システム200は、計算機201-1、201-2および端末202を有する。計算機201-1、201-2および端末202はネットワーク203に接続されている。ネットワーク203は有線または無線の回線によりデータの送受信を可能にする。
【0019】
計算機201-1は、自然言語データを入力とし分析結果を出力する計算機である。計算機201-2は、語彙データ150から不要語を推定するクエリ120を生成する情報処理装置である。以下、計算機201-1と計算機201-2を区別する必要がないときには計算機201と総称する場合がある。端末202は、ユーザが操作する計算機である。
【0020】
図3は、計算機のハードウェア構成例を示すブロック図である。計算機300(計算機201および端末202)は、プロセッサ301と、記憶デバイス302と、入力デバイス303と、出力デバイス304と、通信インターフェース(通信IF)305と、を有する。プロセッサ301、記憶デバイス302、入力デバイス303、出力デバイス304、および通信IF305は、バス306により接続される。プロセッサ301は、計算機300を制御する。記憶デバイス302は、プロセッサ301の作業エリアとなる。また、記憶デバイス302は、各種プログラムやデータを記憶する非一時的なまたは一時的な記録媒体である。記憶デバイス302としては、たとえば、ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)、フラッシュメモリがある。入力デバイス303は、データを入力する。入力デバイス303としては、たとえば、キーボード、マウス、タッチパネル、テンキー、スキャナ、マイクがある。出力デバイス304は、データを出力する。出力デバイス304としては、たとえば、ディスプレイ、プリンタ、スピーカがある。通信IF305は、ネットワーク203と接続し、データを送受信する。
【0021】
図2に戻り、計算機201-1は、データ解析部210を有する。データ解析部210は、
図1の巨大NLPモデル140であり、具体的には、たとえば、
図2に示した記憶デバイス302に記憶された語彙データ150を用いて、記憶デバイス302に記憶されたプログラムをプロセッサ301に実行させることにより実現される。
【0022】
データ解析部210は、語彙データ150と、形態素解析部211と、情報分析部212と、を有する。語彙データ150は、データ解析部210に入力された自然言語データをソフトウェアプログラムが扱えるように数値へ変換するための対応表データである。
【0023】
図4は、語彙データ150の一例を示す説明図である。自然言語データを構成する単位要素である語402に対し、個別識別番号である語ID401が付されている。
【0024】
語402は、必ずしも自然言語データに含まれている必要はなく、データ解析部210の解析に際して付される特殊記号であってもよい。また、データ解析部210が音声を入力データとする形態の場合には、語402は、音声に対応する波形パターンである。
【0025】
図2に戻り、形態素解析部211は、データ解析部210に入力された自然言語データを解析し、語彙データ150の語402の単位要素へと分離する。またこの際、データ解析部210は、入力された自然言語データに対し、データ解析部210の解析に役する特殊記号を付し、活用された動詞を原形へと変形し、同義語へと置換するなど、自然言語処理の分野で一般に行われる前処理を、形態素解析部211による形態素解析の実行前もしくは実行後に実行してもよい。
【0026】
また、データ解析部210が音声を入力データとする形態の場合には、データ解析部210は、ノイズ除去や音声認識によるテキスト変換などの音声認識の分野で一般に行われる前処理を、形態素解析部211による形態素解析の実行前もしくは実行後に実行してもよい。
【0027】
形態素解析部211は、データ解析部210に入力された自然言語データを形態素解析により分離し、語彙データ150を参照して、語ID401や属性値403などの電子的に処理するための数値やその列へと変換する。形態素解析部211は、語ID401や属性値403を情報分析部212に送信する。
【0028】
なお、形態素解析部211によって分離された単位である語402は、意味を有する単語やそれらを連結した単位であってもよいし、外部データ中の出現頻度から機械的に作成されたそれぞれに意味を持たない単位であってもよい。
【0029】
情報分析部212は、データ解析部210に入力された自然言語データが変換された語ID401や属性値403を入力とし、その分析結果を出力する。具体的には、たとえば、データ解析部210に自然言語データのトピック分類を実行する機能があれば、情報分析部212は、当該分類結果を出力することができる。また、データ解析部210に音声を認識し他ソフトウェアへの動作命令を出力する機能があれば、情報分析部212は、当該動作命令を出力することができる。
【0030】
計算機201-2は、コーパスデータ100と、クエリ生成部221と、出力情報生成部222と、を有する。コーパスデータ100は、記憶デバイス302に記憶されている。クエリ生成部221および出力情報生成部222は、具体的には、たとえば、記憶デバイス302に記憶されたプログラムをプロセッサ301に実行させることにより実現される。
【0031】
<クエリ生成処理>
図5は、実施例1にかかるクエリ生成部221によるクエリ生成処理手順例を示すフローチャートである。クエリ生成部221は、語彙データ150およびコーパスデータ100を取得する(ステップS501)。つぎに、クエリ生成部221は、語彙データ150中の語402のうち、コーパスデータ100の自然言語データにも含まれる語402から、1または複数の語402を選択し、共通語Bに設定する(ステップS502)。
【0032】
つぎに、クエリ生成部221は、ステップS502において選択された共通語Bを含む1または複数の文をコーパスデータ100から選択し、クエリ由来文110に設定する(ステップS503)。クエリ生成部221は、たとえば、文の長さや、共通語Bのコーパスデータ100内での出現頻度を基準にクエリ由来文110を選択することができる。クエリ生成部221は、具体的には、たとえば、所定文字数以上の文や出現頻度が所定頻度以上の共通語Bを含む文をクエリ由来文110として選択する。
【0033】
つぎに、クエリ生成部221は、ステップS503において選択されたクエリ由来文110が含む語のうち、共通語Bを除いて1または複数の語C(
図1の例では「煙草」)を選択し、入替対象語611に設定する(ステップS504)。
【0034】
また、クエリ生成部221は、クエリ由来文110を加工し、データ解析部210がクエリ由来文110に含まれる共通語Bに関する認識を試行するクエリ120を作成する(ステップS505)。
【0035】
ここで加工とは、たとえば、データ解析部210に、一部の語がマスクされた自然言語データを入力としそのマスクされた語としての尤度が高い語402を抽出する機能があれば、当該クエリ由来文110の当該共通語Bをマスクすることで、共通語Bに関する認識を試行するクエリ120を作成する。
【0036】
また、データ解析部210に、音声を認識し他ソフトウェアへの動作命令を出力する機能があれば、クエリ生成部221は、当該クエリ由来文110の音声において共通語Bの波形パターンにノイズを付加することで、共通語Bに関する認識を試行するクエリ120を作成する。なお、クエリ生成部221は、加工対象となる共通語Bを指定するだけで、加工対象に指定された共通語Bの加工については、データ解析部210が実行してもよい。
【0037】
クエリ生成部221は、ステップS505において作成されたクエリ120を出力情報生成部222に送信して処理を終了する(ステップS506)。また、クエリ生成部221は、クエリ120を記憶デバイス302に格納し、ユーザからの命令によって端末202に送信してもよい。
【0038】
<クエリ表示画面例>
図6Aは、実施例1にかかるクエリ表示画面の一例を示す説明図である。クエリ表示画面600Aは、出力情報生成部222が作成した情報により端末202に表示される。クエリ表示画面600Aは、クエリ表示欄601とクエリ由来文表示欄602とを有する。クエリ表示欄601は、クエリ生成部221から受信したクエリ120を表示する。クエリ120内のMASK122は、ステップS505によりクエリ由来文110の共通語Bから置換されたデータである。
【0039】
また、ステップS504で語Cとして選択されたクエリ120内の「煙草」を示す語111は、入替対象語611に置換されている。入替対象語611は、語彙データ150内の語Aを挿入可能であることを示す。なお、クエリ生成部221は、入替対象となる語Cを指定するだけで、入替対象に指定された語Cの入替対象語611への置換については、データ解析部210が実行してもよい。
【0040】
クエリ由来文表示欄602は、当該クエリ120をクエリ生成部221で作成する際に加工対象となったクエリ由来文110を表示する。ユーザは、クエリ120とクエリ由来文110とを比較することで、どの語がMASK122に置換され、どの語が入替対象語611に置換されたかを視認することができる。
【0041】
図6Bは、実施例1にかかるクエリ表示画面の他の例を示す説明図である。クエリ表示画面600Bも、出力情報生成部222が作成した情報により端末202に表示される。クエリ表示画面600Bは、クエリ生成部221から受信したクエリ120をコマンドライン上に表示する。また、当該クエリ120をクエリ生成部221で作成する際に加工対象となったクエリ由来文110をコマンドライン上に表示する。
【0042】
なお、クエリ120およびクエリ由来文110が音声データである場合、クエリ生成部221は、音声認識によりテキストデータに変換して、端末202において
図6Aまたは
図6Bのように表示してもよく、
図6Aのクエリ表示画面600Aにおいてクエリ120およびクエリ由来文110の各々を再生可能なアイコンを表示してもよい。
【0043】
端末202は、ユーザの操作により、語彙データ150を表示する。ユーザは、入力デバイス303を操作して、語彙データ150中の語402を、クエリ表示欄601に表示されたクエリ120における入替対象語611に挿入する。端末202は、入替対象語611に語402が挿入されたクエリ120をデータ解析部210に送信する。これにより、データ解析部210は、クエリ120内における共通語Bに関する認識を試行する。
【0044】
具体的には、たとえば、データ解析部210は、MASK122で置換された共通語Bについての推論に語Aがどの程度寄与するかを、MASK122で置換された共通語Bを推定するMASKED LANGUAGE MODELを用いて測定する。測定結果である寄与度がしきい値以下であれば、データ解析部210は、語Aがユーザにとっての不要語であると推定し、その語Aを語彙データ150から削除する。
【0045】
ユーザの目的に応じコーパスデータ100が収集された特定ドメインにおいて用いられるが、コーパスデータ100に用いられない語がある場合でも、当該特定ドメインで使用される語である当該クエリ120内の当該共通語Bに関する認識に影響を及ぼしうるかという観点により、データ解析部210は、語彙データ150から不要語を適切に推定することができる。
【0046】
また、データ解析部210は、当該共通語Bに係る認識処理として、いわゆる説明可能AI(eXplainable AI)を用いて、MASK122で置換された共通語Bについての推論に語Aがどの程度寄与するか測定することもできる。
【0047】
このように、実施例1によれば、コーパスデータ100におけるユーザにとっての不要語を語彙データ150から適切に特定可能なクエリ120をユーザに提示することができる。したがって、ユーザは、語Aがクエリ120の文脈において不要語候補であることを把握することができる。
【実施例2】
【0048】
実施例2では、実施例1で作成したクエリ120に語彙データ150中の語Aを挿入してデータ解析部210に入力した結果、データ解析部210からの出力データに基づき語彙データ150中の語Aの削除の可否を定めるのに有用な情報を提供する例を示す。なお、実施例2では、実施例1との相違点を中心に説明するため、実施例1と同一構成には同一符号を付し、その説明を省略する。
【0049】
図7は、実施例2の自然言語分析システム700のブロック図である。実施例2では、計算機201-2は、コーパスデータ100、クエリ生成部221および出力情報生成部222に加え、取得部721および取得データ722を備える。
【0050】
図8は、取得部721による認識結果の取得処理手順例を示すフローチャートである。取得部721は、クエリ生成部221が作成したクエリ120を取得する(ステップS801)。また、取得部721は、語彙データ150およびコーパスデータ100を取得する(ステップS802)。
【0051】
つぎに、取得部721は、語彙データ150の語402のうち、コーパスデータ100に含まれない語Aを取得して不要語候補とし、不要語候補Aからなる不要語候補群を作成する(ステップS803)。なお、取得部721は、語402のうち、コーパスデータ100に含まれない語Aのすべてを不要語候補としてもよく、予め定められた値や、後述する設定画面900から入力された値などを元に適当な割合をサンプリングして不要語候補としてもよい。
【0052】
つぎに、取得部721はステップS803によって作成した不要語候補群から選択した不要語候補Aを更新しながら、ステップS805およびS806の処理を繰り返す(ステップS804)。
【0053】
具体的には、たとえば、取得部721は、クエリ生成部221に、クエリ120の入替対象語611に語A(
図1では例として「一塁」)を挿入させ、クエリ生成部221が作成した代入クエリ120を取得する(ステップS850)。
【0054】
つぎに、取得部721は、代入クエリ120をデータ解析部210に入力し、データ解析部210が出力する代入クエリ120内の共通語Bに関する認識結果(たとえば、寄与度)を受信し、取得データ722に格納する。
【0055】
取得部721は、不要語候補Aを更新し終えたら、ステップS806にて作成した取得データ722を出力情報生成部222に送信して処理を終了する。
【0056】
図9は、取得部721による取得条件の設定画面の一例を示す説明図である。設定画面900は端末202に表示され、取得条件設定に関するユーザからの入力を受け付ける。クエリ生成部221や取得部721は、当該取得条件設定に基づき処理を実行する。
【0057】
設定画面900は、クエリタスク選択欄910、メトリクス選択欄920、不要語候補群設定欄930およびクエリ数設定欄940の一部またはすべてを含む。
【0058】
クエリタスク選択欄910は、クエリ由来文110を加工しクエリを作成する際の加工手法を明に選択するための2つのラジオボタン911,912を有する。ラジオボタン911は、Masked Language Modelによる加工を選択するためのボタンである。ラジオボタン912は、音声認識による加工を選択するためのボタンである。
【0059】
ラジオボタン911が選択された場合、クエリ生成部221は、コーパスデータ100内のテキストデータからクエリ120を生成し、クエリ120内の共通語B(
図1および
図6Aでは「植物」)をMASK122に置換する。
【0060】
ラジオボタン912が選択された場合、クエリ生成部221は、コーパスデータ100内の音声データからクエリ120を生成し、クエリ120内の共通語B(
図1および
図6Aでは「植物」)の音声パターンにノイズを付加する。
【0061】
メトリクス選択欄920は、取得部721がステップS806にて不要語候補Aごとに、代入クエリ120内の共通語Bに関する認識結果を取得する際の、取得基準の設定を受け付けるチェックボックス921~924を有する。黒塗りは、そのチェックボックスが選択されたことを示す。
【0062】
チェックボックス921は、不要語候補Aに対するマスクされた共通語Bの尤もらしさを示す尤度の取得を選択するチェックボックスである。チェックボックス921により尤度が選択されると、取得部721は、データ解析部210から、データ解析部210が算出した共通語Bの尤度をメトリクス値として不要語候補Aごとに取得する。
【0063】
チェックボックス922は、クエリ120が音声データである場合に、クエリ120のノイズ頑健性の測定を選択するチェックボックスである。チェックボックス922によりノイズ頑健性の測定が選択されると、取得部721は、クエリ生成部221に代入クエリ120の共通語Bの音声パターンへのノイズ付加を指示する。そして、クエリ生成部221は、共通語Bが音声認識できる限界まで共通語Bの音声パターンにノイズを付加する。取得部721は、クエリ生成部221から、共通語Bの音声パターンに付加したノイズの強度をメトリクス値として取得する。
【0064】
チェックボックス923は、不要語候補Aとマスクされた共通語Bとのアテンションの取得を選択するチェックボックスである。チェックボックス923によりアテンションが選択されると、取得部721は、データ解析部210から、データ解析部210が算出したアテンションを不要語候補Aごとに取得する。アテンションは、不要語候補Aと共通語Bとの関連度であり、0以上1以下の値をとる。アテンションの値が大きいほど不要語候補Aと共通語Bとの関連度が高いことを示す。
【0065】
また、プルダウン925により、アテンションとして適切な範囲を指定することが可能である。これにより、当該範囲を逸脱するアテンションとなる不要語候補Aを取得対象から除外する例外処理の設定が可能になる。
【0066】
チェックボックス924は、説明可能AI(XAI)を用いて、MASK122で置換された共通語Bについての推論に不要語候補Aがどの程度寄与するかを示すXAI寄与度の取得を選択するチェックボックスである。チェックボックス924によりXAI寄与度が選択されると、取得部721は、データ解析部210から、データ解析部210が算出した不要語候補AのXAI寄与度をメトリクス値として取得する。XAI寄与度が大きいほど、不要語候補Aが、MASK122で置換された共通語Bについての推論に寄与する度合いが高いことを示す。
【0067】
また、プルダウン926により、XAI寄与度として適切な範囲を指定することが可能である。これにより、当該範囲を逸脱するXAI寄与度となる不要語候補Aを取得対象から除外する例外処理の設定が可能になる。
【0068】
不要語候補群設定欄930は、取得部721がステップS803にて不要語候補群を作成する際の設定を受け付けるラジオボタン931~933を有する。ラジオボタン931は、語彙データ150のうち、コーパスデータ100に含まれない語Aの全数を不要語候補群に設定するためのチェックボックスである。
【0069】
ラジオボタン932は、ラジオボタン931は、語彙データ150のうち、コーパスデータ100に含まれない語Aを任意の割合で不要語候補群に設定するためのチェックボックスである。
【0070】
ラジオボタン933は、ユーザ辞書から不要語候補Aを選択するためのチェックボックスである。ユーザ辞書は、コーパスデータ100とは異なるユーザ独自の単語の辞書である。ユーザ辞書から選択された不要語候補Aは、ユーザ操作により、データ解析部210にアップロードされる。
【0071】
クエリ数設定欄940は、クエリ生成部221がクエリ120を作成し、取得部721が不要語候補Aごとに代入クエリ120内の共通語Bに関する認識結果を取得するという処理を繰り返し回数の設定を受け付けるラジオボタン941、942を有する。
【0072】
ラジオボタン941は、ユーザが任意に入力可能な繰り返し回数を選択するためのラジオボタンである。ラジオボタン942は、ユーザが任意に入力可能な要求不要語数を選択するためのラジオボタンである。要求不要語数とは、不要語として特定すべき語の数である。これにより、クエリ生成部221は、一定の基準を満たす不要語の数が要求不要語数となるまで、共通語Bまたはクエリ由来文110を変更しながらクエリ120を作成する。
【0073】
ユーザは、クエリタスク選択欄910、メトリクス選択欄920、不要語候補群設定欄930およびクエリ数設定欄940での設定を行い、保存ボタン950を押下することにより、クエリタスク選択欄910、メトリクス選択欄920、不要語候補群設定欄930およびクエリ数設定欄940での選択条件がクエリ生成部221または取得部721による処理に適用される。
【0074】
また、
図9の設定画面900内に示したGUI(Graphical User Interface)は例示であり、これらに限定されることはない。また、ユーザはすべての設定項目について設定をする必要は必ずしもなく、適当な方法で自動的に設定が定められることを妨げない。
【0075】
図10は、実施例2にかかる取得データ722の一例を示す説明図である。取得部721は、不要語候補Aごとに代入クエリ120内の共通語Bに関する認識結果をデータ解析部210から取得し、メトリクス値として取得データ722に格納する。取得データ722は、フィールドとして、不要語候補ID1001と、不要語候補1002と、メトリクス値1003(尤度1031、ノイズレベル1032、アテンション1033、XAI寄与度1034)と、を有する。
【0076】
不要語候補ID1001は、値として、不要語候補Aを一意に特定する識別情報を有する。不要語候補ID1001の値に、語ID401の値を用いてもよい。不要語候補1002は、値として、上述した不要語候補Aを有する。
【0077】
尤度1031は、メトリクス値1003として、メトリクス選択欄920でチェックボックス921が選択された場合にデータ解析部210から取得される尤度を不要語候補Aごとに有する。ノイズレベル1032は、メトリクス値1003として、メトリクス選択欄920でチェックボックス922が選択された場合にデータ解析部210から取得される共通語Bをマスクしたノイズのノイズレベルを不要語候補Aごとに有する。
【0078】
アテンション1033は、メトリクス値1003として、メトリクス選択欄920でチェックボックス923が選択された場合にデータ解析部210から取得されるアテンションを不要語候補Aごとに有する。XAI寄与度1034は、メトリクス値1003として、メトリクス選択欄920でチェックボックス924が選択された場合にデータ解析部210から取得されるXAI寄与度を不要語候補1002(A)ごとに有する。
【0079】
また、取得部721は、尤度1031とノイズレベル1032とアテンション1033とXAI寄与度1034とを正規化し、正規化した尤度1031とノイズレベル1032とアテンション1033とXAI寄与度1034との統計値(たとえば、合計値、平均値、中央値、最大値または最小値)を不要語候補1002(A)ごとに算出して、取得データ722に格納してもよい。
【0080】
図11Aは、実施例2にかかるクエリ表示画面の一例を示す説明図である。クエリ表示画面1100Aは、クエリ表示欄601およびクエリ由来文表示欄602に加え、不要語候補表示欄1103および一括削除ボタン1104を有する。
【0081】
不要語候補表示欄1103には、取得データ722の不要語候補1002(A)が表示される。端末202は、取得データ722のすべてを表示してもよいし、取得データ722のメトリクス値1003またはそれらから算出される統計値を用いてソートした結果の一部を表示してもよい。またその場合、端末202は、メトリクス値1003を表示しなくてもよい。また、端末202は、不要語候補表示欄1103には、表示された不要語候補1002(A)の総数や、メトリクス値1003またはそれらから算出される統計値を表示してもよい。
【0082】
ユーザが一括削除ボタン1104を押下すると、出力情報生成部222は、不要語候補表示欄1103に表示された不要語候補1002(A)を語彙データ150から一括で削除する。
【0083】
図11Bは、実施例2にかかるクエリ表示画面の他の例を示す説明図である。クエリ表示画面1100Bでは、クエリ120またはクエリ由来文110に加え、不要語候補1002(A)が、コマンドライン上に表示される。出力情報生成部222は、当該コマンドライン上で、表示された不要語候補1002(A)を語彙データ150から一括で削除するか否かについての命令を受け付けることができる。
【0084】
また、出力情報生成部222は、クエリ生成部221から受信したクエリ120、クエリ由来文110、または、取得データ722の一部もしくはすべてを、記憶デバイス302に格納し、ユーザからの命令によって端末202において表示可能な形式で端末202に送信してもよい。また、出力情報生成部222は、記憶デバイス302に格納された取得データ722内の不要語候補1002(A)を語彙データ150から一括で削除する命令を端末202から受け付けることもできる。なお、クエリ120が音声データの場合、出力情報生成部222は、入替対象語611に不要語候補1002(A)が挿入された代入クエリ120ごとに音声ファイルを生成してもよい。
【0085】
ユーザは、不要語候補表示欄1103に表示された情報を参照して、語彙データ150中の不要語候補1002(A)の削除の可否を決定する。これにより、ユーザの目的に応じコーパスデータ100が収集された特定ドメインにおいて用いられることがあるがコーパスデータ100に用いられない語がある場合でも、当該特定ドメインで使用される語であるクエリ120内の共通語Bの認識に影響を及ぼしうるかという観点から、データ解析部210は、より少ない工数で適切に不要語を推定することができる。
【実施例3】
【0086】
実施例3では、実施例1および実施例2において、さらに、語彙データ150中の語から不要語を特定し、ユーザの目的に応じコーパスデータ100が収集された特定ドメインにおいて頻出するなどデータ解析に有用な語で上書きする処理の可否を決定するための有用な情報を提供する例を示す。なお、実施例3では、実施例1および実施例2との相違点を中心に説明するため、実施例1および実施例2と同一構成には同一符号を付し、その説明を省略する。
【0087】
図12は、実施例3の自然言語分析システムのブロック図である。実施例3の自然言語分析システム1200では、計算機201-2は、コーパスデータ100、クエリ生成部221、出力情報生成部222、取得部721および取得データ722に加え、追加語リストデータ1210を有する。
【0088】
追加語リストデータ1210は、追加語とその追加語とを一意に特定する追加語IDの組をリスト化したデータである。追加語とは、たとえば、ユーザの目的に応じコーパスデータ100が収集された特定ドメインにおいて頻出したことにより、語彙データ150に含まれていればデータ解析部210のデータ解析に有用だと考えられる語である。ユーザが追加語リストデータ1210を直接作成してもよく、計算機201-2がコーパスデータ100または語彙データ150を参照し、所定出現頻度以上の頻出語を追加語として抽出してもよい。
【0089】
図13は、実施例3にかかるクエリ生成部221によるクエリ生成処理手順例を示すフローチャートである。クエリ生成部221は、語彙データ150、コーパスデータ100および追加語リストデータ1210を取得する(ステップS1301)。
【0090】
つぎに、クエリ生成部221は、クエリ120の作成に用いる1または複数の追加語を追加語リストデータ1210から選択し、クエリ追加語に設定する(ステップS1302)。
【0091】
つぎに、クエリ生成部221は、語彙データ150中の語402のうち、コーパスデータ100の自然言語データにも含まれる語から、1または複数の語を選択し、共通語Bに設定する(ステップS502)。
【0092】
つぎに、クエリ生成部221は、ステップS502によって選択された共通語BおよびステップS1302によって選択されたクエリ追加語のいずれをも含む1または複数の文をコーパスデータ100から選択し、クエリ由来文110に設定する。
【0093】
つぎに、クエリ生成部221は、ステップS1303によって選択されたクエリ由来文110内のクエリ追加語を選択し、入替対象語611に設定する(ステップS1304)。
【0094】
また、クエリ生成部221は、クエリ由来文110を加工し、データ解析部210がクエリ由来文110が含む共通語Bに関する認識を試行するクエリ120を作成する(ステップS505)。
【0095】
つぎに、クエリ生成部221は、ステップS505によって作成されたクエリ120を出力情報生成部222および取得部721に送信して処理を終了する(ステップS1306)。また、クエリ生成部221は、クエリ120を記憶デバイス302に格納し、ユーザからの命令によって端末202に送信してもよい。
【0096】
図14は、実施例3にかかる取得データ722の一例を示す説明図である。実施例3では、取得データ722は、フィールドとして、不要語候補ID1001、不要語候補1002、およびメトリクス値1003(尤度1031、ノイズレベル1032、アテンション1033、XAI寄与度1034)のほか、追加語ID1401および追加語1402を有する。
【0097】
取得部721は、
図8に示したように、不要語候補Aごとに代入クエリ120内の共通語Bに関する認識結果をデータ解析部210から取得し、当該代入クエリ120の作成時に不要語候補Aで入れ替えた入替対象語611がクエリ由来文110においていずれのクエリ追加語であったかを特定するために、追加語ID1401および追加語1402として取得データ722に格納する。
【0098】
図15Aは、実施例3にかかるクエリ表示画面の一例を示す説明図である。クエリ表示画面1500Aは、クエリ表示欄601およびクエリ由来文表示欄602に加え、上書き対象候補表示欄1501および一括上書きボタン1502を備えることができる。
【0099】
上書き対象候補表示欄1501には、取得データ722の不要語候補1002が上書き対象候補として表示される。また、上書き対象候補表示欄1501には、上書き対象候補となった不要語候補1002に対応する追加語1402が表示される。
【0100】
端末202は、取得データ722のすべてを表示してもよいし、取得データ722のメトリクス値1003またはそれらから算出される統計値を用いてソートした結果の一部を表示してもよい。またその場合、端末202は、メトリクス値1003を表示しなくてもよい。また、端末202は、不要語候補表示欄1103には、表示された不要語候補1002の総数や、メトリクス値1003またはそれらから算出される統計値を表示してもよい。
【0101】
ユーザが一括上書きボタン1502を押下すると、出力情報生成部222は、上書き対象候補表示欄1501に表示された不要語候補1002を、対応する語彙データ150内の追加語1402に一括で上書きする。
【0102】
図15Bは、実施例3にかかるクエリ表示画面の他の例を示す説明図である。実施例3でクエリ表示画面1500Bでは、クエリ120またはクエリ由来文110に加え、上書き対象候補である不要語候補1002と対応する追加語1402とがコマンドライン上に表示される。
【0103】
また、出力情報生成部222は、クエリ生成部221から受信したクエリ120、クエリ由来文110、または、取得データ722の一部もしくはすべてを、記憶デバイス302に格納し、ユーザからの命令によって端末202において表示可能な形式で端末202に送信してもよい。また、出力情報生成部222は、当該コマンドライン上で、記憶デバイス302に格納された取得データ722内の不要語候補1002から対応する語彙データ150内の追加語1402に一括で上書きする命令を端末202から受け付けることができる。なお、クエリ120が音声データの場合、出力情報生成部222は、入替対象語611に不要語候補1002が挿入された代入クエリ120ごとに音声ファイルを生成してもよい。
【0104】
追加語1402および不要語候補1002を合わせ、代入クエリ内の共通語Bに関する認識結果を取得し取得データ722に格納することで、ユーザは、上書き対象候補表示欄1501に表示された情報をもとに、語彙データ150内の語402において不要語候補1002を追加語1402で上書き処理した際の、代入クエリ内の共通語Bに関する認識結果に係る取得値を取得することができ、追加語1402ごとに当該取得値から当該上書き処理の可否に関する情報を得ることができる。
【0105】
ユーザは、上書き対象候補表示欄1501に表示された情報を参照して、語彙データ150中の不要語から追加語への上書きの可否を決定する。これにより、ユーザの目的に応じコーパスデータ100が収集された特定ドメインにおいて用いられることがあるがコーパスデータ100に用いられない語がある場合でも、語彙データ150に含まれていればデータ解析部210のデータ解析に有用だと考えられる追加語1402で上書きした際に当該特定ドメインで使用される語であるクエリ120内の共通語Bの認識に影響を及ぼしうるかという観点から、データ解析部210は、不要語を適切に推定することができる。
【0106】
また、上述した実施例1~実施例3にかかる情報処理装置は、下記(1)~(16)のように構成することもできる。
【0107】
(1)プログラムを実行するプロセッサ301と、前記プログラムを記憶する記憶デバイス302と、を有する情報処理装置(計算機201-2)は、音声またはテキストである複数の語を含む語彙データ150にアクセス可能であり、前記プロセッサ301は、音声またはテキストである自然言語データ(コーパスデータ100)と前記語彙データ150とに共通する共通語Bを含むクエリ由来文110を前記自然言語データ(コーパスデータ100)から選択する選択処理と、前記選択処理によって選択されたクエリ由来文110のうち、前記共通語Bを推論対象とし前記語彙データ150に含まれない特定の語Cを、前記語彙データ150内の語に入れ替え可能な入替対象語611に設定したクエリ120を生成する生成処理と、を実行する。
【0108】
(2)上記(1)の情報処理装置であって、前記生成処理では、前記プロセッサ301は、前記入替対象語611を前記語彙データ150内の語に入れ替えた代入クエリ120を生成する。
【0109】
(3)上記(1)の情報処理装置であって、前記プロセッサ301は、前記生成処理によって生成されたクエリ120を視認可能または再生可能に出力する第1出力処理を実行する。
【0110】
(4)上記(1)の情報処理装置であって、前記プロセッサ301は、前記生成処理によって生成されたクエリ120を、前記共通語Bに関する認識を試行する計算機201-1に出力する第2出力処理を実行する。
【0111】
(5)上記(4)の情報処理装置であって、前記プロセッサ301は、前記第2出力処理により前記クエリ120を前記計算機201-1に出力した結果、前記計算機201-1による認識結果を取得する取得処理を実行する。
【0112】
(6)上記(5)の情報処理装置であって、前記取得処理では、前記プロセッサ301は、前記認識結果に基づいて前記語彙データ150から不要語候補1002を取得する。
【0113】
(7)上記(6)の情報処理装置であって、前記生成処理では、前記プロセッサ301は、前記不要語候補1002が所定数に到達するまで、前記入替対象語611を前記語彙データ150内の異なる語Aに入れ替えて前記クエリ120を生成する。
【0114】
(8)上記(6)の情報処理装置であって、前記生成処理では、前記プロセッサ301は、前記不要語候補1002が所定数に到達するまで、異なるクエリ由来文110ごとに前記クエリ120を生成する。
【0115】
(9)上記(6)の情報処理装置であって、前記プロセッサ301は、前記取得処理によって取得された不要語候補1002を視認可能に出力する第3出力処理を実行する。
【0116】
(10)上記(1)の情報処理装置であって、前記語彙データ150に追加可能な1以上の追加語1402を含む追加語リストデータ1210にアクセス可能であり、前記選択処理では、前記プロセッサ301は、前記自然言語データ(コーパスデータ100)と前記語彙データ150とに共通する共通語Bと前記追加語1402とを含むクエリ由来文110を前記自然言語データ(コーパスデータ100)から選択し、前記生成処理では、前記プロセッサ301は、前記クエリ由来文110のうち、前記共通語Bを推論対象とし、前記追加語1402を、前記語彙データ150内の語Aに入れ替え可能な入替対象語611に設定したクエリ120を生成する。
【0117】
(11)上記(10)の情報処理装置であって、前記生成処理では、前記入替対象語611を前記語彙データ150内の語に入れ替えた代入クエリ120を生成する。
【0118】
(12)上記(10)の情報処理装置であって、前記プロセッサ301は、前記生成処理によって生成されたクエリ120を、前記共通語Bに関する認識を試行する計算機201-1に出力する第4出力処理を実行する。
【0119】
(13)上記(12)の情報処理装置であって、前記プロセッサ301は、前記第4出力処理により前記クエリ120を前記計算機に出力した結果、前記計算機201-1による認識結果を取得する取得処理を実行する。
【0120】
(14)上記(13)の情報処理装置であって、前記取得処理では、前記プロセッサ301は、前記認識結果に基づいて前記語彙データ150から不要語候補1002を取得する。
【0121】
(15)上記(14)の情報処理装置であって、前記プロセッサ301は、前記取得処理によって取得された不要語候補1002と前記追加語1402とを視認可能に出力する第6出力処理を実行する。
【0122】
(16)上記(15)の情報処理装置であって、前記第6出力処理では、前記プロセッサ301は、前記語彙データ150において前記不要語候補1002を前記追加語1402に上書き操作可能に出力する。
【0123】
なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。たとえば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加、削除、または置換をしてもよい。
【0124】
また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、たとえば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。
【0125】
各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、SSD(Solid State Drive)等の記憶装置、又は、IC(Integrated Circuit)カード、SDカード、DVD(Digital Versatile Disc)の記録媒体に格納することができる。
【0126】
また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要なすべての制御線や情報線を示しているとは限らない。実際には、ほとんどすべての構成が相互に接続されていると考えてよい。
【符号の説明】
【0127】
B 共通語
100 コーパスデータ
110 クエリ由来文
120 クエリ、代入クエリ
150 語彙データ
200、700、1200 自然言語分析システム
201 計算機
202 端末
210 データ解析部
211 形態素解析部
212 情報分析部
221 クエリ生成部
222 出力情報生成部
301 プロセッサ
302 記憶デバイス
611 入替対象語
721 取得部
1002 不要語候補
1210 追加語リストデータ
1402 追加語