IP Force 特許公報掲載プロジェクト 2022.1.31 β版

ホーム > 特許ランキング > 株式会社日立産業制御ソリューションズ

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 株式会社　日立産業制御ソリューションズの特許一覧

特開2022-138786情報処理装置、情報処理方法、および情報処理プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6A
6B
7
8
9
10
11A
11B
12
13
14
15A
15B

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022138786

(43)【公開日】2022-09-26

(54)【発明の名称】情報処理装置、情報処理方法、および情報処理プログラム

(51)【国際特許分類】

G06F 40/44 20200101AFI20220915BHJP

G06F 40/242 20200101ALI20220915BHJP

G06F 16/332 20190101ALI20220915BHJP

【ＦＩ】

G06F40/44

G06F40/242

G06F16/332

【審査請求】未請求

【請求項の数】18

【出願形態】ＯＬ

(21)【出願番号】P 2021038868

(22)【出願日】2021-03-11

(71)【出願人】

【識別番号】000153443

【氏名又は名称】株式会社日立産業制御ソリューションズ

(74)【代理人】

【識別番号】110001678

【氏名又は名称】藤央弁理士法人

(72)【発明者】

【氏名】浜直史

(72)【発明者】

【氏名】和久井一則

(72)【発明者】

【氏名】安井雅彦

【テーマコード（参考）】

5B091

5B175

【Ｆターム（参考）】

5B091EA01

5B175DA01

5B175FA01

(57)【要約】

【課題】語彙データ１５０から不要語を適切に推定可能にすること。
【解決手段】プログラムを実行するプロセッサ３０１と、前記プログラムを記憶する記憶デバイス３０２と、を有する情報処理装置は、音声またはテキストである複数の語を含む語彙データ１５０にアクセス可能であり、音声またはテキストである自然言語データと前記語彙データ１５０とに共通する共通語Ｂを含むクエリ由来文１１０を前記自然言語データから選択する選択処理と、前記選択処理によって選択されたクエリ由来文１１０のうち、前記共通語Ｂを推論対象とし前記語彙データ１５０に含まれない特定の語Ｃを、前記語彙データ１５０内の語に入れ替え可能な入替対象語６１１に設定したクエリを生成する生成処理と、を実行する。
【選択図】図１

【特許請求の範囲】

【請求項1】

プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する情報処理装置であって、
音声またはテキストである複数の語を含む語彙データにアクセス可能であり、
前記プロセッサは、
音声またはテキストである自然言語データと前記語彙データとに共通する共通語を含むクエリ由来文を前記自然言語データから選択する選択処理と、
前記選択処理によって選択されたクエリ由来文のうち、前記共通語を推論対象とし前記語彙データに含まれない特定の語を、前記語彙データ内の語に入れ替え可能な入替対象語に設定したクエリを生成する生成処理と、
を実行することを特徴とする情報処理装置。

【請求項2】

請求項１に記載の情報処理装置であって、
前記生成処理では、前記プロセッサは、前記入替対象語を前記語彙データ内の語に入れ替えたクエリを生成する、
ことを特徴とする情報処理装置。

【請求項3】

請求項１に記載の情報処理装置であって、
前記プロセッサは、
前記生成処理によって生成されたクエリを視認可能または再生可能に出力する第１出力処理を実行することを特徴とする情報処理装置。

【請求項4】

請求項１に記載の情報処理装置であって、
前記プロセッサは、
前記生成処理によって生成されたクエリを、前記共通語に関する認識を試行する計算機に出力する第２出力処理を実行することを特徴とする情報処理装置。

【請求項5】

請求項４に記載の情報処理装置であって、
前記プロセッサは、
前記第２出力処理により前記クエリを前記計算機に出力した結果、前記計算機による認識結果を取得する取得処理を実行することを特徴とする情報処理装置。

【請求項6】

請求項５に記載の情報処理装置であって、
前記取得処理では、前記プロセッサは、前記認識結果に基づいて前記語彙データから不要語候補を取得する、
ことを特徴とする情報処理装置。

【請求項7】

請求項６に記載の情報処理装置であって、
前記生成処理では、前記プロセッサは、前記不要語候補が所定数に到達するまで、前記入替対象語を前記語彙データ内の異なる語に入れ替えて前記クエリを生成する、
ことを特徴とする情報処理装置。

【請求項8】

請求項６に記載の情報処理装置であって、
前記生成処理では、前記プロセッサは、前記不要語候補が所定数に到達するまで、異なるクエリ由来文ごとに前記クエリを生成する、
ことを特徴とする情報処理装置。

【請求項9】

請求項６に記載の情報処理装置であって、
前記プロセッサは、
前記取得処理によって取得された不要語候補を視認可能に出力する第３出力処理を実行することを特徴とする情報処理装置。

【請求項10】

請求項１に記載の情報処理装置であって、
前記語彙データに追加可能な１以上の追加語を含む追加語リストデータにアクセス可能であり、
前記選択処理では、前記プロセッサは、前記自然言語データと前記語彙データとに共通する共通語と前記追加語とを含むクエリ由来文を前記自然言語データから選択し、
前記生成処理では、前記プロセッサは、前記クエリ由来文のうち、前記共通語を推論対象とし、前記追加語を、前記語彙データ内の語に入れ替え可能な入替対象語に設定したクエリを生成する、
ことを特徴とする情報処理装置。

【請求項11】

請求項１０に記載の情報処理装置であって、
前記生成処理では、前記プロセッサは、前記入替対象語を前記語彙データ内の語に入れ替えたクエリを生成する、
ことを特徴とする情報処理装置。

【請求項12】

請求項１０に記載の情報処理装置であって、
前記プロセッサは、
前記生成処理によって生成されたクエリを、前記共通語に関する認識を試行する計算機に出力する第４出力処理を実行することを特徴とする情報処理装置。

【請求項13】

請求項１２に記載の情報処理装置であって、
前記プロセッサは、
前記第４出力処理により前記クエリを前記計算機に出力した結果、前記計算機による認識結果を取得する取得処理を実行することを特徴とする情報処理装置。

【請求項14】

請求項１３に記載の情報処理装置であって、
前記取得処理では、前記プロセッサは、前記認識結果に基づいて前記語彙データから不要語候補を取得する、
ことを特徴とする情報処理装置。

【請求項15】

請求項１４に記載の情報処理装置であって、
前記プロセッサは、
前記取得処理によって取得された不要語候補と前記追加語とを視認可能に出力する第６出力処理を実行することを特徴とする情報処理装置。

【請求項16】

請求項１５に記載の情報処理装置であって、
前記第６出力処理では、前記プロセッサは、前記語彙データにおいて前記不要語候補を前記追加語に上書き操作可能に出力する、
ことを特徴とする情報処理装置。

【請求項17】

プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する情報処理装置が実行する情報処理方法であって、
前記情報処理装置は、音声またはテキストである複数の語を含む語彙データにアクセス可能であり、
前記プロセッサが、
音声またはテキストである自然言語データと前記語彙データとに共通する共通語を含むクエリ由来文を前記自然言語データから選択する選択処理と、
前記選択処理によって選択されたクエリ由来文のうち、前記共通語を推論対象とし前記語彙データに含まれない特定の語を、前記語彙データ内の語に入れ替え可能な入替対象語に設定したクエリを生成する生成処理と、
を実行することを特徴とする情報処理方法。

【請求項18】

音声またはテキストである複数の語を含む語彙データにアクセス可能なプロセッサに、
音声またはテキストである自然言語データと前記語彙データとに共通する共通語を含むクエリ由来文を前記自然言語データから選択する選択処理と、
前記選択処理によって選択されたクエリ由来文のうち、前記共通語を推論対象とし前記語彙データに含まれない特定の語を、前記語彙データ内の語に入れ替え可能な入替対象語に設定したクエリを生成する生成処理と、
を実行させるための情報処理プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、情報を処理する情報処理装置、情報処理方法、および情報処理プログラムに関する。

【背景技術】

【0002】

自然言語で記述され音声やテキストのような形式で格納された大量の文章または文のデータ（「自然言語データ」という）を分析する機械学習モデルの汎用性は高い。たとえば、広範に集められた自然言語データから作成された大規模な分析モデルをユーザの目的に応じ特定ドメインから収集された比較的少量の自然言語データに適応させることで、特定ドメインでの自然言語データの高精度な分析モデルが、比較的少量のデータから作成可能である。

【0003】

他方、このように広範に集められた自然言語データから作成された大規模な分析モデルにおいて、自然言語データを電子的に処理可能な数値などに置き換えるための語彙データも汎用的に作成されている。語彙データには、ユーザが作成する分析モデルが適用される特定ドメインでは用いられない語が登録されている場合がある。用いられない語が語彙データに登録されていると、データ容量が余剰になるほか、誤認識の原因となるなど分析結果に悪影響を及ぼす。

【0004】

特許文献１には、語彙テーブルの選択方法、装置およびコンピュータ読み取り可能な記憶媒体が開示されている。特許文献１に開示された語彙テーブルの選択方法は、第１語彙テーブルによって予備トレーニングモデルをトレーニングし、かつトレーニング過程においてモデルパラメータ及び語彙重みを更新し、さらに、トレーニング終了後、得たターゲット語彙の語彙重みを利用して第1語彙テーブル中の語彙を選別してターゲットニューラルネットワークモデルをトレーニングするための第２語彙テーブルを得る。当該第２語彙テーブルにより高価値の語彙が含まれるので、第２語彙テーブルによってターゲットニューラルネットワークモデルをトレーニングする時、モデルのトレーニング効率を向上かつトレーニング時間を減少でき、かつトレーニングし得たモデルの正確性を上げる。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】特開2020-008836号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

特許文献１に開示された技術では、第１語彙テーブルに含まれかつ予備トレーニングモデルをトレーニングする際に用いる自然言語データに含まれない語彙の重みが更新されない。したがって、当該語彙が第２語彙テーブル作成時に選別されない確率が高くなる。特に、特定ドメインでの分析モデルを少量の自然言語データから作成する際、当該ドメインでしばしば用いられるがユーザの収集した自然言語データに用いられない語があるときに問題となる。

【0007】

本開示のひとつの目的は、語彙データから不要語を適切に推定可能にすることである。

【課題を解決するための手段】

【0008】

本願において開示される発明の一側面となる情報処理装置は、プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する情報処理装置であって、音声またはテキストである複数の語を含む語彙データにアクセス可能であり、前記プロセッサは、音声またはテキストである自然言語データと前記語彙データとに共通する共通語を含むクエリ由来文を前記自然言語データから選択する選択処理と、前記選択処理によって選択されたクエリ由来文のうち、前記共通語を推論対象とし前記語彙データに含まれない特定の語を、前記語彙データ内の語に入れ替え可能な入替対象語に設定したクエリを生成する生成処理と、を実行することを特徴とする。

【発明の効果】

【0009】

本発明の代表的な実施の形態によれば、語彙データから不要語を適切に推定可能にすることができる。前述した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。

【図面の簡単な説明】

【0010】

【図1】図１は、クエリ作成例を示す説明図である。

【図2】図２は、実施例１の自然言語分析システムのブロック図である。

【図3】図３は、計算機のハードウェア構成例を示すブロック図である。

【図4】図４は、語彙データの一例を示す説明図である。

【図5】図５は、実施例１にかかるクエリ生成部によるクエリ生成処理手順例を示すフローチャートである。

【図6A】図６Ａは、実施例１にかかるクエリ表示画面の一例を示す説明図である。

【図6B】図６Ｂは、実施例１にかかるクエリ表示画面の他の例を示す説明図である。

【図7】図７は、実施例２の自然言語分析システムのブロック図である。

【図8】図８は、取得部による認識結果の取得処理手順例を示すフローチャートである。

【図9】図９は、取得部による取得条件の設定画面の一例を示す説明図である。

【図10】図１０は、実施例２にかかる取得データの一例を示す説明図である。

【図11A】図１１Ａは、実施例２にかかるクエリ表示画面の一例を示す説明図である。

【図11B】図１１Ｂは、実施例２にかかるクエリ表示画面の他の例を示す説明図である。

【図12】図１２は、実施例３の自然言語分析システムのブロック図である。

【図13】図１３は、実施例３にかかるクエリ生成部によるクエリ生成処理手順例を示すフローチャートである。

【図14】図１４は、実施例３にかかる取得データの一例を示す説明図である。

【図15A】図１５Ａは、実施例３にかかるクエリ表示画面の一例を示す説明図である。

【図15B】図１５Ｂは、実施例３にかかるクエリ表示画面の他の例を示す説明図である。

【発明を実施するための形態】

【実施例0011】

ユーザは、自身が保有する特定ドメインのコーパスデータと一般に公開されている巨大ＮＬＰモデルが有する語彙データとをダウンロードして、語彙データを軽量化して学習効率を高めたいと考えている。ただし、語彙データには特定ドメインには不要な語も混在するため、ユーザは語彙データ内の語を削除したい。コーパスデータ内の語の出現頻度に基づいてユーザにとっての不要語を語彙データから削除すると、必要な語も削除してしまい、未知語処理（コーパスデータに存在しない語の形態素解析）が発生してしまう。実施例１では、このような未知語処理の発生を抑制し、かつ、学習効率を向上させるためのクエリを作成する例を示す。

【0012】

＜クエリ作成例＞
図１は、クエリ作成例を示す説明図である。図１は、語彙データ１５０を有する巨大ＮＬＰ（ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ）モデル１４０に入力するためのクエリ１２０を作成する例を示す。巨大ＮＬＰモデル１４０は、膨大な量の多種多様な語を含む語彙データ１５０を用いて、形態素解析、構文解析、意味解析および文脈解析を実行する。巨大ＮＬＰモデル１４０は、クエリ１２０が入力されると、語彙データ１５０からコーパスデータ１００のユーザにとって不要な語を推定する。

【0013】

コーパスデータ１００は、ユーザの目的に応じて特定ドメインから収集される自然言語データである。特定ドメインとは、ユーザが自然言語データを使用する分野である。たとえば、特定ドメインが医療分野であれば、コーパスデータ１００は、医学用語を含む自然言語データとなる。コーパスデータ１００における自然言語データのデータ量は、巨大ＮＬＰモデル１４０に入力される自然言語データ（すなわち、語彙データ１５０の生成元）のデータ量よりも少ない。コーパスデータ１００は、たとえば、音声またはテキストのデータ形式で格納されている。

【0014】

クエリ由来文１１０は、クエリ１２０の作成元となる自然言語データであり、コーパスデータ１００から選択される。図１では、『煙草は、本来、日本になかった植物である。』がクエリ由来文１１０として選択されている。ここで、クエリ由来文１１０に含まれている語のうち「煙草」（語１１１）は、図１下方の語彙データ１５０とコーパスデータ１００との関係図１６０に示すように、コーパスデータ１００に含まれているが、語彙データ１５０には含まれていない語Ｃとする。「植物」（語１１２）は、関係図１６０に示すように、語彙データ１５０およびコーパスデータ１００の両方に含まれる共通語Ｂとする。

【0015】

クエリ１２０は、クエリ由来文１１０から作成される。クエリ１２０では、語Ｂがマスクされ、ＭＡＳＫ１２２に置換される。また、語彙データ１５０から「一塁」、「滝沢」、「手当て」、…といった語１２１が語彙データ１５０から選択されて、語Ｃに替えて挿入される。語１２１は、関係図１６０に示すように、語彙データ１５０には含まれるが、コーパスデータ１００には含まれない語Ａとする。

【0016】

このように作成されたクエリ１２０が巨大ＮＬＰモデル１４０に入力されると、巨大ＮＬＰモデル１４０は、ＭＡＳＫ１２２で置換された共通語Ｂについての推論に語Ａがどの程度寄与するか測定する。測定結果である寄与度がしきい値以下であれば、巨大ＮＬＰモデル１４０は、語Ａがユーザにとっての不要語であると推定する。

【0017】

このように、コーパスデータ１００内の共通語Ｂおよび語Ｃの出現頻度に基づいてユーザにとっての不要語を語彙データ１５０から推定するのではなく、コーパスデータ１００外の語彙データ１５０に含まれている、すなわち、巨大ＮＬＰモデル１４０が既になんらかの情報を学習している、ということを考慮して、巨大ＮＬＰモデル１４０から情報を抽出することにより、ユーザにとっての不要語を語彙データ１５０から推定することができる。

【0018】

＜自然言語分析システム＞
図２は、実施例１の自然言語分析システムのブロック図である。自然言語分析システム２００は、計算機２０１－１、２０１－２および端末２０２を有する。計算機２０１－１、２０１－２および端末２０２はネットワーク２０３に接続されている。ネットワーク２０３は有線または無線の回線によりデータの送受信を可能にする。

【0019】

計算機２０１－１は、自然言語データを入力とし分析結果を出力する計算機である。計算機２０１－２は、語彙データ１５０から不要語を推定するクエリ１２０を生成する情報処理装置である。以下、計算機２０１－１と計算機２０１－２を区別する必要がないときには計算機２０１と総称する場合がある。端末２０２は、ユーザが操作する計算機である。

【0020】

図３は、計算機のハードウェア構成例を示すブロック図である。計算機３００（計算機２０１および端末２０２）は、プロセッサ３０１と、記憶デバイス３０２と、入力デバイス３０３と、出力デバイス３０４と、通信インターフェース（通信ＩＦ）３０５と、を有する。プロセッサ３０１、記憶デバイス３０２、入力デバイス３０３、出力デバイス３０４、および通信ＩＦ３０５は、バス３０６により接続される。プロセッサ３０１は、計算機３００を制御する。記憶デバイス３０２は、プロセッサ３０１の作業エリアとなる。また、記憶デバイス３０２は、各種プログラムやデータを記憶する非一時的なまたは一時的な記録媒体である。記憶デバイス３０２としては、たとえば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、フラッシュメモリがある。入力デバイス３０３は、データを入力する。入力デバイス３０３としては、たとえば、キーボード、マウス、タッチパネル、テンキー、スキャナ、マイクがある。出力デバイス３０４は、データを出力する。出力デバイス３０４としては、たとえば、ディスプレイ、プリンタ、スピーカがある。通信ＩＦ３０５は、ネットワーク２０３と接続し、データを送受信する。

【0021】

図２に戻り、計算機２０１－１は、データ解析部２１０を有する。データ解析部２１０は、図１の巨大ＮＬＰモデル１４０であり、具体的には、たとえば、図２に示した記憶デバイス３０２に記憶された語彙データ１５０を用いて、記憶デバイス３０２に記憶されたプログラムをプロセッサ３０１に実行させることにより実現される。

【0022】

データ解析部２１０は、語彙データ１５０と、形態素解析部２１１と、情報分析部２１２と、を有する。語彙データ１５０は、データ解析部２１０に入力された自然言語データをソフトウェアプログラムが扱えるように数値へ変換するための対応表データである。

【0023】

図４は、語彙データ１５０の一例を示す説明図である。自然言語データを構成する単位要素である語４０２に対し、個別識別番号である語ＩＤ４０１が付されている。

【0024】

語４０２は、必ずしも自然言語データに含まれている必要はなく、データ解析部２１０の解析に際して付される特殊記号であってもよい。また、データ解析部２１０が音声を入力データとする形態の場合には、語４０２は、音声に対応する波形パターンである。

【0025】

図２に戻り、形態素解析部２１１は、データ解析部２１０に入力された自然言語データを解析し、語彙データ１５０の語４０２の単位要素へと分離する。またこの際、データ解析部２１０は、入力された自然言語データに対し、データ解析部２１０の解析に役する特殊記号を付し、活用された動詞を原形へと変形し、同義語へと置換するなど、自然言語処理の分野で一般に行われる前処理を、形態素解析部２１１による形態素解析の実行前もしくは実行後に実行してもよい。

【0026】

また、データ解析部２１０が音声を入力データとする形態の場合には、データ解析部２１０は、ノイズ除去や音声認識によるテキスト変換などの音声認識の分野で一般に行われる前処理を、形態素解析部２１１による形態素解析の実行前もしくは実行後に実行してもよい。

【0027】

形態素解析部２１１は、データ解析部２１０に入力された自然言語データを形態素解析により分離し、語彙データ１５０を参照して、語ＩＤ４０１や属性値４０３などの電子的に処理するための数値やその列へと変換する。形態素解析部２１１は、語ＩＤ４０１や属性値４０３を情報分析部２１２に送信する。

【0028】

なお、形態素解析部２１１によって分離された単位である語４０２は、意味を有する単語やそれらを連結した単位であってもよいし、外部データ中の出現頻度から機械的に作成されたそれぞれに意味を持たない単位であってもよい。

【0029】

情報分析部２１２は、データ解析部２１０に入力された自然言語データが変換された語ＩＤ４０１や属性値４０３を入力とし、その分析結果を出力する。具体的には、たとえば、データ解析部２１０に自然言語データのトピック分類を実行する機能があれば、情報分析部２１２は、当該分類結果を出力することができる。また、データ解析部２１０に音声を認識し他ソフトウェアへの動作命令を出力する機能があれば、情報分析部２１２は、当該動作命令を出力することができる。

【0030】

計算機２０１－２は、コーパスデータ１００と、クエリ生成部２２１と、出力情報生成部２２２と、を有する。コーパスデータ１００は、記憶デバイス３０２に記憶されている。クエリ生成部２２１および出力情報生成部２２２は、具体的には、たとえば、記憶デバイス３０２に記憶されたプログラムをプロセッサ３０１に実行させることにより実現される。

【0031】

＜クエリ生成処理＞
図５は、実施例１にかかるクエリ生成部２２１によるクエリ生成処理手順例を示すフローチャートである。クエリ生成部２２１は、語彙データ１５０およびコーパスデータ１００を取得する（ステップＳ５０１）。つぎに、クエリ生成部２２１は、語彙データ１５０中の語４０２のうち、コーパスデータ１００の自然言語データにも含まれる語４０２から、１または複数の語４０２を選択し、共通語Ｂに設定する（ステップＳ５０２）。

【0032】

つぎに、クエリ生成部２２１は、ステップＳ５０２において選択された共通語Ｂを含む１または複数の文をコーパスデータ１００から選択し、クエリ由来文１１０に設定する（ステップＳ５０３）。クエリ生成部２２１は、たとえば、文の長さや、共通語Ｂのコーパスデータ１００内での出現頻度を基準にクエリ由来文１１０を選択することができる。クエリ生成部２２１は、具体的には、たとえば、所定文字数以上の文や出現頻度が所定頻度以上の共通語Ｂを含む文をクエリ由来文１１０として選択する。

【0033】

つぎに、クエリ生成部２２１は、ステップＳ５０３において選択されたクエリ由来文１１０が含む語のうち、共通語Ｂを除いて１または複数の語Ｃ（図１の例では「煙草」）を選択し、入替対象語６１１に設定する（ステップＳ５０４）。

【0034】

また、クエリ生成部２２１は、クエリ由来文１１０を加工し、データ解析部２１０がクエリ由来文１１０に含まれる共通語Ｂに関する認識を試行するクエリ１２０を作成する（ステップＳ５０５）。

【0035】

ここで加工とは、たとえば、データ解析部２１０に、一部の語がマスクされた自然言語データを入力としそのマスクされた語としての尤度が高い語４０２を抽出する機能があれば、当該クエリ由来文１１０の当該共通語Ｂをマスクすることで、共通語Ｂに関する認識を試行するクエリ１２０を作成する。

【0036】

また、データ解析部２１０に、音声を認識し他ソフトウェアへの動作命令を出力する機能があれば、クエリ生成部２２１は、当該クエリ由来文１１０の音声において共通語Ｂの波形パターンにノイズを付加することで、共通語Ｂに関する認識を試行するクエリ１２０を作成する。なお、クエリ生成部２２１は、加工対象となる共通語Ｂを指定するだけで、加工対象に指定された共通語Ｂの加工については、データ解析部２１０が実行してもよい。

【0037】

クエリ生成部２２１は、ステップＳ５０５において作成されたクエリ１２０を出力情報生成部２２２に送信して処理を終了する（ステップＳ５０６）。また、クエリ生成部２２１は、クエリ１２０を記憶デバイス３０２に格納し、ユーザからの命令によって端末２０２に送信してもよい。

【0038】

＜クエリ表示画面例＞
図６Ａは、実施例１にかかるクエリ表示画面の一例を示す説明図である。クエリ表示画面６００Ａは、出力情報生成部２２２が作成した情報により端末２０２に表示される。クエリ表示画面６００Ａは、クエリ表示欄６０１とクエリ由来文表示欄６０２とを有する。クエリ表示欄６０１は、クエリ生成部２２１から受信したクエリ１２０を表示する。クエリ１２０内のＭＡＳＫ１２２は、ステップＳ５０５によりクエリ由来文１１０の共通語Ｂから置換されたデータである。

【0039】

また、ステップＳ５０４で語Ｃとして選択されたクエリ１２０内の「煙草」を示す語１１１は、入替対象語６１１に置換されている。入替対象語６１１は、語彙データ１５０内の語Ａを挿入可能であることを示す。なお、クエリ生成部２２１は、入替対象となる語Ｃを指定するだけで、入替対象に指定された語Ｃの入替対象語６１１への置換については、データ解析部２１０が実行してもよい。

【0040】

クエリ由来文表示欄６０２は、当該クエリ１２０をクエリ生成部２２１で作成する際に加工対象となったクエリ由来文１１０を表示する。ユーザは、クエリ１２０とクエリ由来文１１０とを比較することで、どの語がＭＡＳＫ１２２に置換され、どの語が入替対象語６１１に置換されたかを視認することができる。

【0041】

図６Ｂは、実施例１にかかるクエリ表示画面の他の例を示す説明図である。クエリ表示画面６００Ｂも、出力情報生成部２２２が作成した情報により端末２０２に表示される。クエリ表示画面６００Ｂは、クエリ生成部２２１から受信したクエリ１２０をコマンドライン上に表示する。また、当該クエリ１２０をクエリ生成部２２１で作成する際に加工対象となったクエリ由来文１１０をコマンドライン上に表示する。

【0042】

なお、クエリ１２０およびクエリ由来文１１０が音声データである場合、クエリ生成部２２１は、音声認識によりテキストデータに変換して、端末２０２において図６Ａまたは図６Ｂのように表示してもよく、図６Ａのクエリ表示画面６００Ａにおいてクエリ１２０およびクエリ由来文１１０の各々を再生可能なアイコンを表示してもよい。

【0043】

端末２０２は、ユーザの操作により、語彙データ１５０を表示する。ユーザは、入力デバイス３０３を操作して、語彙データ１５０中の語４０２を、クエリ表示欄６０１に表示されたクエリ１２０における入替対象語６１１に挿入する。端末２０２は、入替対象語６１１に語４０２が挿入されたクエリ１２０をデータ解析部２１０に送信する。これにより、データ解析部２１０は、クエリ１２０内における共通語Ｂに関する認識を試行する。

【0044】

具体的には、たとえば、データ解析部２１０は、ＭＡＳＫ１２２で置換された共通語Ｂについての推論に語Ａがどの程度寄与するかを、ＭＡＳＫ１２２で置換された共通語Ｂを推定するＭＡＳＫＥＤＬＡＮＧＵＡＧＥＭＯＤＥＬを用いて測定する。測定結果である寄与度がしきい値以下であれば、データ解析部２１０は、語Ａがユーザにとっての不要語であると推定し、その語Ａを語彙データ１５０から削除する。

【0045】

ユーザの目的に応じコーパスデータ１００が収集された特定ドメインにおいて用いられるが、コーパスデータ１００に用いられない語がある場合でも、当該特定ドメインで使用される語である当該クエリ１２０内の当該共通語Ｂに関する認識に影響を及ぼしうるかという観点により、データ解析部２１０は、語彙データ１５０から不要語を適切に推定することができる。

【0046】

また、データ解析部２１０は、当該共通語Ｂに係る認識処理として、いわゆる説明可能ＡＩ（ｅＸｐｌａｉｎａｂｌｅＡＩ）を用いて、ＭＡＳＫ１２２で置換された共通語Ｂについての推論に語Ａがどの程度寄与するか測定することもできる。

【0047】

このように、実施例１によれば、コーパスデータ１００におけるユーザにとっての不要語を語彙データ１５０から適切に特定可能なクエリ１２０をユーザに提示することができる。したがって、ユーザは、語Ａがクエリ１２０の文脈において不要語候補であることを把握することができる。

【実施例0048】

実施例２では、実施例１で作成したクエリ１２０に語彙データ１５０中の語Ａを挿入してデータ解析部２１０に入力した結果、データ解析部２１０からの出力データに基づき語彙データ１５０中の語Ａの削除の可否を定めるのに有用な情報を提供する例を示す。なお、実施例２では、実施例１との相違点を中心に説明するため、実施例１と同一構成には同一符号を付し、その説明を省略する。

【0049】

図７は、実施例２の自然言語分析システム７００のブロック図である。実施例２では、計算機２０１－２は、コーパスデータ１００、クエリ生成部２２１および出力情報生成部２２２に加え、取得部７２１および取得データ７２２を備える。

【0050】

図８は、取得部７２１による認識結果の取得処理手順例を示すフローチャートである。取得部７２１は、クエリ生成部２２１が作成したクエリ１２０を取得する（ステップＳ８０１）。また、取得部７２１は、語彙データ１５０およびコーパスデータ１００を取得する（ステップＳ８０２）。

【0051】

つぎに、取得部７２１は、語彙データ１５０の語４０２のうち、コーパスデータ１００に含まれない語Ａを取得して不要語候補とし、不要語候補Ａからなる不要語候補群を作成する（ステップＳ８０３）。なお、取得部７２１は、語４０２のうち、コーパスデータ１００に含まれない語Ａのすべてを不要語候補としてもよく、予め定められた値や、後述する設定画面９００から入力された値などを元に適当な割合をサンプリングして不要語候補としてもよい。

【0052】

つぎに、取得部７２１はステップＳ８０３によって作成した不要語候補群から選択した不要語候補Ａを更新しながら、ステップＳ８０５およびＳ８０６の処理を繰り返す（ステップＳ８０４）。

【0053】

具体的には、たとえば、取得部７２１は、クエリ生成部２２１に、クエリ１２０の入替対象語６１１に語Ａ（図１では例として「一塁」）を挿入させ、クエリ生成部２２１が作成した代入クエリ１２０を取得する（ステップＳ８５０）。

【0054】

つぎに、取得部７２１は、代入クエリ１２０をデータ解析部２１０に入力し、データ解析部２１０が出力する代入クエリ１２０内の共通語Ｂに関する認識結果（たとえば、寄与度）を受信し、取得データ７２２に格納する。

【0055】

取得部７２１は、不要語候補Ａを更新し終えたら、ステップＳ８０６にて作成した取得データ７２２を出力情報生成部２２２に送信して処理を終了する。

【0056】

図９は、取得部７２１による取得条件の設定画面の一例を示す説明図である。設定画面９００は端末２０２に表示され、取得条件設定に関するユーザからの入力を受け付ける。クエリ生成部２２１や取得部７２１は、当該取得条件設定に基づき処理を実行する。

【0057】

設定画面９００は、クエリタスク選択欄９１０、メトリクス選択欄９２０、不要語候補群設定欄９３０およびクエリ数設定欄９４０の一部またはすべてを含む。

【0058】

クエリタスク選択欄９１０は、クエリ由来文１１０を加工しクエリを作成する際の加工手法を明に選択するための２つのラジオボタン９１１，９１２を有する。ラジオボタン９１１は、ＭａｓｋｅｄＬａｎｇｕａｇｅＭｏｄｅｌによる加工を選択するためのボタンである。ラジオボタン９１２は、音声認識による加工を選択するためのボタンである。

【0059】

ラジオボタン９１１が選択された場合、クエリ生成部２２１は、コーパスデータ１００内のテキストデータからクエリ１２０を生成し、クエリ１２０内の共通語Ｂ（図１および図６Ａでは「植物」）をＭＡＳＫ１２２に置換する。

【0060】

ラジオボタン９１２が選択された場合、クエリ生成部２２１は、コーパスデータ１００内の音声データからクエリ１２０を生成し、クエリ１２０内の共通語Ｂ（図１および図６Ａでは「植物」）の音声パターンにノイズを付加する。

【0061】

メトリクス選択欄９２０は、取得部７２１がステップＳ８０６にて不要語候補Ａごとに、代入クエリ１２０内の共通語Ｂに関する認識結果を取得する際の、取得基準の設定を受け付けるチェックボックス９２１～９２４を有する。黒塗りは、そのチェックボックスが選択されたことを示す。

【0062】

チェックボックス９２１は、不要語候補Ａに対するマスクされた共通語Ｂの尤もらしさを示す尤度の取得を選択するチェックボックスである。チェックボックス９２１により尤度が選択されると、取得部７２１は、データ解析部２１０から、データ解析部２１０が算出した共通語Ｂの尤度をメトリクス値として不要語候補Ａごとに取得する。

【0063】

チェックボックス９２２は、クエリ１２０が音声データである場合に、クエリ１２０のノイズ頑健性の測定を選択するチェックボックスである。チェックボックス９２２によりノイズ頑健性の測定が選択されると、取得部７２１は、クエリ生成部２２１に代入クエリ１２０の共通語Ｂの音声パターンへのノイズ付加を指示する。そして、クエリ生成部２２１は、共通語Ｂが音声認識できる限界まで共通語Ｂの音声パターンにノイズを付加する。取得部７２１は、クエリ生成部２２１から、共通語Ｂの音声パターンに付加したノイズの強度をメトリクス値として取得する。

【0064】

チェックボックス９２３は、不要語候補Ａとマスクされた共通語Ｂとのアテンションの取得を選択するチェックボックスである。チェックボックス９２３によりアテンションが選択されると、取得部７２１は、データ解析部２１０から、データ解析部２１０が算出したアテンションを不要語候補Ａごとに取得する。アテンションは、不要語候補Ａと共通語Ｂとの関連度であり、０以上１以下の値をとる。アテンションの値が大きいほど不要語候補Ａと共通語Ｂとの関連度が高いことを示す。

【0065】

また、プルダウン９２５により、アテンションとして適切な範囲を指定することが可能である。これにより、当該範囲を逸脱するアテンションとなる不要語候補Ａを取得対象から除外する例外処理の設定が可能になる。

【0066】

チェックボックス９２４は、説明可能ＡＩ（ＸＡＩ）を用いて、ＭＡＳＫ１２２で置換された共通語Ｂについての推論に不要語候補Ａがどの程度寄与するかを示すＸＡＩ寄与度の取得を選択するチェックボックスである。チェックボックス９２４によりＸＡＩ寄与度が選択されると、取得部７２１は、データ解析部２１０から、データ解析部２１０が算出した不要語候補ＡのＸＡＩ寄与度をメトリクス値として取得する。ＸＡＩ寄与度が大きいほど、不要語候補Ａが、ＭＡＳＫ１２２で置換された共通語Ｂについての推論に寄与する度合いが高いことを示す。

【0067】

また、プルダウン９２６により、ＸＡＩ寄与度として適切な範囲を指定することが可能である。これにより、当該範囲を逸脱するＸＡＩ寄与度となる不要語候補Ａを取得対象から除外する例外処理の設定が可能になる。

【0068】

不要語候補群設定欄９３０は、取得部７２１がステップＳ８０３にて不要語候補群を作成する際の設定を受け付けるラジオボタン９３１～９３３を有する。ラジオボタン９３１は、語彙データ１５０のうち、コーパスデータ１００に含まれない語Ａの全数を不要語候補群に設定するためのチェックボックスである。

【0069】

ラジオボタン９３２は、ラジオボタン９３１は、語彙データ１５０のうち、コーパスデータ１００に含まれない語Ａを任意の割合で不要語候補群に設定するためのチェックボックスである。

【0070】

ラジオボタン９３３は、ユーザ辞書から不要語候補Ａを選択するためのチェックボックスである。ユーザ辞書は、コーパスデータ１００とは異なるユーザ独自の単語の辞書である。ユーザ辞書から選択された不要語候補Ａは、ユーザ操作により、データ解析部２１０にアップロードされる。

【0071】

クエリ数設定欄９４０は、クエリ生成部２２１がクエリ１２０を作成し、取得部７２１が不要語候補Ａごとに代入クエリ１２０内の共通語Ｂに関する認識結果を取得するという処理を繰り返し回数の設定を受け付けるラジオボタン９４１、９４２を有する。

【0072】

ラジオボタン９４１は、ユーザが任意に入力可能な繰り返し回数を選択するためのラジオボタンである。ラジオボタン９４２は、ユーザが任意に入力可能な要求不要語数を選択するためのラジオボタンである。要求不要語数とは、不要語として特定すべき語の数である。これにより、クエリ生成部２２１は、一定の基準を満たす不要語の数が要求不要語数となるまで、共通語Ｂまたはクエリ由来文１１０を変更しながらクエリ１２０を作成する。

【0073】

ユーザは、クエリタスク選択欄９１０、メトリクス選択欄９２０、不要語候補群設定欄９３０およびクエリ数設定欄９４０での設定を行い、保存ボタン９５０を押下することにより、クエリタスク選択欄９１０、メトリクス選択欄９２０、不要語候補群設定欄９３０およびクエリ数設定欄９４０での選択条件がクエリ生成部２２１または取得部７２１による処理に適用される。

【0074】

また、図９の設定画面９００内に示したＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）は例示であり、これらに限定されることはない。また、ユーザはすべての設定項目について設定をする必要は必ずしもなく、適当な方法で自動的に設定が定められることを妨げない。

【0075】

図１０は、実施例２にかかる取得データ７２２の一例を示す説明図である。取得部７２１は、不要語候補Ａごとに代入クエリ１２０内の共通語Ｂに関する認識結果をデータ解析部２１０から取得し、メトリクス値として取得データ７２２に格納する。取得データ７２２は、フィールドとして、不要語候補ＩＤ１００１と、不要語候補１００２と、メトリクス値１００３（尤度１０３１、ノイズレベル１０３２、アテンション１０３３、ＸＡＩ寄与度１０３４）と、を有する。

【0076】

不要語候補ＩＤ１００１は、値として、不要語候補Ａを一意に特定する識別情報を有する。不要語候補ＩＤ１００１の値に、語ＩＤ４０１の値を用いてもよい。不要語候補１００２は、値として、上述した不要語候補Ａを有する。

【0077】

尤度１０３１は、メトリクス値１００３として、メトリクス選択欄９２０でチェックボックス９２１が選択された場合にデータ解析部２１０から取得される尤度を不要語候補Ａごとに有する。ノイズレベル１０３２は、メトリクス値１００３として、メトリクス選択欄９２０でチェックボックス９２２が選択された場合にデータ解析部２１０から取得される共通語Ｂをマスクしたノイズのノイズレベルを不要語候補Ａごとに有する。

【0078】

アテンション１０３３は、メトリクス値１００３として、メトリクス選択欄９２０でチェックボックス９２３が選択された場合にデータ解析部２１０から取得されるアテンションを不要語候補Ａごとに有する。ＸＡＩ寄与度１０３４は、メトリクス値１００３として、メトリクス選択欄９２０でチェックボックス９２４が選択された場合にデータ解析部２１０から取得されるＸＡＩ寄与度を不要語候補１００２（Ａ）ごとに有する。

【0079】

また、取得部７２１は、尤度１０３１とノイズレベル１０３２とアテンション１０３３とＸＡＩ寄与度１０３４とを正規化し、正規化した尤度１０３１とノイズレベル１０３２とアテンション１０３３とＸＡＩ寄与度１０３４との統計値（たとえば、合計値、平均値、中央値、最大値または最小値）を不要語候補１００２（Ａ）ごとに算出して、取得データ７２２に格納してもよい。

【0080】

図１１Ａは、実施例２にかかるクエリ表示画面の一例を示す説明図である。クエリ表示画面１１００Ａは、クエリ表示欄６０１およびクエリ由来文表示欄６０２に加え、不要語候補表示欄１１０３および一括削除ボタン１１０４を有する。

【0081】

不要語候補表示欄１１０３には、取得データ７２２の不要語候補１００２（Ａ）が表示される。端末２０２は、取得データ７２２のすべてを表示してもよいし、取得データ７２２のメトリクス値１００３またはそれらから算出される統計値を用いてソートした結果の一部を表示してもよい。またその場合、端末２０２は、メトリクス値１００３を表示しなくてもよい。また、端末２０２は、不要語候補表示欄１１０３には、表示された不要語候補１００２（Ａ）の総数や、メトリクス値１００３またはそれらから算出される統計値を表示してもよい。

【0082】

ユーザが一括削除ボタン１１０４を押下すると、出力情報生成部２２２は、不要語候補表示欄１１０３に表示された不要語候補１００２（Ａ）を語彙データ１５０から一括で削除する。

【0083】

図１１Ｂは、実施例２にかかるクエリ表示画面の他の例を示す説明図である。クエリ表示画面１１００Ｂでは、クエリ１２０またはクエリ由来文１１０に加え、不要語候補１００２（Ａ）が、コマンドライン上に表示される。出力情報生成部２２２は、当該コマンドライン上で、表示された不要語候補１００２（Ａ）を語彙データ１５０から一括で削除するか否かについての命令を受け付けることができる。

【0084】

また、出力情報生成部２２２は、クエリ生成部２２１から受信したクエリ１２０、クエリ由来文１１０、または、取得データ７２２の一部もしくはすべてを、記憶デバイス３０２に格納し、ユーザからの命令によって端末２０２において表示可能な形式で端末２０２に送信してもよい。また、出力情報生成部２２２は、記憶デバイス３０２に格納された取得データ７２２内の不要語候補１００２（Ａ）を語彙データ１５０から一括で削除する命令を端末２０２から受け付けることもできる。なお、クエリ１２０が音声データの場合、出力情報生成部２２２は、入替対象語６１１に不要語候補１００２（Ａ）が挿入された代入クエリ１２０ごとに音声ファイルを生成してもよい。

【0085】

ユーザは、不要語候補表示欄１１０３に表示された情報を参照して、語彙データ１５０中の不要語候補１００２（Ａ）の削除の可否を決定する。これにより、ユーザの目的に応じコーパスデータ１００が収集された特定ドメインにおいて用いられることがあるがコーパスデータ１００に用いられない語がある場合でも、当該特定ドメインで使用される語であるクエリ１２０内の共通語Ｂの認識に影響を及ぼしうるかという観点から、データ解析部２１０は、より少ない工数で適切に不要語を推定することができる。

【実施例0086】

実施例３では、実施例１および実施例２において、さらに、語彙データ１５０中の語から不要語を特定し、ユーザの目的に応じコーパスデータ１００が収集された特定ドメインにおいて頻出するなどデータ解析に有用な語で上書きする処理の可否を決定するための有用な情報を提供する例を示す。なお、実施例３では、実施例１および実施例２との相違点を中心に説明するため、実施例１および実施例２と同一構成には同一符号を付し、その説明を省略する。

【0087】

図１２は、実施例３の自然言語分析システムのブロック図である。実施例３の自然言語分析システム１２００では、計算機２０１－２は、コーパスデータ１００、クエリ生成部２２１、出力情報生成部２２２、取得部７２１および取得データ７２２に加え、追加語リストデータ１２１０を有する。

【0088】

追加語リストデータ１２１０は、追加語とその追加語とを一意に特定する追加語ＩＤの組をリスト化したデータである。追加語とは、たとえば、ユーザの目的に応じコーパスデータ１００が収集された特定ドメインにおいて頻出したことにより、語彙データ１５０に含まれていればデータ解析部２１０のデータ解析に有用だと考えられる語である。ユーザが追加語リストデータ１２１０を直接作成してもよく、計算機２０１－２がコーパスデータ１００または語彙データ１５０を参照し、所定出現頻度以上の頻出語を追加語として抽出してもよい。

【0089】

図１３は、実施例３にかかるクエリ生成部２２１によるクエリ生成処理手順例を示すフローチャートである。クエリ生成部２２１は、語彙データ１５０、コーパスデータ１００および追加語リストデータ１２１０を取得する（ステップＳ１３０１）。

【0090】

つぎに、クエリ生成部２２１は、クエリ１２０の作成に用いる１または複数の追加語を追加語リストデータ１２１０から選択し、クエリ追加語に設定する（ステップＳ１３０２）。

【0091】

つぎに、クエリ生成部２２１は、語彙データ１５０中の語４０２のうち、コーパスデータ１００の自然言語データにも含まれる語から、１または複数の語を選択し、共通語Ｂに設定する（ステップＳ５０２）。

【0092】

つぎに、クエリ生成部２２１は、ステップＳ５０２によって選択された共通語ＢおよびステップＳ１３０２によって選択されたクエリ追加語のいずれをも含む１または複数の文をコーパスデータ１００から選択し、クエリ由来文１１０に設定する。

【0093】

つぎに、クエリ生成部２２１は、ステップＳ１３０３によって選択されたクエリ由来文１１０内のクエリ追加語を選択し、入替対象語６１１に設定する（ステップＳ１３０４）。

【0094】

また、クエリ生成部２２１は、クエリ由来文１１０を加工し、データ解析部２１０がクエリ由来文１１０が含む共通語Ｂに関する認識を試行するクエリ１２０を作成する（ステップＳ５０５）。

【0095】

つぎに、クエリ生成部２２１は、ステップＳ５０５によって作成されたクエリ１２０を出力情報生成部２２２および取得部７２１に送信して処理を終了する（ステップＳ１３０６）。また、クエリ生成部２２１は、クエリ１２０を記憶デバイス３０２に格納し、ユーザからの命令によって端末２０２に送信してもよい。

【0096】

図１４は、実施例３にかかる取得データ７２２の一例を示す説明図である。実施例３では、取得データ７２２は、フィールドとして、不要語候補ＩＤ１００１、不要語候補１００２、およびメトリクス値１００３（尤度１０３１、ノイズレベル１０３２、アテンション１０３３、ＸＡＩ寄与度１０３４）のほか、追加語ＩＤ１４０１および追加語１４０２を有する。

【0097】

取得部７２１は、図８に示したように、不要語候補Ａごとに代入クエリ１２０内の共通語Ｂに関する認識結果をデータ解析部２１０から取得し、当該代入クエリ１２０の作成時に不要語候補Ａで入れ替えた入替対象語６１１がクエリ由来文１１０においていずれのクエリ追加語であったかを特定するために、追加語ＩＤ１４０１および追加語１４０２として取得データ７２２に格納する。

【0098】

図１５Ａは、実施例３にかかるクエリ表示画面の一例を示す説明図である。クエリ表示画面１５００Ａは、クエリ表示欄６０１およびクエリ由来文表示欄６０２に加え、上書き対象候補表示欄１５０１および一括上書きボタン１５０２を備えることができる。

【0099】

上書き対象候補表示欄１５０１には、取得データ７２２の不要語候補１００２が上書き対象候補として表示される。また、上書き対象候補表示欄１５０１には、上書き対象候補となった不要語候補１００２に対応する追加語１４０２が表示される。

【0100】

端末２０２は、取得データ７２２のすべてを表示してもよいし、取得データ７２２のメトリクス値１００３またはそれらから算出される統計値を用いてソートした結果の一部を表示してもよい。またその場合、端末２０２は、メトリクス値１００３を表示しなくてもよい。また、端末２０２は、不要語候補表示欄１１０３には、表示された不要語候補１００２の総数や、メトリクス値１００３またはそれらから算出される統計値を表示してもよい。

【0101】

ユーザが一括上書きボタン１５０２を押下すると、出力情報生成部２２２は、上書き対象候補表示欄１５０１に表示された不要語候補１００２を、対応する語彙データ１５０内の追加語１４０２に一括で上書きする。

【0102】

図１５Ｂは、実施例３にかかるクエリ表示画面の他の例を示す説明図である。実施例３でクエリ表示画面１５００Ｂでは、クエリ１２０またはクエリ由来文１１０に加え、上書き対象候補である不要語候補１００２と対応する追加語１４０２とがコマンドライン上に表示される。

【0103】

また、出力情報生成部２２２は、クエリ生成部２２１から受信したクエリ１２０、クエリ由来文１１０、または、取得データ７２２の一部もしくはすべてを、記憶デバイス３０２に格納し、ユーザからの命令によって端末２０２において表示可能な形式で端末２０２に送信してもよい。また、出力情報生成部２２２は、当該コマンドライン上で、記憶デバイス３０２に格納された取得データ７２２内の不要語候補１００２から対応する語彙データ１５０内の追加語１４０２に一括で上書きする命令を端末２０２から受け付けることができる。なお、クエリ１２０が音声データの場合、出力情報生成部２２２は、入替対象語６１１に不要語候補１００２が挿入された代入クエリ１２０ごとに音声ファイルを生成してもよい。

【0104】

追加語１４０２および不要語候補１００２を合わせ、代入クエリ内の共通語Ｂに関する認識結果を取得し取得データ７２２に格納することで、ユーザは、上書き対象候補表示欄１５０１に表示された情報をもとに、語彙データ１５０内の語４０２において不要語候補１００２を追加語１４０２で上書き処理した際の、代入クエリ内の共通語Ｂに関する認識結果に係る取得値を取得することができ、追加語１４０２ごとに当該取得値から当該上書き処理の可否に関する情報を得ることができる。

【0105】

ユーザは、上書き対象候補表示欄１５０１に表示された情報を参照して、語彙データ１５０中の不要語から追加語への上書きの可否を決定する。これにより、ユーザの目的に応じコーパスデータ１００が収集された特定ドメインにおいて用いられることがあるがコーパスデータ１００に用いられない語がある場合でも、語彙データ１５０に含まれていればデータ解析部２１０のデータ解析に有用だと考えられる追加語１４０２で上書きした際に当該特定ドメインで使用される語であるクエリ１２０内の共通語Ｂの認識に影響を及ぼしうるかという観点から、データ解析部２１０は、不要語を適切に推定することができる。

【0106】

また、上述した実施例１～実施例３にかかる情報処理装置は、下記（１）～（１６）のように構成することもできる。

【0107】

（１）プログラムを実行するプロセッサ３０１と、前記プログラムを記憶する記憶デバイス３０２と、を有する情報処理装置（計算機２０１－２）は、音声またはテキストである複数の語を含む語彙データ１５０にアクセス可能であり、前記プロセッサ３０１は、音声またはテキストである自然言語データ（コーパスデータ１００）と前記語彙データ１５０とに共通する共通語Ｂを含むクエリ由来文１１０を前記自然言語データ（コーパスデータ１００）から選択する選択処理と、前記選択処理によって選択されたクエリ由来文１１０のうち、前記共通語Ｂを推論対象とし前記語彙データ１５０に含まれない特定の語Ｃを、前記語彙データ１５０内の語に入れ替え可能な入替対象語６１１に設定したクエリ１２０を生成する生成処理と、を実行する。

【0108】

（２）上記（１）の情報処理装置であって、前記生成処理では、前記プロセッサ３０１は、前記入替対象語６１１を前記語彙データ１５０内の語に入れ替えた代入クエリ１２０を生成する。

【0109】

（３）上記（１）の情報処理装置であって、前記プロセッサ３０１は、前記生成処理によって生成されたクエリ１２０を視認可能または再生可能に出力する第１出力処理を実行する。

【0110】

（４）上記（１）の情報処理装置であって、前記プロセッサ３０１は、前記生成処理によって生成されたクエリ１２０を、前記共通語Ｂに関する認識を試行する計算機２０１－１に出力する第２出力処理を実行する。

【0111】

（５）上記（４）の情報処理装置であって、前記プロセッサ３０１は、前記第２出力処理により前記クエリ１２０を前記計算機２０１－１に出力した結果、前記計算機２０１－１による認識結果を取得する取得処理を実行する。

【0112】

（６）上記（５）の情報処理装置であって、前記取得処理では、前記プロセッサ３０１は、前記認識結果に基づいて前記語彙データ１５０から不要語候補１００２を取得する。

【0113】

（７）上記（６）の情報処理装置であって、前記生成処理では、前記プロセッサ３０１は、前記不要語候補１００２が所定数に到達するまで、前記入替対象語６１１を前記語彙データ１５０内の異なる語Ａに入れ替えて前記クエリ１２０を生成する。

【0114】

（８）上記（６）の情報処理装置であって、前記生成処理では、前記プロセッサ３０１は、前記不要語候補１００２が所定数に到達するまで、異なるクエリ由来文１１０ごとに前記クエリ１２０を生成する。

【0115】

（９）上記（６）の情報処理装置であって、前記プロセッサ３０１は、前記取得処理によって取得された不要語候補１００２を視認可能に出力する第３出力処理を実行する。

【0116】

（１０）上記（１）の情報処理装置であって、前記語彙データ１５０に追加可能な１以上の追加語１４０２を含む追加語リストデータ１２１０にアクセス可能であり、前記選択処理では、前記プロセッサ３０１は、前記自然言語データ（コーパスデータ１００）と前記語彙データ１５０とに共通する共通語Ｂと前記追加語１４０２とを含むクエリ由来文１１０を前記自然言語データ（コーパスデータ１００）から選択し、前記生成処理では、前記プロセッサ３０１は、前記クエリ由来文１１０のうち、前記共通語Ｂを推論対象とし、前記追加語１４０２を、前記語彙データ１５０内の語Ａに入れ替え可能な入替対象語６１１に設定したクエリ１２０を生成する。

【0117】

（１１）上記（１０）の情報処理装置であって、前記生成処理では、前記入替対象語６１１を前記語彙データ１５０内の語に入れ替えた代入クエリ１２０を生成する。

【0118】

（１２）上記（１０）の情報処理装置であって、前記プロセッサ３０１は、前記生成処理によって生成されたクエリ１２０を、前記共通語Ｂに関する認識を試行する計算機２０１－１に出力する第４出力処理を実行する。

【0119】

（１３）上記（１２）の情報処理装置であって、前記プロセッサ３０１は、前記第４出力処理により前記クエリ１２０を前記計算機に出力した結果、前記計算機２０１－１による認識結果を取得する取得処理を実行する。

【0120】

（１４）上記（１３）の情報処理装置であって、前記取得処理では、前記プロセッサ３０１は、前記認識結果に基づいて前記語彙データ１５０から不要語候補１００２を取得する。

【0121】

（１５）上記（１４）の情報処理装置であって、前記プロセッサ３０１は、前記取得処理によって取得された不要語候補１００２と前記追加語１４０２とを視認可能に出力する第６出力処理を実行する。

【0122】

（１６）上記（１５）の情報処理装置であって、前記第６出力処理では、前記プロセッサ３０１は、前記語彙データ１５０において前記不要語候補１００２を前記追加語１４０２に上書き操作可能に出力する。

【0123】

なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。たとえば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加、削除、または置換をしてもよい。

【0124】

また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、たとえば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。

【0125】

各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記憶装置、又は、ＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）カード、ＳＤカード、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）の記録媒体に格納することができる。

【0126】

また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要なすべての制御線や情報線を示しているとは限らない。実際には、ほとんどすべての構成が相互に接続されていると考えてよい。