(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022138786
(43)【公開日】2022-09-26
(54)【発明の名称】情報処理装置、情報処理方法、および情報処理プログラム
(51)【国際特許分類】
G06F 40/44 20200101AFI20220915BHJP
G06F 40/242 20200101ALI20220915BHJP
G06F 16/332 20190101ALI20220915BHJP
【FI】
G06F40/44
G06F40/242
G06F16/332
【審査請求】未請求
【請求項の数】18
【出願形態】OL
(21)【出願番号】P 2021038868
(22)【出願日】2021-03-11
(71)【出願人】
【識別番号】000153443
【氏名又は名称】株式会社 日立産業制御ソリューションズ
(74)【代理人】
【識別番号】110001678
【氏名又は名称】藤央弁理士法人
(72)【発明者】
【氏名】浜 直史
(72)【発明者】
【氏名】和久井 一則
(72)【発明者】
【氏名】安井 雅彦
【テーマコード(参考)】
5B091
5B175
【Fターム(参考)】
5B091EA01
5B175DA01
5B175FA01
(57)【要約】
【課題】語彙データ150から不要語を適切に推定可能にすること。
【解決手段】プログラムを実行するプロセッサ301と、前記プログラムを記憶する記憶デバイス302と、を有する情報処理装置は、音声またはテキストである複数の語を含む語彙データ150にアクセス可能であり、音声またはテキストである自然言語データと前記語彙データ150とに共通する共通語Bを含むクエリ由来文110を前記自然言語データから選択する選択処理と、前記選択処理によって選択されたクエリ由来文110のうち、前記共通語Bを推論対象とし前記語彙データ150に含まれない特定の語Cを、前記語彙データ150内の語に入れ替え可能な入替対象語611に設定したクエリを生成する生成処理と、を実行する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する情報処理装置であって、
音声またはテキストである複数の語を含む語彙データにアクセス可能であり、
前記プロセッサは、
音声またはテキストである自然言語データと前記語彙データとに共通する共通語を含むクエリ由来文を前記自然言語データから選択する選択処理と、
前記選択処理によって選択されたクエリ由来文のうち、前記共通語を推論対象とし前記語彙データに含まれない特定の語を、前記語彙データ内の語に入れ替え可能な入替対象語に設定したクエリを生成する生成処理と、
を実行することを特徴とする情報処理装置。
【請求項2】
請求項1に記載の情報処理装置であって、
前記生成処理では、前記プロセッサは、前記入替対象語を前記語彙データ内の語に入れ替えたクエリを生成する、
ことを特徴とする情報処理装置。
【請求項3】
請求項1に記載の情報処理装置であって、
前記プロセッサは、
前記生成処理によって生成されたクエリを視認可能または再生可能に出力する第1出力処理を実行することを特徴とする情報処理装置。
【請求項4】
請求項1に記載の情報処理装置であって、
前記プロセッサは、
前記生成処理によって生成されたクエリを、前記共通語に関する認識を試行する計算機に出力する第2出力処理を実行することを特徴とする情報処理装置。
【請求項5】
請求項4に記載の情報処理装置であって、
前記プロセッサは、
前記第2出力処理により前記クエリを前記計算機に出力した結果、前記計算機による認識結果を取得する取得処理を実行することを特徴とする情報処理装置。
【請求項6】
請求項5に記載の情報処理装置であって、
前記取得処理では、前記プロセッサは、前記認識結果に基づいて前記語彙データから不要語候補を取得する、
ことを特徴とする情報処理装置。
【請求項7】
請求項6に記載の情報処理装置であって、
前記生成処理では、前記プロセッサは、前記不要語候補が所定数に到達するまで、前記入替対象語を前記語彙データ内の異なる語に入れ替えて前記クエリを生成する、
ことを特徴とする情報処理装置。
【請求項8】
請求項6に記載の情報処理装置であって、
前記生成処理では、前記プロセッサは、前記不要語候補が所定数に到達するまで、異なるクエリ由来文ごとに前記クエリを生成する、
ことを特徴とする情報処理装置。
【請求項9】
請求項6に記載の情報処理装置であって、
前記プロセッサは、
前記取得処理によって取得された不要語候補を視認可能に出力する第3出力処理を実行することを特徴とする情報処理装置。
【請求項10】
請求項1に記載の情報処理装置であって、
前記語彙データに追加可能な1以上の追加語を含む追加語リストデータにアクセス可能であり、
前記選択処理では、前記プロセッサは、前記自然言語データと前記語彙データとに共通する共通語と前記追加語とを含むクエリ由来文を前記自然言語データから選択し、
前記生成処理では、前記プロセッサは、前記クエリ由来文のうち、前記共通語を推論対象とし、前記追加語を、前記語彙データ内の語に入れ替え可能な入替対象語に設定したクエリを生成する、
ことを特徴とする情報処理装置。
【請求項11】
請求項10に記載の情報処理装置であって、
前記生成処理では、前記プロセッサは、前記入替対象語を前記語彙データ内の語に入れ替えたクエリを生成する、
ことを特徴とする情報処理装置。
【請求項12】
請求項10に記載の情報処理装置であって、
前記プロセッサは、
前記生成処理によって生成されたクエリを、前記共通語に関する認識を試行する計算機に出力する第4出力処理を実行することを特徴とする情報処理装置。
【請求項13】
請求項12に記載の情報処理装置であって、
前記プロセッサは、
前記第4出力処理により前記クエリを前記計算機に出力した結果、前記計算機による認識結果を取得する取得処理を実行することを特徴とする情報処理装置。
【請求項14】
請求項13に記載の情報処理装置であって、
前記取得処理では、前記プロセッサは、前記認識結果に基づいて前記語彙データから不要語候補を取得する、
ことを特徴とする情報処理装置。
【請求項15】
請求項14に記載の情報処理装置であって、
前記プロセッサは、
前記取得処理によって取得された不要語候補と前記追加語とを視認可能に出力する第6出力処理を実行することを特徴とする情報処理装置。
【請求項16】
請求項15に記載の情報処理装置であって、
前記第6出力処理では、前記プロセッサは、前記語彙データにおいて前記不要語候補を前記追加語に上書き操作可能に出力する、
ことを特徴とする情報処理装置。
【請求項17】
プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する情報処理装置が実行する情報処理方法であって、
前記情報処理装置は、音声またはテキストである複数の語を含む語彙データにアクセス可能であり、
前記プロセッサが、
音声またはテキストである自然言語データと前記語彙データとに共通する共通語を含むクエリ由来文を前記自然言語データから選択する選択処理と、
前記選択処理によって選択されたクエリ由来文のうち、前記共通語を推論対象とし前記語彙データに含まれない特定の語を、前記語彙データ内の語に入れ替え可能な入替対象語に設定したクエリを生成する生成処理と、
を実行することを特徴とする情報処理方法。
【請求項18】
音声またはテキストである複数の語を含む語彙データにアクセス可能なプロセッサに、
音声またはテキストである自然言語データと前記語彙データとに共通する共通語を含むクエリ由来文を前記自然言語データから選択する選択処理と、
前記選択処理によって選択されたクエリ由来文のうち、前記共通語を推論対象とし前記語彙データに含まれない特定の語を、前記語彙データ内の語に入れ替え可能な入替対象語に設定したクエリを生成する生成処理と、
を実行させるための情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報を処理する情報処理装置、情報処理方法、および情報処理プログラムに関する。
【背景技術】
【0002】
自然言語で記述され音声やテキストのような形式で格納された大量の文章または文のデータ(「自然言語データ」という)を分析する機械学習モデルの汎用性は高い。たとえば、広範に集められた自然言語データから作成された大規模な分析モデルをユーザの目的に応じ特定ドメインから収集された比較的少量の自然言語データに適応させることで、特定ドメインでの自然言語データの高精度な分析モデルが、比較的少量のデータから作成可能である。
【0003】
他方、このように広範に集められた自然言語データから作成された大規模な分析モデルにおいて、自然言語データを電子的に処理可能な数値などに置き換えるための語彙データも汎用的に作成されている。語彙データには、ユーザが作成する分析モデルが適用される特定ドメインでは用いられない語が登録されている場合がある。用いられない語が語彙データに登録されていると、データ容量が余剰になるほか、誤認識の原因となるなど分析結果に悪影響を及ぼす。
【0004】
特許文献1には、語彙テーブルの選択方法、装置およびコンピュータ読み取り可能な記憶媒体が開示されている。特許文献1に開示された語彙テーブルの選択方法は、第1語彙テーブルによって予備トレーニングモデルをトレーニングし、かつトレーニング過程においてモデルパラメータ及び語彙重みを更新し、さらに、トレーニング終了後、得たターゲット語彙の語彙重みを利用して第1語彙テーブル中の語彙を選別してターゲットニューラルネットワークモデルをトレーニングするための第2語彙テーブルを得る。当該第2語彙テーブルにより高価値の語彙が含まれるので、第2語彙テーブルによってターゲットニューラルネットワークモデルをトレーニングする時、モデルのトレーニング効率を向上かつトレーニング時間を減少でき、かつトレーニングし得たモデルの正確性を上げる。
【先行技術文献】
【特許文献】
【0005】
【発明の概要】
【発明が解決しようとする課題】
【0006】
特許文献1に開示された技術では、第1語彙テーブルに含まれかつ予備トレーニングモデルをトレーニングする際に用いる自然言語データに含まれない語彙の重みが更新されない。したがって、当該語彙が第2語彙テーブル作成時に選別されない確率が高くなる。特に、特定ドメインでの分析モデルを少量の自然言語データから作成する際、当該ドメインでしばしば用いられるがユーザの収集した自然言語データに用いられない語があるときに問題となる。
【0007】
本開示のひとつの目的は、語彙データから不要語を適切に推定可能にすることである。
【課題を解決するための手段】
【0008】
本願において開示される発明の一側面となる情報処理装置は、プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する情報処理装置であって、音声またはテキストである複数の語を含む語彙データにアクセス可能であり、前記プロセッサは、音声またはテキストである自然言語データと前記語彙データとに共通する共通語を含むクエリ由来文を前記自然言語データから選択する選択処理と、前記選択処理によって選択されたクエリ由来文のうち、前記共通語を推論対象とし前記語彙データに含まれない特定の語を、前記語彙データ内の語に入れ替え可能な入替対象語に設定したクエリを生成する生成処理と、を実行することを特徴とする。
【発明の効果】
【0009】
本発明の代表的な実施の形態によれば、語彙データから不要語を適切に推定可能にすることができる。前述した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。
【図面の簡単な説明】
【0010】
【
図2】
図2は、実施例1の自然言語分析システムのブロック図である。
【
図3】
図3は、計算機のハードウェア構成例を示すブロック図である。
【
図4】
図4は、語彙データの一例を示す説明図である。
【
図5】
図5は、実施例1にかかるクエリ生成部によるクエリ生成処理手順例を示すフローチャートである。
【
図6A】
図6Aは、実施例1にかかるクエリ表示画面の一例を示す説明図である。
【
図6B】
図6Bは、実施例1にかかるクエリ表示画面の他の例を示す説明図である。
【
図7】
図7は、実施例2の自然言語分析システムのブロック図である。
【
図8】
図8は、取得部による認識結果の取得処理手順例を示すフローチャートである。
【
図9】
図9は、取得部による取得条件の設定画面の一例を示す説明図である。
【
図10】
図10は、実施例2にかかる取得データの一例を示す説明図である。
【
図11A】
図11Aは、実施例2にかかるクエリ表示画面の一例を示す説明図である。
【
図11B】
図11Bは、実施例2にかかるクエリ表示画面の他の例を示す説明図である。
【
図12】
図12は、実施例3の自然言語分析システムのブロック図である。
【
図13】
図13は、実施例3にかかるクエリ生成部によるクエリ生成処理手順例を示すフローチャートである。
【
図14】
図14は、実施例3にかかる取得データの一例を示す説明図である。
【
図15A】
図15Aは、実施例3にかかるクエリ表示画面の一例を示す説明図である。
【
図15B】
図15Bは、実施例3にかかるクエリ表示画面の他の例を示す説明図である。
【発明を実施するための形態】
【実施例0011】
ユーザは、自身が保有する特定ドメインのコーパスデータと一般に公開されている巨大NLPモデルが有する語彙データとをダウンロードして、語彙データを軽量化して学習効率を高めたいと考えている。ただし、語彙データには特定ドメインには不要な語も混在するため、ユーザは語彙データ内の語を削除したい。コーパスデータ内の語の出現頻度に基づいてユーザにとっての不要語を語彙データから削除すると、必要な語も削除してしまい、未知語処理(コーパスデータに存在しない語の形態素解析)が発生してしまう。実施例1では、このような未知語処理の発生を抑制し、かつ、学習効率を向上させるためのクエリを作成する例を示す。
【0012】
<クエリ作成例>
図1は、クエリ作成例を示す説明図である。
図1は、語彙データ150を有する巨大NLP(Natural Language Processing)モデル140に入力するためのクエリ120を作成する例を示す。巨大NLPモデル140は、膨大な量の多種多様な語を含む語彙データ150を用いて、形態素解析、構文解析、意味解析および文脈解析を実行する。巨大NLPモデル140は、クエリ120が入力されると、語彙データ150からコーパスデータ100のユーザにとって不要な語を推定する。
【0013】
コーパスデータ100は、ユーザの目的に応じて特定ドメインから収集される自然言語データである。特定ドメインとは、ユーザが自然言語データを使用する分野である。たとえば、特定ドメインが医療分野であれば、コーパスデータ100は、医学用語を含む自然言語データとなる。コーパスデータ100における自然言語データのデータ量は、巨大NLPモデル140に入力される自然言語データ(すなわち、語彙データ150の生成元)のデータ量よりも少ない。コーパスデータ100は、たとえば、音声またはテキストのデータ形式で格納されている。
【0014】
クエリ由来文110は、クエリ120の作成元となる自然言語データであり、コーパスデータ100から選択される。
図1では、『煙草は、本来、日本になかった植物である。』がクエリ由来文110として選択されている。ここで、クエリ由来文110に含まれている語のうち「煙草」(語111)は、
図1下方の語彙データ150とコーパスデータ100との関係
図160に示すように、コーパスデータ100に含まれているが、語彙データ150には含まれていない語Cとする。「植物」(語112)は、関係
図160に示すように、語彙データ150およびコーパスデータ100の両方に含まれる共通語Bとする。
【0015】
クエリ120は、クエリ由来文110から作成される。クエリ120では、語Bがマスクされ、MASK122に置換される。また、語彙データ150から「一塁」、「滝沢」、「手当て」、…といった語121が語彙データ150から選択されて、語Cに替えて挿入される。語121は、関係
図160に示すように、語彙データ150には含まれるが、コーパスデータ100には含まれない語Aとする。
【0016】
このように作成されたクエリ120が巨大NLPモデル140に入力されると、巨大NLPモデル140は、MASK122で置換された共通語Bについての推論に語Aがどの程度寄与するか測定する。測定結果である寄与度がしきい値以下であれば、巨大NLPモデル140は、語Aがユーザにとっての不要語であると推定する。
【0017】
このように、コーパスデータ100内の共通語Bおよび語Cの出現頻度に基づいてユーザにとっての不要語を語彙データ150から推定するのではなく、コーパスデータ100外の語彙データ150に含まれている、すなわち、巨大NLPモデル140が既になんらかの情報を学習している、ということを考慮して、巨大NLPモデル140から情報を抽出することにより、ユーザにとっての不要語を語彙データ150から推定することができる。
【0018】
<自然言語分析システム>
図2は、実施例1の自然言語分析システムのブロック図である。自然言語分析システム200は、計算機201-1、201-2および端末202を有する。計算機201-1、201-2および端末202はネットワーク203に接続されている。ネットワーク203は有線または無線の回線によりデータの送受信を可能にする。
【0019】
計算機201-1は、自然言語データを入力とし分析結果を出力する計算機である。計算機201-2は、語彙データ150から不要語を推定するクエリ120を生成する情報処理装置である。以下、計算機201-1と計算機201-2を区別する必要がないときには計算機201と総称する場合がある。端末202は、ユーザが操作する計算機である。
【0020】
図3は、計算機のハードウェア構成例を示すブロック図である。計算機300(計算機201および端末202)は、プロセッサ301と、記憶デバイス302と、入力デバイス303と、出力デバイス304と、通信インターフェース(通信IF)305と、を有する。プロセッサ301、記憶デバイス302、入力デバイス303、出力デバイス304、および通信IF305は、バス306により接続される。プロセッサ301は、計算機300を制御する。記憶デバイス302は、プロセッサ301の作業エリアとなる。また、記憶デバイス302は、各種プログラムやデータを記憶する非一時的なまたは一時的な記録媒体である。記憶デバイス302としては、たとえば、ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)、フラッシュメモリがある。入力デバイス303は、データを入力する。入力デバイス303としては、たとえば、キーボード、マウス、タッチパネル、テンキー、スキャナ、マイクがある。出力デバイス304は、データを出力する。出力デバイス304としては、たとえば、ディスプレイ、プリンタ、スピーカがある。通信IF305は、ネットワーク203と接続し、データを送受信する。
【0021】
図2に戻り、計算機201-1は、データ解析部210を有する。データ解析部210は、
図1の巨大NLPモデル140であり、具体的には、たとえば、
図2に示した記憶デバイス302に記憶された語彙データ150を用いて、記憶デバイス302に記憶されたプログラムをプロセッサ301に実行させることにより実現される。
【0022】
データ解析部210は、語彙データ150と、形態素解析部211と、情報分析部212と、を有する。語彙データ150は、データ解析部210に入力された自然言語データをソフトウェアプログラムが扱えるように数値へ変換するための対応表データである。
【0023】
図4は、語彙データ150の一例を示す説明図である。自然言語データを構成する単位要素である語402に対し、個別識別番号である語ID401が付されている。
【0024】
語402は、必ずしも自然言語データに含まれている必要はなく、データ解析部210の解析に際して付される特殊記号であってもよい。また、データ解析部210が音声を入力データとする形態の場合には、語402は、音声に対応する波形パターンである。
【0025】
図2に戻り、形態素解析部211は、データ解析部210に入力された自然言語データを解析し、語彙データ150の語402の単位要素へと分離する。またこの際、データ解析部210は、入力された自然言語データに対し、データ解析部210の解析に役する特殊記号を付し、活用された動詞を原形へと変形し、同義語へと置換するなど、自然言語処理の分野で一般に行われる前処理を、形態素解析部211による形態素解析の実行前もしくは実行後に実行してもよい。
【0026】
また、データ解析部210が音声を入力データとする形態の場合には、データ解析部210は、ノイズ除去や音声認識によるテキスト変換などの音声認識の分野で一般に行われる前処理を、形態素解析部211による形態素解析の実行前もしくは実行後に実行してもよい。
【0027】
形態素解析部211は、データ解析部210に入力された自然言語データを形態素解析により分離し、語彙データ150を参照して、語ID401や属性値403などの電子的に処理するための数値やその列へと変換する。形態素解析部211は、語ID401や属性値403を情報分析部212に送信する。
【0028】
なお、形態素解析部211によって分離された単位である語402は、意味を有する単語やそれらを連結した単位であってもよいし、外部データ中の出現頻度から機械的に作成されたそれぞれに意味を持たない単位であってもよい。
【0029】
情報分析部212は、データ解析部210に入力された自然言語データが変換された語ID401や属性値403を入力とし、その分析結果を出力する。具体的には、たとえば、データ解析部210に自然言語データのトピック分類を実行する機能があれば、情報分析部212は、当該分類結果を出力することができる。また、データ解析部210に音声を認識し他ソフトウェアへの動作命令を出力する機能があれば、情報分析部212は、当該動作命令を出力することができる。
【0030】
計算機201-2は、コーパスデータ100と、クエリ生成部221と、出力情報生成部222と、を有する。コーパスデータ100は、記憶デバイス302に記憶されている。クエリ生成部221および出力情報生成部222は、具体的には、たとえば、記憶デバイス302に記憶されたプログラムをプロセッサ301に実行させることにより実現される。
【0031】
<クエリ生成処理>
図5は、実施例1にかかるクエリ生成部221によるクエリ生成処理手順例を示すフローチャートである。クエリ生成部221は、語彙データ150およびコーパスデータ100を取得する(ステップS501)。つぎに、クエリ生成部221は、語彙データ150中の語402のうち、コーパスデータ100の自然言語データにも含まれる語402から、1または複数の語402を選択し、共通語Bに設定する(ステップS502)。
【0032】
つぎに、クエリ生成部221は、ステップS502において選択された共通語Bを含む1または複数の文をコーパスデータ100から選択し、クエリ由来文110に設定する(ステップS503)。クエリ生成部221は、たとえば、文の長さや、共通語Bのコーパスデータ100内での出現頻度を基準にクエリ由来文110を選択することができる。クエリ生成部221は、具体的には、たとえば、所定文字数以上の文や出現頻度が所定頻度以上の共通語Bを含む文をクエリ由来文110として選択する。
【0033】
つぎに、クエリ生成部221は、ステップS503において選択されたクエリ由来文110が含む語のうち、共通語Bを除いて1または複数の語C(
図1の例では「煙草」)を選択し、入替対象語611に設定する(ステップS504)。
【0034】
また、クエリ生成部221は、クエリ由来文110を加工し、データ解析部210がクエリ由来文110に含まれる共通語Bに関する認識を試行するクエリ120を作成する(ステップS505)。
【0035】
ここで加工とは、たとえば、データ解析部210に、一部の語がマスクされた自然言語データを入力としそのマスクされた語としての尤度が高い語402を抽出する機能があれば、当該クエリ由来文110の当該共通語Bをマスクすることで、共通語Bに関する認識を試行するクエリ120を作成する。
【0036】
また、データ解析部210に、音声を認識し他ソフトウェアへの動作命令を出力する機能があれば、クエリ生成部221は、当該クエリ由来文110の音声において共通語Bの波形パターンにノイズを付加することで、共通語Bに関する認識を試行するクエリ120を作成する。なお、クエリ生成部221は、加工対象となる共通語Bを指定するだけで、加工対象に指定された共通語Bの加工については、データ解析部210が実行してもよい。
【0037】
クエリ生成部221は、ステップS505において作成されたクエリ120を出力情報生成部222に送信して処理を終了する(ステップS506)。また、クエリ生成部221は、クエリ120を記憶デバイス302に格納し、ユーザからの命令によって端末202に送信してもよい。
【0038】
<クエリ表示画面例>
図6Aは、実施例1にかかるクエリ表示画面の一例を示す説明図である。クエリ表示画面600Aは、出力情報生成部222が作成した情報により端末202に表示される。クエリ表示画面600Aは、クエリ表示欄601とクエリ由来文表示欄602とを有する。クエリ表示欄601は、クエリ生成部221から受信したクエリ120を表示する。クエリ120内のMASK122は、ステップS505によりクエリ由来文110の共通語Bから置換されたデータである。
【0039】
また、ステップS504で語Cとして選択されたクエリ120内の「煙草」を示す語111は、入替対象語611に置換されている。入替対象語611は、語彙データ150内の語Aを挿入可能であることを示す。なお、クエリ生成部221は、入替対象となる語Cを指定するだけで、入替対象に指定された語Cの入替対象語611への置換については、データ解析部210が実行してもよい。
【0040】
クエリ由来文表示欄602は、当該クエリ120をクエリ生成部221で作成する際に加工対象となったクエリ由来文110を表示する。ユーザは、クエリ120とクエリ由来文110とを比較することで、どの語がMASK122に置換され、どの語が入替対象語611に置換されたかを視認することができる。
【0041】
図6Bは、実施例1にかかるクエリ表示画面の他の例を示す説明図である。クエリ表示画面600Bも、出力情報生成部222が作成した情報により端末202に表示される。クエリ表示画面600Bは、クエリ生成部221から受信したクエリ120をコマンドライン上に表示する。また、当該クエリ120をクエリ生成部221で作成する際に加工対象となったクエリ由来文110をコマンドライン上に表示する。
【0042】
なお、クエリ120およびクエリ由来文110が音声データである場合、クエリ生成部221は、音声認識によりテキストデータに変換して、端末202において
図6Aまたは
図6Bのように表示してもよく、
図6Aのクエリ表示画面600Aにおいてクエリ120およびクエリ由来文110の各々を再生可能なアイコンを表示してもよい。
【0043】
端末202は、ユーザの操作により、語彙データ150を表示する。ユーザは、入力デバイス303を操作して、語彙データ150中の語402を、クエリ表示欄601に表示されたクエリ120における入替対象語611に挿入する。端末202は、入替対象語611に語402が挿入されたクエリ120をデータ解析部210に送信する。これにより、データ解析部210は、クエリ120内における共通語Bに関する認識を試行する。
【0044】
具体的には、たとえば、データ解析部210は、MASK122で置換された共通語Bについての推論に語Aがどの程度寄与するかを、MASK122で置換された共通語Bを推定するMASKED LANGUAGE MODELを用いて測定する。測定結果である寄与度がしきい値以下であれば、データ解析部210は、語Aがユーザにとっての不要語であると推定し、その語Aを語彙データ150から削除する。
【0045】
ユーザの目的に応じコーパスデータ100が収集された特定ドメインにおいて用いられるが、コーパスデータ100に用いられない語がある場合でも、当該特定ドメインで使用される語である当該クエリ120内の当該共通語Bに関する認識に影響を及ぼしうるかという観点により、データ解析部210は、語彙データ150から不要語を適切に推定することができる。
【0046】
また、データ解析部210は、当該共通語Bに係る認識処理として、いわゆる説明可能AI(eXplainable AI)を用いて、MASK122で置換された共通語Bについての推論に語Aがどの程度寄与するか測定することもできる。
【0047】
このように、実施例1によれば、コーパスデータ100におけるユーザにとっての不要語を語彙データ150から適切に特定可能なクエリ120をユーザに提示することができる。したがって、ユーザは、語Aがクエリ120の文脈において不要語候補であることを把握することができる。
実施例2では、実施例1で作成したクエリ120に語彙データ150中の語Aを挿入してデータ解析部210に入力した結果、データ解析部210からの出力データに基づき語彙データ150中の語Aの削除の可否を定めるのに有用な情報を提供する例を示す。なお、実施例2では、実施例1との相違点を中心に説明するため、実施例1と同一構成には同一符号を付し、その説明を省略する。
つぎに、取得部721は、語彙データ150の語402のうち、コーパスデータ100に含まれない語Aを取得して不要語候補とし、不要語候補Aからなる不要語候補群を作成する(ステップS803)。なお、取得部721は、語402のうち、コーパスデータ100に含まれない語Aのすべてを不要語候補としてもよく、予め定められた値や、後述する設定画面900から入力された値などを元に適当な割合をサンプリングして不要語候補としてもよい。
つぎに、取得部721はステップS803によって作成した不要語候補群から選択した不要語候補Aを更新しながら、ステップS805およびS806の処理を繰り返す(ステップS804)。
つぎに、取得部721は、代入クエリ120をデータ解析部210に入力し、データ解析部210が出力する代入クエリ120内の共通語Bに関する認識結果(たとえば、寄与度)を受信し、取得データ722に格納する。
クエリタスク選択欄910は、クエリ由来文110を加工しクエリを作成する際の加工手法を明に選択するための2つのラジオボタン911,912を有する。ラジオボタン911は、Masked Language Modelによる加工を選択するためのボタンである。ラジオボタン912は、音声認識による加工を選択するためのボタンである。
メトリクス選択欄920は、取得部721がステップS806にて不要語候補Aごとに、代入クエリ120内の共通語Bに関する認識結果を取得する際の、取得基準の設定を受け付けるチェックボックス921~924を有する。黒塗りは、そのチェックボックスが選択されたことを示す。
チェックボックス921は、不要語候補Aに対するマスクされた共通語Bの尤もらしさを示す尤度の取得を選択するチェックボックスである。チェックボックス921により尤度が選択されると、取得部721は、データ解析部210から、データ解析部210が算出した共通語Bの尤度をメトリクス値として不要語候補Aごとに取得する。
チェックボックス922は、クエリ120が音声データである場合に、クエリ120のノイズ頑健性の測定を選択するチェックボックスである。チェックボックス922によりノイズ頑健性の測定が選択されると、取得部721は、クエリ生成部221に代入クエリ120の共通語Bの音声パターンへのノイズ付加を指示する。そして、クエリ生成部221は、共通語Bが音声認識できる限界まで共通語Bの音声パターンにノイズを付加する。取得部721は、クエリ生成部221から、共通語Bの音声パターンに付加したノイズの強度をメトリクス値として取得する。
チェックボックス923は、不要語候補Aとマスクされた共通語Bとのアテンションの取得を選択するチェックボックスである。チェックボックス923によりアテンションが選択されると、取得部721は、データ解析部210から、データ解析部210が算出したアテンションを不要語候補Aごとに取得する。アテンションは、不要語候補Aと共通語Bとの関連度であり、0以上1以下の値をとる。アテンションの値が大きいほど不要語候補Aと共通語Bとの関連度が高いことを示す。
また、プルダウン925により、アテンションとして適切な範囲を指定することが可能である。これにより、当該範囲を逸脱するアテンションとなる不要語候補Aを取得対象から除外する例外処理の設定が可能になる。
チェックボックス924は、説明可能AI(XAI)を用いて、MASK122で置換された共通語Bについての推論に不要語候補Aがどの程度寄与するかを示すXAI寄与度の取得を選択するチェックボックスである。チェックボックス924によりXAI寄与度が選択されると、取得部721は、データ解析部210から、データ解析部210が算出した不要語候補AのXAI寄与度をメトリクス値として取得する。XAI寄与度が大きいほど、不要語候補Aが、MASK122で置換された共通語Bについての推論に寄与する度合いが高いことを示す。
また、プルダウン926により、XAI寄与度として適切な範囲を指定することが可能である。これにより、当該範囲を逸脱するXAI寄与度となる不要語候補Aを取得対象から除外する例外処理の設定が可能になる。
不要語候補群設定欄930は、取得部721がステップS803にて不要語候補群を作成する際の設定を受け付けるラジオボタン931~933を有する。ラジオボタン931は、語彙データ150のうち、コーパスデータ100に含まれない語Aの全数を不要語候補群に設定するためのチェックボックスである。
ラジオボタン932は、ラジオボタン931は、語彙データ150のうち、コーパスデータ100に含まれない語Aを任意の割合で不要語候補群に設定するためのチェックボックスである。
ラジオボタン933は、ユーザ辞書から不要語候補Aを選択するためのチェックボックスである。ユーザ辞書は、コーパスデータ100とは異なるユーザ独自の単語の辞書である。ユーザ辞書から選択された不要語候補Aは、ユーザ操作により、データ解析部210にアップロードされる。
クエリ数設定欄940は、クエリ生成部221がクエリ120を作成し、取得部721が不要語候補Aごとに代入クエリ120内の共通語Bに関する認識結果を取得するという処理を繰り返し回数の設定を受け付けるラジオボタン941、942を有する。
ラジオボタン941は、ユーザが任意に入力可能な繰り返し回数を選択するためのラジオボタンである。ラジオボタン942は、ユーザが任意に入力可能な要求不要語数を選択するためのラジオボタンである。要求不要語数とは、不要語として特定すべき語の数である。これにより、クエリ生成部221は、一定の基準を満たす不要語の数が要求不要語数となるまで、共通語Bまたはクエリ由来文110を変更しながらクエリ120を作成する。
ユーザは、クエリタスク選択欄910、メトリクス選択欄920、不要語候補群設定欄930およびクエリ数設定欄940での設定を行い、保存ボタン950を押下することにより、クエリタスク選択欄910、メトリクス選択欄920、不要語候補群設定欄930およびクエリ数設定欄940での選択条件がクエリ生成部221または取得部721による処理に適用される。
不要語候補ID1001は、値として、不要語候補Aを一意に特定する識別情報を有する。不要語候補ID1001の値に、語ID401の値を用いてもよい。不要語候補1002は、値として、上述した不要語候補Aを有する。
尤度1031は、メトリクス値1003として、メトリクス選択欄920でチェックボックス921が選択された場合にデータ解析部210から取得される尤度を不要語候補Aごとに有する。ノイズレベル1032は、メトリクス値1003として、メトリクス選択欄920でチェックボックス922が選択された場合にデータ解析部210から取得される共通語Bをマスクしたノイズのノイズレベルを不要語候補Aごとに有する。
アテンション1033は、メトリクス値1003として、メトリクス選択欄920でチェックボックス923が選択された場合にデータ解析部210から取得されるアテンションを不要語候補Aごとに有する。XAI寄与度1034は、メトリクス値1003として、メトリクス選択欄920でチェックボックス924が選択された場合にデータ解析部210から取得されるXAI寄与度を不要語候補1002(A)ごとに有する。
また、取得部721は、尤度1031とノイズレベル1032とアテンション1033とXAI寄与度1034とを正規化し、正規化した尤度1031とノイズレベル1032とアテンション1033とXAI寄与度1034との統計値(たとえば、合計値、平均値、中央値、最大値または最小値)を不要語候補1002(A)ごとに算出して、取得データ722に格納してもよい。
不要語候補表示欄1103には、取得データ722の不要語候補1002(A)が表示される。端末202は、取得データ722のすべてを表示してもよいし、取得データ722のメトリクス値1003またはそれらから算出される統計値を用いてソートした結果の一部を表示してもよい。またその場合、端末202は、メトリクス値1003を表示しなくてもよい。また、端末202は、不要語候補表示欄1103には、表示された不要語候補1002(A)の総数や、メトリクス値1003またはそれらから算出される統計値を表示してもよい。
ユーザが一括削除ボタン1104を押下すると、出力情報生成部222は、不要語候補表示欄1103に表示された不要語候補1002(A)を語彙データ150から一括で削除する。
また、出力情報生成部222は、クエリ生成部221から受信したクエリ120、クエリ由来文110、または、取得データ722の一部もしくはすべてを、記憶デバイス302に格納し、ユーザからの命令によって端末202において表示可能な形式で端末202に送信してもよい。また、出力情報生成部222は、記憶デバイス302に格納された取得データ722内の不要語候補1002(A)を語彙データ150から一括で削除する命令を端末202から受け付けることもできる。なお、クエリ120が音声データの場合、出力情報生成部222は、入替対象語611に不要語候補1002(A)が挿入された代入クエリ120ごとに音声ファイルを生成してもよい。
ユーザは、不要語候補表示欄1103に表示された情報を参照して、語彙データ150中の不要語候補1002(A)の削除の可否を決定する。これにより、ユーザの目的に応じコーパスデータ100が収集された特定ドメインにおいて用いられることがあるがコーパスデータ100に用いられない語がある場合でも、当該特定ドメインで使用される語であるクエリ120内の共通語Bの認識に影響を及ぼしうるかという観点から、データ解析部210は、より少ない工数で適切に不要語を推定することができる。