(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-05
(45)【発行日】2024-01-16
(54)【発明の名称】変換テーブル生成装置、音声対話システム、変換テーブル生成方法、およびコンピュータプログラム
(51)【国際特許分類】
G10L 15/22 20060101AFI20240109BHJP
G10L 15/06 20130101ALI20240109BHJP
G10L 13/00 20060101ALI20240109BHJP
【FI】
G10L15/22 470Z
G10L15/06 300E
G10L13/00 100M
(21)【出願番号】P 2021566631
(86)(22)【出願日】2019-12-25
(86)【国際出願番号】 JP2019050798
(87)【国際公開番号】W WO2021130892
(87)【国際公開日】2021-07-01
【審査請求日】2022-06-03
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100109313
【氏名又は名称】机 昌彦
(74)【代理人】
【識別番号】100149618
【氏名又は名称】北嶋 啓至
(72)【発明者】
【氏名】森部 正二朗
【審査官】大野 弘
(56)【参考文献】
【文献】特開2018-045001(JP,A)
【文献】特開平09-244692(JP,A)
【文献】特開平04-081898(JP,A)
【文献】特開2010-097411(JP,A)
【文献】特開2018-072578(JP,A)
【文献】特開2018-004976(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/22
G10L 15/06
G10L 13/00
(57)【特許請求の範囲】
【請求項1】
対話で用いられる単語グループに含まれる第1の単語それぞれについて、前記第1の単語に類似した類似語を抽出する類似語抽出手段と、
抽出した前記類似語のうち複数の前記第1の単語に類似している類似語について、
前記第1の単語と前記類似語の母音または子音の類似性に基づいて決定される優先度に基づいていずれか1つの前記第1の単語に第2の単語として関連付け、前記第2の単語を変換元、前記第1の単語を変換先とする変換テーブルを生成する音声認識のための変換テーブル生成手段と
を備える変換テーブル生成装置。
【請求項2】
前記変換テーブル生成手段は、母音と子音が共通する文字を行と列に並べた表を参照し、複数の前記第1の単語に類似している前記類似語を行または列が一致する前記第1の単語に関連付ける請求項
1に記載の変換テーブル生成装置。
【請求項3】
前記変換テーブルを用いて音声認識の結果に含まれる前記第1の単語を前記第2の単語に置換して補正する動作のログを取得するログデータ取得手段をさらに備え、
前記変換テーブル生成手段は、前記ログに基づいて前記変換テーブルを更新する請求項1
または2に記載の変換テーブル生成装置。
【請求項4】
対話で用いられる単語グループが含まれるデータを取得するデータ取得手段と、
前記対話で用いられる単語グループが含まれるデータから単語を抽出する解析手段と
をさらに備え、
前記類似語抽出手段は、前記解析手段が抽出した単語それぞれについて、前記類似語を抽出する請求項1から
3いずれかに記載の変換テーブル生成装置。
【請求項5】
請求項1から
4いずれかに記載の変換テーブル生成装置と、
入力された音声データを音声認識によって文に変換する音声認識手段と、
前記音声認識手段によって認識された文から前記変換テーブルに含まれる前記第2の単語を検出したときに、前記変換テーブルに基づいて前記第2の単語を前記第1の単語に置き換える認識結果変換手段と、
前記認識結果変換手段から出力された文への応答用の文を生成する音声対話制御手段と
を備える音声対話システム。
【請求項6】
対話で用いられる単語グループに含まれる第1の単語それぞれについて、前記第1の単語に類似した類似語を抽出し、
抽出した前記類似語のうち複数の前記第1の単語に類似している類似語について、
前記第1の単語と前記類似語の母音または子音の類似性に基づいて決定される優先度に基づいていずれか1つの前記第1の単語に第2の単語として関連付け、前記第2の単語を変換元、前記第1の単語を変換先とする変換テーブルを音声認識用に生成する変換テーブル生成方法。
【請求項7】
母音と子音が共通する文字を行と列に並べた表を参照し、複数の前記第1の単語に類似している前記類似語を行または列が一致する前記第1の単語に関連付ける請求項
6に記載の変換テーブル生成方法。
【請求項8】
対話で用いられる単語グループに含まれる第1の単語それぞれについて、前記第1の単語に類似した類似語を抽出する処理と、
抽出した前記類似語のうち複数の前記第1の単語に類似している類似語について、
前記第1の単語と前記類似語の母音または子音の類似性に基づいて決定される優先度に基づいていずれか1つの前記第1の単語に第2の単語として関連付け、前記第2の単語を変換元、前記第1の単語を変換先とする変換テーブルを音声認識用に生成する処理と
をコンピュータに実行させるコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声対話技術に関するものであり、特に、音声認識結果の補正を行う技術に関するものである。
【背景技術】
【0002】
予約システムやコンタクトセンターなどにおいて利用者に自動で対応する音声対話システムが広く用いられている。音声対話システムは、利用者の音声を認識して文に変換し、利用者の発話の内容に応じた文をチャットボットとも呼ばれる音声対話制御装置で生成することで会話を成立させる。そのため、利用者の発話を正確に認識することが応答の精度を高める上で重要となる。
【0003】
音声認識において同音異義語や類音語は、正しく認識することが難しい。そのように認識が難しい単語に対して音声認識の精度を向上する際に、1つの文に出現する単語の並びを統計情報として学習させ、前後の単語から推測する方法が用いられる。しかし、利用者の回答は、短い文で行われることも多く、前後の文章から推測することで精度を上げることは難しい。そのため、短い発話であっても同音異義語や類音語の認識精度を向上する技術があることが望ましい。そのような、同音異義語や類音語の音声認識の精度を上げる技術としては、例えば特許文献1のような技術が開示されている。
【0004】
特許文献1は、音声認識によって誤認識された文字を補正する音声認識システムに関するものである。特許文献1の音声認識システムは、誤認識単語候補と、誤認識単語候補の変換先の単語の候補を関連付けた変換データテーブルを有している。誤認識単語候補は、変換先の単語に認識するべきときに間違って認識される単語のことをいう。特許文献1の音声認識システムは、誤認識単語候補を検出した際に、変換先の単語に変換している。特許文献1は、誤認識単語候補を検出した際に、変換先の単語に変換することで誤認識を低減できるとしている。
【先行技術文献】
【特許文献】
【0005】
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、特許文献1の技術は次のような点で十分ではない。特許文献1では、音声認識結果を変換データテーブルに基づいて単語を置換することで補正している。特許文献1では、音声認識結果の補正に用いる変換データテーブルを生成する際に、誤認識単語候補と、誤認識単語候補の変換先の単語の候補を関連付けた変換データをあらかじめ作業者が設定する必要がある。しかし、音声認識システムで使用される可能性のある単語それぞれについて、作業者が誤変換されにくい単語を推定して変換テーブルを生成することは困難であり、信頼性の高い変換データテーブルを作成すために必要な作業量は膨大になり得る。そのため、特許文献1の技術は、音声認識の精度を向上するために、音声認識結果を補正するための技術としては十分ではない。
【0007】
本発明は、上記の課題を解決するため、音声認識結果を補正する際に用いる変換テーブルを生成するために必要な作業量を抑制することができる変換テーブル生成装置、音声対話システム、変換テーブル生成方法、音声対話方法および記録媒体を提供することを目的としている。
【課題を解決するための手段】
【0008】
上記の課題を解決するため、本発明の変換テーブル生成装置は、類似語抽出部と、変換テーブル生成部を備えている。類似語抽出部は、対話で用いられる単語グループに含まれる第1の単語それぞれについて、第1の単語に類似した類似語を抽出する。変換テーブル生成部は、抽出した類似語のうち複数の第1の単語に類似している類似語について、優先度に基づいていずれか1つの第1の単語に第2の単語として関連付け、第2の単語を変換元、第1の単語を変換先とする変換テーブルを音声認識用に生成する。
【0009】
本実施形態の変換テーブル生成方法は、対話で用いられる単語グループに含まれる第1の単語それぞれについて、第1の単語に類似した類似語を抽出する。本実施形態の変換テーブル生成方法は、抽出した類似語のうち複数の第1の単語に類似している類似語について、優先度に基づいていずれか1つの第1の単語に第2の単語として関連付け、第2の単語を変換元、第1の単語を変換先とする変換テーブルを音声認識用に生成する。
【0010】
本実施形態の音声対話方法は、対話で用いられる単語グループに含まれる第1の単語それぞれについて、第1の単語に類似した類似語を抽出する。本実施形態の音声対話方法は、抽出した類似語のうち複数の第1の単語に類似している類似語について、優先度に基づいていずれか1つの第1の単語に第2の単語として関連付け、第2の単語を変換元、第1の単語を変換先とする変換テーブルを生成する。本実施形態の音声対話方法は、入力された音声データを音声認識によって文に変換し、音声データから変換された文から変換テーブルに含まれる前記第2の単語を検出したときに、変換テーブルに基づいて第2の単語を第1の単語に置き換える。本実施形態の音声対話方法は、第2の単語から第1の単語に置き換えが行なわれた文への応答用の文を生成する。
【0011】
本実施形態の記録媒体は、コンピュータに処理を実行させるコンピュータプログラムを記録する。コンピュータプログラムは、対話で用いられる単語グループに含まれる第1の単語それぞれについて、第1の単語に類似した類似語を抽出する処理をコンピュータに実行させる。コンピュータプログラムは、抽出した類似語のうち複数の第1の単語に類似している類似語について、優先度に基づいていずれか1つの第1の単語に第2の単語として関連付け、第2の単語を変換元、第1の単語を変換先とする変換テーブルを音声認識用に生成する処理をコンピュータに実行させる。
【発明の効果】
【0012】
音声認識結果を補正する際に用いる変換テーブルを生成するために必要な作業量を抑制することができる。
【図面の簡単な説明】
【0013】
【
図1】本発明の第1の実施形態の構成を示す図である。
【
図2】本発明の第1の実施形態における音声対話の例を示す図である。
【
図3】本発明の第1の実施形態の変換テーブルの例を示す図である。
【
図4】本発明の第1の実施形態の認識結果変換装置の構成を示す図である。
【
図5】本発明の第1の実施形態の変換テーブル生成装置の構成を示す図である。
【
図6】本発明の第1の実施形態における変換先の単語の例を示す図である。
【
図7】本発明の第1の実施形態における類似語の抽出の例を示す図である。
【
図8】本発明の第1の実施形態において抽出された類似語の例を示す図である。
【
図9】本発明の第1の実施形態において変換テーブルを生成する際の基準を示す図である。
【
図10】本発明の第1の実施形態の変換テーブル生成装置の動作フローを示す図である。
【
図11】本発明の第2の実施形態の構成を示す図である。
【
図12】本発明の第2の実施形態の変換テーブル生成装置の構成を示す図である。
【
図13】本発明の第2の実施形態の変換テーブル生成装置の動作フローを示す図である。
【
図14】本発明の第3の実施形態の変換テーブル生成装置の構成を示す図である。
【
図15】本発明の第3の実施形態の変換テーブル生成装置の動作フローを示す図である。
【発明を実施するための形態】
【0014】
(第1の実施形態)
本発明の第1の実施形態について図を参照して詳細に説明する。
図1は、本実施形態の音声対話システムの構成を示した図である。本実施形態の音声対話システムは、音声キャプチャ装置10と、音声認識装置20と、認識結果変換装置30と、音声対話制御装置40と、音声合成装置50と、変換テーブル生成装置60を備えている。
【0015】
本実施形態の音声対話システムの構成を説明する前に、対話の事例を示す
図2を参照して動作の例を説明する。
図2は、本実施形態の音声対話システムが、ホテルあるいは交通機関等の予約システムに備えられた場合の利用者と音声対話システムとの対話の例を示した図である。
図2の「変換」は、認識結果変換装置30によって行われる。本実施形態の音声対話システムは、チャットボットと呼ばれる対話装置の利用を想定している。利用者は、携帯端末を利用して
図2に示す音声対話システムと、通信ネットワークを経由して通信しながら対話してもよい。また、利用者は、音声対話システムと直接、対話してもよい。
【0016】
利用者が、たとえば、所定のボタン等を操作して対話を開始すると、音声対話制御装置40は、例えば、「ご用件をお話し下さい」という文を生成し、音声合成装置50を介して合成音声として利用者に伝達する。「ご用件をお話し下さい」に対し、利用者は、例えば、「予約したいです」という要望の音声を発したとする。そのとき、音声キャプチャ装置10は、利用者の音声を受信し利用者の音声データを音声認識装置20に出力する。音声認識装置は、利用者の音声データを認識してテキストデータに変換するが、音声認識装置20が、利用者の「予約したいです」という音声を正常に認識できずに「要約したいです」と認識したとする。日本語では、「予約」と「要約」は類音語の関係にある。「要約したいです」という音声認識装置20の認識結果であるテキストデータは、認識結果変換装置30に入力される。
【0017】
音声認識装置20からテキストデータを受け取った認識結果変換装置30は、
図3に示す変換テーブルを参照して、「要約したいです」に変換テーブルに含まれている単語があるかを確認する。
図3は、変換テーブルの例を示した図である。変換テーブルは、変換元の単語に設定されている単語が、認識結果変換装置30による音声認識結果に含まれているとき、変換元の単語を変換先として設定されている単語に置換する際に用いられる。変換テーブルは、予め、変換テーブル生成装置60によって生成され、認識結果変換装置30に記憶されるが、その生成については、後述する。
【0018】
認識結果変換装置30は、
図3を参照すると、変換テーブルの変換元に設定されている「要約」という単語が「要約したいです」に含まれていることを検出する。変換テーブルの変換元に設定されている「要約」を音声認識結果から検出すると、認識結果変換装置30は、「要約」を変換テーブルにおいて「要約」の変換先として設定されている「予約」に変換する。「要約」を「予約」に変換すると、認識結果変換装置30は、音声認識結果を「予約したいです」に補正した文を音声対話制御装置40に出力する。
【0019】
「予約したいです」に補正された利用者からの回答を受け取った音声対話制御装置40は、次に「人数を教えて下さい」のような応答を出力する。「人数を教えて下さい」に対して、利用者が「5人です」と答えた場合に、音声認識装置20が「誤認です」と変換したとする。日本語では、「5人」と「誤認」は同音異義語の関係にある。「誤認です」という音声認識結果であるテキストデータを取得した認識結果変換装置30は、「誤認です」の「誤認」を検出し、それが変換テーブル中にある「誤認」に含まれていることを検出すると、「誤認」を変換先の「五人」に変換し、「五人です」に補正する。認識結果変換装置30は、「五人です」に補正した音声認識結果を音声対話制御装置40に出力する。
【0020】
このように本実施形態の音声対話システムは、認識結果変換装置30が変換テーブルに基づいて、音声認識装置20の音声認識結果を補正するため、音声認識装置20が誤認識をした場合にも対話を安定して継続することができる。本実施形態の音声対話システムは、上記のように音声認識結果を補正する際に用いる変換テーブルを変換テーブル生成装置60において自動的に生成することを特徴とする。
【0021】
始めに、
図1の音声対話システムを構成する各装置について説明する。
【0022】
音声キャプチャ装置10は、マイクなどを介して利用者の音声の音声信号を取得し、音声信号をサンプリングし、ディジタル信号の音声データに変換する。音声キャプチャ装置10は、音声データを音声認識装置20に出力する。音声キャプチャ装置10は、スマートフォンなどの利用者が所持している端末装置が利用者の音声から生成した音声データを、ネットワークを介して取得してもよい。
【0023】
音声認識装置20は、音声キャプチャ装置10から入力される利用者の音声データを音声認識によってテキストデータに変換する。音声認識装置20は、音響モデル、言語モデルおよび単語辞書を用いて音声データの音声認識を行い、音声データをテキストデータに変換する。
【0024】
認識結果変換装置30は、変換テーブルに基づいて、音声認識装置20から入力されるテキストデータに含まれる文を補正する。
図4は、認識結果変換装置30の構成を示す図である。認識結果変換装置30は、認識結果変換部31と、変換テーブル保存部32を備えている。
【0025】
認識結果変換部31は、音声認識装置20から受信した音声認識結果のテキストデータの文中に、変換テーブルに変換元として設定された単語が含まれているかを確認する。認識結果変換部31は、変換テーブルの変換元に含まれている単語を、音声認識結果の文中から検出すると、検出した単語を変換先の単語に置換する。例えば、音声認識結果に「要約」が含まれているとき、認識結果変換部31は、「要約」を変換テーブル中で「要約」の変換先に設定されている「予約」に変換する。
【0026】
変換テーブル保存部32は、変換テーブルのデータを保存している。変換テーブルのデータは、変換テーブル生成装置60で生成される。
【0027】
音声対話制御装置40は、機械学習によって生成された学習モデルを用いて、利用者の発話内容を解析し、解析結果に応じた応答文を生成することで対話を可能にする。音声対話制御装置40は、あらかじめ質問と回答の組み合わせが設定されたルール型の対話処理を行うものであってもよい。音声対話制御装置40は、変換テーブル生成装置60を制御する。
【0028】
音声合成装置50は、音声対話制御装置40から入力される利用者に伝達する質問や通知の文のテキストデータを音声データに変換して出力する。
【0029】
次に、変換テーブル生成装置60の構成について説明する。
図5は、本実施形態の変換テーブル生成装置60の構成を示す図である。変換テーブル生成装置60は、データ取得部61と、解析部62と、類似語抽出部63と、変換テーブル生成部64と、変換テーブル出力部65と、辞書データ保存部66を備えている。
【0030】
データ取得部61は、音声対話に用いられる単語が含まれているデータを取得する。データ取得部61は、例えば、音声対話制御装置40が内部に保持している音声対話用のデータを音声対話制御装置40から取得する。音声対話制御装置40が内部に保持している音声対話用のデータは、シナリオデータとも呼ばれる。音声対話用のデータには、例えば、音声対話システムが予約システムに用いられる場合には、予約で使われる「予約」、「変更」、「取り消し」などの単語が含まれている。
図6は、音声対話制御装置40が内部に保持している、予約で使われる語句の例を示した図である。
図6に示すように、語句には、単語と助詞が組み合わされた句、節、短文が含まれている。これらの語句は、認識結果変換装置30から音声対話制御装置40に正しく入力される必要がある語句であり、音声対話制御装置40に正しく認識させたい語句である。
【0031】
データ取得部61は、利用者の回答と音声対話制御装置40が音声合成装置50に出力する応答のログのデータ(応答の会話履歴データ)を音声対話に用いられる単語が含まれているデータとして取得してもよい。また、ルール型の音声対話制御装置40の場合は、データ取得部61は、質問と回答の関係のようにあらかじめ設定されているルールが記載されているデータを取得してもよい。
【0032】
解析部62は、辞書データを参照して形態素解析を行い、データ取得部61が音声対話制御装置40から取得したデータから単語を抽出する。解析部62が抽出した単語は、変換テーブルにおいて変換先の単語として用いられる。音声対話制御装置40から取得したデータは、音声対話システムの適用分野である予約システムなどに合わせて生成されている。そのため、音声対話制御装置40から取得したデータから単語を抽出することで、予約システムにおいて用いられる単語を過不足なく抽出することができる。
【0033】
類似語抽出部63は、辞書データを参照し、解析部62が抽出した単語それぞれの類似語を抽出する。解析部62が抽出した単語は、変換テーブルにおいて変換先として用いられる単語である。類似語抽出部63は、解析部62が抽出した単語それぞれについて同音異義語と類音語を類似語として抽出する。
【0034】
図7は、類似語の抽出方法の例を示したものである。
図7は、「予約(よやく)」の類似語を抽出する例を示している。「予約(よやく)」の(よやく)は、単語の読みの説明のために記したものであり、他の単語についても同様である。類似語抽出部63は、始めに辞書データを参照し、日本語において「予約(よやく)」の同音異義語である「与薬(よやく)」を抽出する。同音異義語を抽出すると、類似語抽出部63は、「予約(よやく)」の類音語を抽出する。
【0035】
類似語抽出部63は、変換先の単語の類音語として、始めに「予約(よやく)」の1文字を他の文字で置き換えた1文字違いの類音語を抽出する。類似語抽出部63は、例えば、「予約(よやく)」の類音語として、「予約(よやく)」先頭の文字「よ」を「い」で置換した「意訳(いやく)」を抽出する。また、類似語抽出部63は、変換先の単語の文字列に、促音、撥音、拗音、長音のいずれか1つまたは複数に付与した類音語を抽出する。類似語抽出部63は、例えば、促音、撥音、拗音、長音のうち、日本語の「予約(よやく)」に長音を付与した類音語として「要約(ようやく)」を抽出する。
【0036】
類似語抽出部63は、類似語を抽出する際に、認識させたい単語、すなわち、変換先の単語と一致する単語は類似語として抽出しない。例えば、「予約(よやく)」と「規約(きやく)」が認識させたい単語、すなわち、変換先の単語として用いられるとする。このとき、類似語抽出部63は、「予約(よやく)」の類音語として「規約(きやく)」を辞書データから検出した際に、「規約(きやく)」を「予約(よやく)」の類音語としては抽出しない。「規約(きやく)」を類音語として抽出すると、変換テーブルにおいて「予約(よやく)」の変換元に「規約(きやく)」が含まれることになり、「規約(きやく)」と認識したいのにも関わらず、認識結果変換装置30において音声認識結果が「予約(よやく)」に変換されてしまうからである。
【0037】
類似語抽出部63は、認識させたい単語それぞれについて類似語を抽出すると、認識させたい単語、すなわち、変換先の単語に、抽出された類似語をそれぞれ関連付けた
図8のようなデータを変換テーブル生成部64に送る。
図8は、認識させたい単語、すなわち、変換先の単語に、抽出された類似語をそれぞれ関連付けたデータの例を示したものである。
図8の例では、類似語を5個のみ示しているが、類似語の数は
図8の例に限らずに抽出された類似語すべてが変換先の単語に関連付けられる。
【0038】
変換テーブル生成部64は、変換先の単語に、類似語抽出部63で抽出された類似語をそれぞれ関連付けた
図8のようなデータから変換テーブルを生成する。変換テーブル生成部64は、複数の変換先の単語に類似語として関連付けられている単語を抽出し、抽出した類似語をいずれか1つの変換先の単語に関連付けることで変換テーブルを生成する。
【0039】
変換テーブルを用いた認識結果変換装置30における単語の置換動作において、同一の類似語は、いずれか1つの変換先の単語に変換される。すなわち、類似語として抽出された単語は、変換テーブルにおいていずれかの変換先の単語に変換元の単語として関連付けられる。
【0040】
変換テーブル生成部64は、2つ以上、すなわち、複数の変換先の単語に類似語として関連付けられている単語について優先度に基づいて、いずれか1つの変換先の単語に関連付ける処理を行う。
【0041】
変換テーブル生成部64は、
図9の表に基づいて、複数の変換先の単語に類似している類音語をいずれの変換先の単語に関連付けるかを決定する。
図9は、言語が日本語の場合に、変換テーブル生成部64が類音語を変換先の単語に関連付ける際に優先度を決定する基準として用いられる表を示している。
図9の表では、縦方向に子音が共通する文字が「あ行」、「か行」などのように並べられている。また、
図9の表では、横方向に母音が共通する文字が「あ段」、「い段」のように並べられている。
図9において濁音は記載されていないが、濁音を含む表を用いてもよい。例えば、
図9の表には「か行」と「さ行」の間に「が行」が含まれていてもよい。
【0042】
変換テーブル生成部64は、
図9の表を参照し、対象の文字、すなわち、類音語を抽出する際に元の文字から変換した文字を音に変換した際に、元の文字と同一行または同一段となる単語に優先的に類似語を優先的に関連付ける。日本語において「規約(きやく)」と「予約(よやく)」に共通した類音語である「意訳(いやく)」は、「規約(きやく)」や「予約(よやく)」の先頭の文字を変換したものである。このとき、変換テーブル生成部64は、類音語を抽出する際に元の文字から変換した先頭の文字の類似性によって、「意訳(いやく)」を「規約(きやく)」や「予約(よやく)」のどちらに関連付けるのかの優先度を決定する。「意訳(いやく)」の先頭の文字を音に変換した「い」は、母音が、「規約(きやく)」の先頭の文字を音に変換した「き」と一致している。変換テーブル生成部64は、変換した文字が変換前後において同一行または同一段にある変換先の単語に優先的に関連付ける。ここで、元の文字と同一行とは、
図9の縦方向の列が同一の文字のことをいい子音が共通している文字のことをいう。また、元の文字と同一段とは、
図9の横方向の列が同一の文字のことをいい母音が共通している文字のことをいう。
【0043】
同様に、「規約(きやく)」と「予約(よやく)」に類音語を関連付ける際に、変換テーブル生成部64は、両方に共通した類音語である「お役(おやく)」を、同一の段、すなわち、母音が共通している「予約(よやく)」に関連付ける。また、変換テーブル生成部64は、両方に共通した類音語である「医薬(いやく)」、「飛躍(ひやく)」、「秘薬(ひやく)」および「試薬(しやく)」を、同一の行、すなわち、子音が共通の「規約(きやく)」に関連付ける。
【0044】
図9の表で行と段のいずれかが重なり、優先順位が同一の場合、変換テーブル生成部64は、例えば、類似語が多い変換先の単語に優先的に関連付ける。変換テーブル生成部64は、同音異義語が2つ以上の変換先の単語に共通しているときも同様に、類似語が多い変換先の単語に優先的に関連付ける。変換テーブル生成部64は、例えば、
図9の表上で、「規約(きやく)」と「予約(よやく)」にいずれとも行と段が一致しない「子役(こやく)」を類似語の多い「規約(きやく)」に関連付ける。
【0045】
類似語の数が多いとき、または、
図9の表上で行と段のいずれも重ならないとき、変換テーブル生成部64は、使用頻度が高い単語に関連付ける。変換テーブル生成部64が関連付けの優先順位を決定できない類似語については、作業者がいずれの変換先の単語に関連付けるかを入力する構成としてもよい。類似語を関連付ける変換先の単語を決定すると、変換テーブル生成部64は、変換先の単語に、変換元として決定された類似語を関連付けた
図3のようなデータ変換テーブルを生成する。また、変換テーブル生成部64は、変換元となる類似語が1つもなかった変換先の単語については、変換テーブル中に含めない。
【0046】
上記のような優先順位で類似語を関連付ける変換先の単語が決定され、2つ以上の変換先の単語に類似している類似語は、いずれか1つの変換先の単語の変換元として関連付けられている。
【0047】
変換テーブルを生成すると、変換テーブル生成部64は、変換テーブルを変換テーブル出力部65に出力する。
【0048】
変換テーブル出力部65は、変換テーブル生成部64が生成した変換テーブルを認識結果変換装置30に出力する。
【0049】
辞書データ保存部66は、辞書データを保存している。辞書データは、通常の辞書に加え、音声対話システムが適用される分野の専門用語が収集された辞書データが用いられる。例えば、病院の窓口での予約や予約の相談に利用される音声対話システムの場合には、医療分野の辞書データが用いられる。
【0050】
データ取得部61、解析部62、類似語抽出部63、変換テーブル生成部64、変換テーブル出力部65および辞書データ保存部66における各処理は、CPU(Central Processing Unit)上でコンピュータプログラムを実行することで行われる。CPUは、ハードディスクドライブ等の記憶装置に保存されたコンピュータプログラムをメモリ上に読み出すことで実行する。
【0051】
辞書データ保存部66は、不揮発性の半導体記憶装置またはハードディスクドライブなどの記憶装置によって構成されている。辞書データ保存部66は、複数の種類の記憶装置の組み合わせによって構成されていてもよい。また、辞書データ保存部66は、変換テーブル生成装置60の外部の記憶装置に備えられ、ネットワークを介して変換テーブル生成装置60と接続されていてもよい。
【0052】
次に、変換テーブル生成装置60の動作について説明する。
図10は、変換テーブル生成装置60の動作フローを示す図である。
【0053】
変換テーブル生成装置60が変換テーブルの生成の動作を開始すると、データ取得部61は、音声対話制御装置40から認識させたい単語が含まれているデータを取得する。認識させたい単語が含まれているデータを取得すると、データ取得部61は、取得したデータを解析部62に送る。
【0054】
認識させたい単語が含まれているデータを取得すると、解析部62は、取得したデータから音声認識において認識させたい単語、すなわち、変換テーブルにおける変換先の単語として用いる単語を抽出する(ステップS11)。解析部62は、辞書データ保存部66に保存されている辞書データを参照し、変換先の単語の候補として抽出する。解析部62は、変換先の単語の候補を抽出する際に、人数や日付などの数字に関する単語も抽出する。
【0055】
単語を抽出すると、解析部62は、抽出した単語のデータを類似語抽出部63に送る。単語のデータを受け取ると、類似語抽出部63は、受け取った単語ごとに類似語を抽出する(ステップS12)。類似語を抽出すると、類似語抽出部63は、変換先の単語にそれぞれ関連付けた類似語のデータを変換テーブル生成部64に送る。類似語のデータを受け取ると、変換テーブル生成部64は、類似語をいずれの変換先の単語に関連付けるかを優先度に基づいて決定する(ステップS13)。
【0056】
変換テーブル生成部64は、
図9のような表に基づいて、2つ以上の変換先の単語に類似している類音語をいずれの変換先の単語に関連付けるかを決定する。類似語をいずれの変換先の単語に関連付けるかを優先度に基づいて決定すると、変換テーブル生成部64は、変換先の単語に、変換元として決定された類似語を関連付けたデータテーブルを、変換テーブルとして生成する(ステップS14)。変換テーブルを生成すると、変換テーブル生成部64は、変換テーブルを変換テーブル出力部65に出力する。変換テーブル出力部65は、変換テーブルを認識結果変換装置30に送る。認識結果変換装置30に送られた変換テーブルは、認識結果変換装置30が音声認識結果を補正する際に用いられる。
【0057】
本実施形態の音声対話システムを構成する音声キャプチャ装置10、音声認識装置20、認識結果変換装置30、音声対話制御装置40、音声合成装置50、変換テーブル生成装置60は、それぞれ別の位置に設置されてネットワークを介して接続されていてもよい。また、音声対話システムを構成する2つ以上の装置が一体の装置として構成されていてもよい。
【0058】
本実施形態の音声対話システムは、例えば、予約システムに用いることができる。本実施形態の音声対話システムを用いた予約システムは、宿泊施設、公共交通機関、医療機関および飲食店などにおいて利用者からの予約や予約の確認、予約のキャンセルなどを受け付けるシステムに用いることができる。本実施形態の音声対話システムは、病院における診断システムや問診システムに用いることもできる。また、本実施形態の音声対話システムは、観光案内、交通案内、災害情報の通知などの情報案内システムに用いることもできる。本実施形態の音声対話システムの適用先は、音声対話を行うシステムであれば上記の例に限られない。
【0059】
上記の説明では、日本語の単語について説明したが、他の言語でも同様に変換テーブルを生成し、音声認識結果の補正を行うことができる。例えば、英語においては、変換テーブル生成装置60は、変換先となる単語を発音記号に置き換え、同音異義語と類音語を抽出し、変換テーブルを生成する。例えば、変換テーブル生成装置60は、「beach」が変換先であったとき、同音異義語である「beech」、類音語である「reach」が変換元とした変換テーブルを生成する。複数の単語に類似している類似語の関連付ける先を決定する際の優先順位は、例えば、発音の類似性を基にあらかじめ設定される。
【0060】
本実施形態の音声対話システムの変換テーブル生成装置60は、音声認識で認識させたい単語、すなわち、対話で用いられる単語の類似語を抽出し、対話で用いられる単語を変換先、類似語を変換元として、認識結果変換装置30が音声認識結果を補正する際の変換テーブルを生成している。本実施形態の変換テーブル生成装置60は、音声対話制御装置40から取得したデータから抽出した認識させたい単語に類似していて、音声認識において誤認識されやすい同音異義語および類音語を類似語として抽出し、音声認識結果を変換する際の変換テーブルを生成している。また、変換テーブル生成装置60は、変換テーブルを生成する際に、優先度の基準に従って変換先の単語に、変換元の単語として関連付ける類似語を決定することで、変換先と変換元の対応を示す変換テーブルを自動で生成している。そのため、本実施形態の変換テーブル生成装置60は、作業者による作業を必要とせずに音声認識結果を補正する変換テーブルを生成することができる。
【0061】
また、変換テーブル生成装置60が生成した変換テーブルに基づいて、音声認識結果を変換することで誤認識された場合にも正しい単語に変換することで補正された文が音声対話制御装置に入力されるようになる。正しい単語に変換した文が音声対話制御装置に入力されることで、音声対話システムにおいて聞き直しや誤認識を抑制し、音声対話システムにおける対話の精度が向上する。そのため、本実施形態の音声対話システムは、音声認識において誤認識の恐れのある単語の変換テーブルを自動で生成することで必要な作業量を抑制しつつ、音声認識の精度を向上することができる。
【0062】
(第2の実施形態)
本発明の第2の実施形態について図を参照して詳細に説明する。
図11は、本実施形態の音声対話システムの構成を示す図である。第1の実施形態の音声対話システムは、変換テーブル生成装置60で生成された変換テーブルに基づいて、音声認識結果として出力されるテキストデータ中の文に含まれる単語の置換を行っている。本実施形態の音声対話システムは、そのような構成に加えて、使用頻度のログに基づいて変換テーブルを更新する機能を有することを特徴とする。
【0063】
本実施形態の音声対話システムは、音声キャプチャ装置10と、音声認識装置20と、認識結果変換装置30と、音声対話制御装置40と、音声合成装置50と、変換テーブル生成装置70を備えている。本実施形態の音声キャプチャ装置10、音声認識装置20、認識結果変換装置30、音声対話制御装置40および音声合成装置50の構成と機能は、第2の実施形態の同名称の装置と同様である。
【0064】
変換テーブル生成装置70の構成について説明する。
図12は、変換テーブル生成装置70の構成を示した図である。変換テーブル生成装置70は、データ取得部61と、解析部62と、類似語抽出部63と、変換テーブル生成部71と、変換テーブル出力部65と、辞書データ保存部66と、ログデータ取得部72と、変換テーブル保存部73を備えている。
【0065】
本実施形態のデータ取得部61、解析部62、類似語抽出部63、変換テーブル出力部65および辞書データ保存部66の構成と機能は、第2の実施形態の変換テーブル生成装置60の同名称の部位と同様である。
【0066】
変換テーブル生成部71は、第2の実施形態の変換テーブル生成部64と同様の機能に加え、ログデータ取得部72が取得したログに基づいて変換テーブルを更新する機能を有する。変換テーブル生成部71は、生成した変換テーブルを変換テーブル出力部65に出力するとともに、変換テーブル保存部73に保存する。
【0067】
ログデータ取得部72は、音声対話システムからログを取得する。ログデータ取得部72は、認識結果変換装置30において変換が行われた単語と変換の回数のデータをログとして取得する。
【0068】
変換テーブル保存部73は、変換テーブル生成部71が生成した変換テーブルのデータを保存している。
【0069】
変換テーブル生成部71およびログデータ取得部72における各処理は、他の部位の処理と同様にCPU上でコンピュータプログラムを実行することで行われる。CPUは、ハードディスクドライブ等の記憶装置に保存されたコンピュータプログラムをメモリ上に読み出すことで実行する。
【0070】
変換テーブル保存部73は、不揮発性の半導体記憶装置またはハードディスクドライブなどの記憶装置によって構成されている。変換テーブル保存部73は、複数の種類の記憶装置の組み合わせによって構成されていてもよい。
【0071】
本実施形態の音声対話システムの動作について説明する。音声対話システム全体の動作および変換テーブル生成装置70において、最初に変換テーブルを生成するまでの動作は、第2の実施形態と同様である。よって、以下では、
図13を参照し、変換テーブル生成装置70における変換テーブルの更新の動作についてのみ説明する。
図13は、変換テーブル生成装置70においてログを基に変換テーブルを更新する際の動作フローを示す図である。
【0072】
変換テーブル生成装置70が変換テーブルの更新の動作を開始すると、ログデータ取得部72は、認識結果変換装置30からログデータを取得する(ステップS21)。ログは、認識結果変換装置30が、変換テーブルの変換元の単語から変換先の単語に置換された回数が変換元の単語ごとに記録されたデータとして取得される。ログデータ取得部72は、取得したログデータを変換テーブル生成部71に送る。
【0073】
ログを取得すると、変換テーブル生成部71は、変換テーブルの更新の動作を開始する。変換テーブル生成部71は、認識結果変換装置30において変換された回数を変換元となっている類似語ごとに集計する。変換テーブル生成部71は、あらかじめ設定された期間内において、使用された回数が基準未満の類似語があるかを確認し変換テーブルの更新の要否を判断する。変換の回数があらかじめ設定された回数以上で、変換テーブルが不要なとき、(ステップS22でNo)、変換テーブル生成部71は、変換テーブルを更新せずに動作を終了する。
【0074】
変換の回数があらかじめ設定された回数未満で、変換テーブルの更新が必要なとき(ステップS22でYes)、変換テーブル生成部71は、変換の回数が基準未満の類似語を変換テーブル中の変換元の単語から削除する(ステップS23)。削除によって変換元の単語がなくなった変換先の単語が生じた場合には、変換テーブル生成部71は、変換元の単語がなくなった変換先の単語を変換テーブルから削除する。
【0075】
変換の回数が基準未満の類似語を変換テーブルの変換元の単語から除外すると、変換テーブル生成部71は、対象の類似語を変換元から除外した変換テーブルのデータを用いて変換テーブル保存部73に保存されている変換テーブルのデータを更新する(ステップS24)。また、変換テーブル生成部71は、更新された変換テーブルを変換テーブル出力部65に出力する。
【0076】
更新された変換テーブルを受け取ると、変換テーブル出力部65は、更新された変換テーブルを認識結果変換装置30に出力する。認識結果変換装置30に入力された更新後の変換テーブルは、変換テーブル保存部32に保存される。認識結果変換装置30の認識結果変換部31は、音声認識装置20から入力されたテキストデータ中の文に変換テーブルが設定されている単語が含まれているとき、更新後の変換テーブルに従って単語を変換し、補正した文のテキストデータを音声対話制御装置40に出力する。
【0077】
上記の説明では、認識結果変換装置30におけるログを基に変換テーブルの更新を行ったが、変換テーブル生成部71は、変換結果が適正であったかをログを基に判断し、変換テーブルの更新の要否を判断してもよい。例えば、変換テーブル生成部71は、音声対話制御装置40のログを取得し、音声対話制御装置40で正しく認識できなかった回数があらかじめ設定された基準以上の単語が変換先となっている単語について変換元の単語の見直しを行ってもよい。そのような構成とするとき、変換テーブル生成部71は、音声対話制御装置40において利用者からの回答結果の音声認識が適切ではなかった回数のデータを取得する。利用者からの回答結果の音声認識が適切ではない回数とは、例えば、音声対話制御装置40が利用者の回答結果と特定できずに再質問した回数のことをいう。
【0078】
変換テーブル生成部71は、認識結果変換装置30のログを参照し、正しく認識できなかった変換先の単語について、変換の回数を確認する。変換の回数があらかじめ設定された回数未満のとき、変換テーブル生成部71は、変換テーブルの更新は不要と判断する。変換の回数があらかじめ設定された回数未満のときは、音声対話制御装置40で適切な変換を行えなかった要因が変換テーブルにある可能性は低いからである。
【0079】
変換の回数があらかじめ設定された回数以上のとき、変換テーブル生成部71は、誤変換の恐れのある単語を変換元の単語から除外する。変換テーブル生成部71は、例えば、認識結果変換装置30において変換頻度の高い変換元の単語を誤変換の可能性がある単語とみなして変換元から除外する。
【0080】
変換テーブル生成部71は、認識結果変換装置30と音声対話制御装置40の両方のログを比較し、認識結果変換装置30が変換を行った際に音声対話制御装置40が適切に応答できているかを確認してもよい。変換テーブル生成部71は、認識結果変換装置30が変換を行った際に再質問した回数を計数し、再質問した回数があらかじめ設定された基準を超えているときに、認識結果変換装置30の変換元の単語を変換テーブルから除外してもよい。また、変換テーブルから除外した単語について、2つの変換先の単語の類似語である場合には、変換テーブル生成部71は、他の変換先の単語に関連付けることで変換テーブルを更新してもよい。変換テーブルから除外した単語について、関連付ける先の変換先の単語の候補がさらに2以上ある場合には、変換テーブル生成部71は、第1の実施形態と同様の優先度の基準に従って関連付けを決定する。
【0081】
変換テーブル生成部71は、
図9の表に基づいて優先度を特定できなかった類似語についてのみ関連付ける変換先の単語の見直しを行って変換テーブルを更新してもよい。また、変換テーブル生成部71は、優先度の基準では、優先度を決定できない類似語について、ランダムにいずれかの変換先の単語に関連付け、ログを元に関連付けを更新してもよい。そのような構成とすることで作業者による関連付けの補正等を必要とせずに、自動で変換テーブルを生成できるようになる。
【0082】
本実施形態の変換テーブル生成装置70は、音声対話システムにおけるログを取得し、ログに基づいて変換テーブルの補正を行っている。例えば、変換テーブル生成装置70は音声認識装置における変換の頻度を示すログデータを取得し、使用されていない変換元の類似語や変換テーブルを削除している。そのように、変換テーブルを更新することで、認識結果変換装置が認識結果を参照する際のデータ量を抑制することができるため、音声認識結果を補正した際の処理速度の低下を抑制することができる。その結果、利用者の回答に対する音声対話システムの応答速度の低下を抑制しつつ、音声対話の精度を向上することができる。
【0083】
(第3の実施形態)
本発明の第3の実施形態について図を参照して詳細に説明する。
図14は、本実施形態の変換テーブル生成装置100の構成を示した図である。本実施形態の変換テーブル生成装置100は、類似語抽出部101と、変換テーブル生成部102を備えている。
【0084】
類似語抽出部101は、対話で用いられる単語グループに含まれる第1の単語それぞれについて、第1の単語に類似した類似語を抽出する。対話で用いられる単語は、たとえば、音声認識装置が誤認識をせずに音声を正しくテキストデータに変換した際に、変換後のテキストデータに含まれる単語である。対話で用いられる単語は、たとえば、変換テーブル生成装置100を第1の実施形態および第2の実施形態の音声対話制御装置に用いたとき、音声対話制御装置40に入力される単語である。第1の単語は、第1の実施形態および第2の実施形態の変換テーブル生成部における変換先の単語に相当する。また、類似語とは、第1の単語の同音異義語および類音語のことをいう。
【0085】
変換テーブル生成部102は、抽出した類似語のうち複数の第1の単語に類似している類似語について、優先度に基づいていずれか1つの第1の単語に第2の単語として関連付け、第2の単語を変換元、第1の単語を変換先とする変換テーブルを音声認識用に生成する。優先度とは、例えば、第1の実施形態の
図9の表に基づいた基準のことをいう。変換テーブル生成部102は、1つの類似語を1つの第1の単語にのみ関連付ける。一方、1つの第1の単語には、複数の類似語が第2の単語として関連付けられてもよい。変換テーブル生成部102は、類似語の関連付けの結果を用いて第1の単語を変換先、第2の単語を変換元とする変換テーブルを音声認識用に生成する。変換テーブルは、例えば、第1の実施形態および第2の実施形態の認識結果変換装置30において音声認識結果を補正する際に用いられる。
【0086】
第2の実施形態の変換テーブル生成装置60および第3の実施形態の変換テーブル生成装置70は、それぞれ本実施形態の変換テーブル生成装置100の一例である。また、第2の実施形態および第3の実施形態の類似語抽出部63は、本実施形態の類似語抽出部101の一例である。また、また、第2の実施形態の変換テーブル生成部64および第3の実施形態の変換テーブル生成部71は、それぞれ本実施形態の変換テーブル生成部102の一例である。
【0087】
本実施形態の変換テーブル生成装置100の動作の一例について説明する。
図15は、本実施形態の変換テーブル生成装置100の動作フローを示す図である。変換テーブル生成装置100の類似語抽出部101は、対話で用いられる単語グループに含まれる第1の単語それぞれについて、第1の単語に類似した類似語を抽出する(ステップS101)。類似語抽出部101は、単語グループに含まれる複数の第1の単語を1つについて類似語を抽出し、さらに他の第1の単語について類似語を抽出する動作を繰り返し、単語グループに含まれる第1の単語それぞれの類似語を抽出する。
【0088】
第1の単語それぞれについて類似語が抽出されると、変換テーブル生成部102は、抽出した類似語のうち複数の第1の単語に類似している類似語について、優先度に基づいていずれか1つの第1の単語に第2の単語として関連付ける(ステップS102)。変換テーブル生成部102が抽出した類似語が、複数の第1の単語の類似語に該当したとき、変換テーブル生成部102は、類似語をどの第1の単語に関連付けるかを、例えば、
図9に示すような基準を用いて決定する。類似語は、変換テーブルにおいて変換元の第2の単語として用いられるが、変換元の第2の単語1つにつき、変換先の第1の単語は、いずれか1つに定まる必要があるからである。複数の第1の単語に類似している類似語をいずれか1つの第1の単語に関連付けると、変換テーブル生成部102は、関連付けた結果に基づいて第2の単語の変換元、第1の単語を変換先とする音声認識結果を補正するための変換テーブルを生成する(ステップS103)。
【0089】
本実施形態の変換テーブル生成装置100は、音声認識で認識結果を補正する際に用いる変換テーブルを、変換先の第1の単語に変換元の第2の単語を関連付けた形式のテーブルデータとして生成する。そのように生成した変換テーブルは、音声認識において第1の単語として認識するべき単語が、第1の単語に似ている類似語に誤認識された際に、誤認識された類似語が第2の単語であった場合に、正しい単語である第1の単語に変換する際に用いることができる。そのため、本実施形態の変換テーブル生成装置100が生成した変換テーブルを用いて音声認識結果を補正することで音声認識の精度を向上することができる。
【0090】
本実施形態の変換テーブル生成装置100は、変換先の単語である第1の単語の類似語をいずれの第1の単語の変換元にするかを、
図9に示す表に基づく優先度の基準を用いて決定している。そのため、変換テーブル生成部102は、類似語抽出部101が抽出した第1の単語の類似語それぞれについて、いずれか1つの第1の単語に自動で関連付けることで、第1の単語を変換先、第1の単語の類似語である第2の単語を変換元とする変換テーブルを生成することができる。そのため、本実施形態の変換テーブル生成装置100は、音声認識において誤認識された単語を置換する際に用いる変換テーブルを自動で生成することができる。その結果、本実施形態の変換テーブル生成装置100を用いることで、音声認識結果を補正するため変換テーブルを生成する際に必要な作業量を抑制することができる。
【0091】
第1乃至第3の実施形態の変換テーブル生成装置における各処理は、コンピュータプログラムをコンピュータで実行することによって行うことができる。
図16は、変換テーブル生成装置における各処理を行うコンピュータプログラムを実行するコンピュータ200の構成の例を示したものである。コンピュータ200は、CPU201と、メモリ202と、記憶装置203と、I/F(Interface)部204を備えている。
【0092】
CPU201は、記憶装置203から各処理を行うコンピュータプログラムを読み出して実行する。コンピュータプログラムを実行する演算処理部は、CPU201に代えて、CPUとGPUとの組み合わせによって構成されていてもよい。メモリ202は、DRAM(Dynamic Random Access Memory)等によって構成され、CPU201が実行するコンピュータプログラムや処理中のデータが一時保存される。記憶装置203は、CPU201が実行するコンピュータプログラムを保存している。記憶装置203は、例えば、不揮発性の半導体記憶装置によって構成されている。記憶装置203には、ハードディスクドライブ等の他の記憶装置が用いられてもよい。I/F部204は、音声対話システムの他のユニットや管理対象のネットワークの端末等との間でデータの入出力を行うインタフェースである。コンピュータ200は、通信ネットワークを介して他の情報処理装置と通信を行う通信モジュールをさらに備えていてもよい。また、第1の実施形態および第2の実施形態の音声認識装置20、認識結果変換装置30および音声対話制御装置40もそれぞれ同様の構成とすることができる。
【0093】
各処理に行うコンピュータプログラムは、記録媒体に格納して頒布することもできる。記録媒体としては、例えば、データ記録用磁気テープや、ハードディスクなどの磁気ディスクを用いることができる。また、記録媒体としては、CD-ROM(Compact Disc Read Only Memory)等の光ディスクを用いることもできる。不揮発性の半導体記憶装置を記録媒体として用いてもよい。
【0094】
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
【0095】
(付記1)
対話で用いられる単語グループに含まれる第1の単語それぞれについて、前記第1の単語に類似した類似語を抽出する類似語抽出手段と、
抽出した前記類似語のうち複数の前記第1の単語に類似している類似語について、優先度に基づいていずれか1つの前記第1の単語に第2の単語として関連付け、前記第2の単語を変換元、前記第1の単語を変換先とする変換テーブルを生成する音声認識のための変換テーブル生成手段と
を備える変換テーブル生成装置。
【0096】
(付記2)
前記変換テーブル生成手段は、前記第1の単語と前記類似語の母音または子音の類似性に基づいて前記優先度を決定する付記1に記載の変換テーブル生成装置。
【0097】
(付記3)
前記変換テーブル生成手段は、母音と子音が共通する文字を行と列に並べた表を参照し、複数の前記第1の単語に類似している前記類似語を行または列が一致する前記第1の単語に関連付ける付記2に記載の変換テーブル生成装置。
【0098】
(付記4)
前記変換テーブルを用いて音声認識の結果に含まれる前記第1の単語を前記第2の単語に置換して補正する動作のログを取得するログデータ取得手段をさらに備え、
前記変換テーブル生成手段は、前記ログに基づいて前記変換テーブルを更新する付記1から3いずれかに記載の変換テーブル生成装置。
【0099】
(付記5)
対話で用いられる単語グループが含まれるデータを取得するデータ取得手段と、
前記対話で用いられる単語グループが含まれるデータから単語を抽出する解析手段と
をさらに備え、
前記類似語抽出手段は、前記解析手段が抽出した単語それぞれについて、前記類似語を抽出する付記1から4いずれかに記載の変換テーブル生成装置。
【0100】
(付記6)
付記1から5いずれかに記載の変換テーブル生成装置と、
入力された音声データを音声認識によって文に変換する音声認識手段と、
前記音声認識手段によって認識された文から前記変換テーブルに含まれる前記第2の単語を検出したときに、前記変換テーブルに基づいて前記第2の単語を前記第1の単語に置き換える認識結果変換手段と、
前記認識結果変換手段から出力された文への応答用の文を生成する音声対話制御手段と
を備える音声対話システム。
【0101】
(付記7)
利用者の音声をサンプリングし音声データとして出力する音声キャプチャ手段と、
前記音声対話制御手段が出力した前記応答用の文を音声データに変換し、音声として出力する音声合成手段と
をさらに備える付記6に記載の音声対話システム
(付記8)
対話で用いられる単語グループに含まれる第1の単語それぞれについて、前記第1の単語に類似した類似語を抽出し、
抽出した前記類似語のうち複数の前記第1の単語に類似している類似語について、優先度に基づいていずれか1つの前記第1の単語に第2の単語として関連付け、前記第2の単語を変換元、前記第1の単語を変換先とする変換テーブルを音声認識用に生成する変換テーブル生成方法。
【0102】
(付記9)
前記第1の単語と前記類似語の母音または子音の類似性に基づいて前記優先度を決定する付記8に記載の変換テーブル生成方法。
【0103】
(付記10)
母音と子音が共通する文字を行と列に並べた表を参照し、複数の前記第1の単語に類似している前記類似語を行または列が一致する前記第1の単語に関連付ける付記8または9に記載の変換テーブル生成方法。
【0104】
(付記11)
前記変換テーブルを用いて音声認識の結果に含まれる前記第1の単語を前記第2の単語に置換して補正する動作のログを取得し、
前記ログに基づいて前記変換テーブルを更新する付記8から10いずれかに記載の変換テーブル生成方法。
【0105】
(付記12)
対話で用いられる単語グループが含まれるデータを取得し、
前記対話で用いられる単語グループが含まれるデータから単語を抽出し、
抽出した単語それぞれについて、前記類似語を抽出する付記8から11いずれかに記載の変換テーブル生成方法。
【0106】
(付記13)
対話で用いられる単語グループに含まれる第1の単語それぞれについて、前記第1の単語に類似した類似語を抽出し、
抽出した前記類似語のうち複数の前記第1の単語に類似している類似語について、優先度に基づいていずれか1つの前記第1の単語に第2の単語として関連付け、前記第2の単語を変換元、前記第1の単語を変換先とする変換テーブルを生成し
音声認識によって認識された文から前記変換テーブルに含まれる前記第2の単語を検出したときに、前記変換テーブルに基づいて前記第2の単語を前記第1の
単語に置き換える認識結果変換方法。
【0107】
(付記14)
対話で用いられる単語グループに含まれる第1の単語それぞれについて、前記第1の単語に類似した類似語を抽出し、
抽出した前記類似語のうち複数の前記第1の単語に類似している類似語について、優先度に基づいていずれか1つの前記第1の単語に第2の単語として関連付け、前記第2の単語を変換元、前記第1の単語を変換先とする変換テーブルを生成し、
入力された音声データを音声認識によって文に変換し、
前記音声データから変換された文から前記変換テーブルに含まれる前記第2の単語を検出したときに、前記変換テーブルに基づいて前記第2の単語を前記第1の単語に置き換え、
前記第2の単語から前記第1の単語に置き換えが行なわれた文への応答用の文を生成する
音声対話方法。
【0108】
(付記15)
対話で用いられる単語グループに含まれる第1の単語それぞれについて、前記第1の単語に類似した類似語を抽出する処理と、
抽出した前記類似語のうち複数の前記第1の単語に類似している類似語について、優先度に基づいていずれか1つの前記第1の単語に第2の単語として関連付け、前記第2の単語を変換元、前記第1の単語を変換先とする変換テーブルを音声認識用に生成する処理と
をコンピュータに実行させるコンピュータプログラムを記録した記録媒体。
【0109】
以上、上述した実施形態を模範的な例として本発明を説明した。しかしながら、本発明は、上述した実施形態には限定されない。即ち、本発明は、本発明のスコープ内において、当業者が理解し得る様々な態様を適用することができる。
【符号の説明】
【0110】
10 音声キャプチャ装置
20 音声認識装置
30 認識結果変換装置
31 認識結果変換部
32 変換テーブル保存部
40 音声対話制御装置
50 音声合成装置
60 変換テーブル生成装置
61 データ取得部
62 解析部
63 類似語抽出部
64 変換テーブル生成部
65 変換テーブル出力部
66 辞書データ保存部
70 変換テーブル生成装置
71 変換テーブル生成部
72 ログデータ取得部
73 変換テーブル保存部
101 類似語抽出部
102 変換テーブル生成部
200 コンピュータ
201 CPU
202 メモリ
203 記憶装置
204 I/F部