(58)【調査した分野】(Int.Cl.,DB名)
【発明の概要】
【発明が解決しようとする課題】
【0006】
上述したように、音声認識の対象となる正式な名称だけでなく、その言い換え語を生成して音声認識辞書に登録しておくことにより、正式な名称を忠実に発話できない場合であっても、ユーザの所望の正式な名称を選択することが可能となる。
【0007】
例えば、オーディオ情報に含まれる作曲者名を音声認識辞書に登録する際に、正式名称(フルネーム)が記載されている情報を基に、スペース毎に分割した各単語を組み合わせて登録しておくことにより、フルネームをすべて発話する必要がなく、ユーザにとって利便性が向上する。
【0008】
しかし、このような言い換え語を音声認識辞書に登録することによって、音声認識を行う際に次のような不都合が生じる場合がある。例えば、“A”,“B”及び“C”は一単語を示すものとし、音声認識の対象となる文字が“A B C”、“A B”、“A C”であるとする。これらの文字について、スペース毎に分割した単語も言い換え語に含まれるとすると、すべての文字に対し言い換え語として“A”が存在することになる。このとき、ユーザが“A”と発話すると、“A”を認識した音声認識装置は、認識結果の候補として同一の単語“A”を3つ出力することになる。その結果、ユーザが“A B”を選択したい場合であっても、3つの候補のうちのどれが“A B”に対応するかが不明であるため、ユーザの所望の文字を選択することが不可能となってしまう。
【0009】
本発明は、かかる従来技術の課題に鑑みなされたものであり、音声認識対象となる単語の言い換え表現による認識結果が複数存在する場合であっても、ユーザが意図する単語を選択することが可能な音声認識装置及び音声認識方法を提供することを目的とする。
【課題を解決するための手段】
【0010】
上記した従来技術の課題を解決するために、本発明の基本形態によれば、外部機器又は媒体から音声認識の対象となる楽曲情報を示す原テキストと前記楽曲情報に対応する楽曲IDとを入力する入力手段と、前記原テキストに対して音声認識用辞書用の文字列に変換する変換規則が格納された記憶手段と、前記原テキストに前記変換規則を適用して生成された言い換え語を解析して読みデータを生成する読みデータ生成手段と、前記言い換え語と前記言い換え語の読みデータと前記言い換え語に付与される単語IDとが格納される音声認識用辞書と、
ユーザの発話を入力する音声入力手段と、ユーザの発話を認識する音声認識手段と、表示手段と、前記音声入力手段及び音声認識手段を制御する音声認識制御手段と、前記言い換え語を生成
するとともに、前記言い換え語の単語IDとして、前記言い換え語の生成の元になった楽曲情報の楽曲IDを付与するとともに、前記言い換え語の元となった前記原テキストと一致する言い換え語の単語IDに対して
上位ビットを“1”とする変換を行う制御手段と
、を有し、前記音声認識制御手段は、前記音声認識手段によりユーザの発話に対応するテキストを取得し、取得した前記テキストの単語IDの上位ビットが“1”に変換されていないと判定したとき、前記テキストの単語IDの上位ビットを“1”とする変換を行うことで、当該テキストの元になった原テキストを前記音声認識用辞書から抽出して、前記表示手段の画面に出力する音声認識装置が提供される。
【0011】
この形態に係る音声認識装置において、さらに、ユーザの発話を入力する音声入力手段と、ユーザの発話を認識する音声認識手段と、表示手段と、前記音声入力手段及び音声認識手段を制御する音声認識制御手段と、を有し、前記音声認識制御手段は、前記音声認識手段によりユーザの発話に対応するテキストを取得し、当該テキストの元になった原テキストを前記音声認識辞書から抽出して、前記表示手段の画面に出力するようにしてもよく、前記音声認識制御手段は、前記ユーザの発話に対応するテキストが言い換え語であると判定したとき、当該言い換え語の元になった原テキストを取得する識別情報を生成して、当該識別情報を基に前記音声認識辞書から当該原テキストを抽出するようにしてもよく、前記音声認識制御手段は、前記ユーザの発話に対応するテキストが言い換え語でないと判定したとき、当該発話に対応するテキストを前記音声認識辞書から抽出するようにしてもよい。
【0012】
また、本発明の他の形態によれば、
入力手段を介して外部機器又は媒体から音声認識の対象となる楽曲情報を示す原テキストと前記楽曲情報に対応する楽曲IDとを取得するステップと、
読みデータ生成手段において、前記原テキストに対する言い換え語を記憶手段に格納されている変換規則を基に生成するステップと、
制御手段において前記言い換え語に単語IDとして、前記言い換え語の生成の元となった楽曲情報の楽曲IDを付与するステップと、
前記制御手段において前記言い換え語のうち前記原テキストと一致する言い換え語の単語ID
の上位ビットを”1”に変換するステップと、
前記制御手段において前記言い換え語を音声データに変換して読みデータを取得するステップと、
前記制御手段において前記読みデータと認識対象の前記言い換え語とを前記単語IDで関連付けて音声認識用辞書に登録するステップと、
前記音声認識用辞書に登録するステップの後に、音声入力手段を介してユーザの発話を取得し、音声認識手段において音声認識するステップと、前記音声入力手段と前記音声認識手段を制御する音声認識制御手段において、前記ユーザの発話に対応するテキストの単語IDの上位ビットが“1”に変換されているか否かを判定するステップと、前記音声認識制御手段において、前記ユーザの発話に対応するテキストの単語IDが“1”に変換されていないと判定したとき、当該単語IDの上位ビットを“1”とする変換を行うステップと、前記音声認識制御手段において、当該単語IDを基に原テキストを前記音声認識用辞書から抽出するステップと、前記音声認識用辞書から抽出した原テキストを表示手段に出力するステップと、を有する音声認識方法が提供される。
【0013】
この形態に係る音声認識方法において、前記音声認識用辞書に登録するステップの後に、ユーザの発話を入力して音声認識するステップと、前記音声認識の結果に応じて前記原テキストを取得するステップと、前記原テキストに対する識別情報を基に原テキストによる結果出力を行うステップと、を含むようにしてもよく、前記音声認識の結果に応じて前記原テキストを取得するステップでは、前記音声認識の結果、前記ユーザの発話に対応するテキストが言い換え語であると判定したとき、原テキストを取得するための識別情報を生成するステップと、当該識別情報を基に原テキストを前記音声認識辞書から抽出するステップと、を含むようにしてもよく、前記音声認識の結果に応じて前記原テキストを取得するステップでは、前記音声認識の結果、前記ユーザの発話に対応するテキストが言い換え語でないと判定したとき、当該ユーザの発話に対応するテキストを前記音声認識辞書から抽出するステップを含むようにしてもよい。
【発明の効果】
【0014】
本発明の音声認識装置及び音声認識方法によれば、認識対象となるテキストに対して言い換え語を作成するとき、言い換え語のうち、言い換え語の元となった原テキストと一致する言い換え語を特定可能な識別情報を、その言い換え語に付与している。そして、音声認識をしたときに、認識結果に言い換え語が含まれていると判断されれば、言い換え語に付与された識別情報から原テキストに対応する特定の識別情報を生成し、その識別情報を基に原テキストを取得して出力するようにしている。これにより、ユーザの発話した言い換え語を認識した結果、複数の同一のテキストが結果として出力されることがなく、それぞれの言い換え語の元のテキストが出力されるようになり、認識結果からどの項目を選択してよいか特定できないという状況を回避することが可能になる。
【発明を実施するための形態】
【0016】
以下、本発明の実施形態について、添付の図面を参照して説明する。
【0017】
図1は、本発明の一実施形態に係る音声認識辞書作成装置100を含む音声認識装置200の構成を示した図である。
【0018】
本実施形態に係る音声認識辞書作成装置100は、
図1に示すように、入力部1と、記憶部2と、情報抽出部4と、TTSエンジン5と、制御部6と、音声認識辞書生成部7と、音声認識辞書8とを備えている。
【0019】
さらに、音声認識処理を含む音声認識装置200としては、音声認識制御部11と、音声認識エンジン9と、マイクロフォン10と、音声認識辞書管理部12と、メモリ13と、表示部14とを備えている。
【0020】
入力部1は、各種機器(デバイス)や媒体が接続される。例えば、デジタルオーディオ機器やCD,DVD,携帯電話等が接続される。デジタルオーディオ機器としては、例えば、iPod(登録商標:アップル・コンピュータ社製のデジタル音楽プレーヤー)や、HDDオーディオ、CDテキストがある。HDDオーディオは記憶装置にハードディスクを内蔵した携帯音楽プレーヤーである。また、CDテキストは、CD−TEXT規格に対応したプレーヤーであり、CDのタイトルや作曲家などのテキスト情報が表示されるものである。
【0021】
デジタルオーディオ機器には、例えば、インターネット等を介して配信されたMP3形式等の楽曲ファイルをパーソナルコンピュータ(PC)にいったんダウンロードし、さらにこのPCから転送された楽曲ファイルが格納されている。この楽曲ファイルには、再生用のオーディオ情報の他に、このオーディオ情報を特定する楽曲情報(タイトル、アーティスト名、アルバム名などであり、本実施形態では、コンテンツとも呼ぶ)が含まれている。
【0022】
記憶部2は、ハードディスクや半導体メモリ等で構成され、入力部1から入力した各種デバイスに格納されている情報(例えば、CDの場合は楽曲データ2aであり、携帯電話機の場合は、住所録のデータである)が格納される。また、記憶部2には、楽曲情報が含まれたデータベースCDDB2bが構成されている。
【0023】
情報抽出部4では、入力された各種デバイスに記録されている情報から、音声認識辞書8の登録語彙の対象となるテキストを抽出する。例えば、CDが入力媒体の場合、楽曲データ2aからCDDB2bを参照して、タイトルやアーティストや作曲者などのコンテンツ情報を抽出する。
【0024】
TTSエンジン5は、テキスト解析部5aと読みデータ生成部5bで構成されている。また、TTSエンジン5には、音声合成を実行する際に使用する辞書(言語解析辞書、音声合成辞書)が用意されている。言語解析辞書は、音声合成処理の対象となるテキスト情報の構文解析を行う際に参照する辞書であり、あらかじめ各語彙毎に、その表記、読み、アクセント情報、品詞情報等の詳細な情報を対応付けて登録したものである。音声合成辞書は、テキスト解析部5aで解析されたテキスト情報をその対応する音声(波形)データに変換する際に参照する辞書である。
【0025】
テキスト解析部5aでは、情報抽出部4で抽出されたテキスト(文字列)が入力されると、言語解析辞書を基にしてテキストを解析し、読みデータ生成部5bにおいて、読みとアクセントを記した文字列である中間言語(読みデータ)を生成する。
【0026】
音声認識辞書生成部7は、読みデータ生成部5bで生成された読みデータをDB化して音声認識辞書8に格納する。
【0027】
音声認識辞書8は、ハードディスクや半導体メモリ等で構成され、音声認識エンジン9で使用する音声認識辞書が格納されている。
【0028】
制御部6は、マイクロコンピューターにより構成され、上記各部の制御を行って、入力デバイスや媒体に保存されている音声認識の対象とするテキストから読みデータを生成させて音声認識辞書を作成する。具体的には、記憶部2に保存した各種データから、情報抽出部4において音声認識辞書の対象となる単語(テキスト)を抽出させ、TTSエンジン5においてテキストの読みデータを生成させ、音声認識辞書生成部7で音声認識辞書を生成させる。
【0029】
ユーザの発話した音声の認識処理は、以下の各部の処理によって行われる。
【0030】
音声認識制御部11は、認識対象としたい語彙を音声認識辞書8から音声認識辞書管理部12を介してメモリ13に展開し、音声認識の対象とする。また、音声認識制御部11は、マイクロフォン10を介して入力したユーザの発話音声を音声認識エンジン9に認識させる。
【0031】
音声認識エンジン9は、入力された音声を音響分析して特徴量を抽出し、特徴量と音響モデルを照合して複数の発音記号列を得る。この発音記号列を基に認識対象となっている語彙の中から尤もらしい語彙を選択する。認識された結果をもとに、ユーザの要求に応じた情報を表示部14に表示する。
【0032】
このように構成された音声認識装置200に、楽曲データが格納されたデジタルオーディオ機器が接続されると、楽曲データに付随した楽曲名等の情報が含まれている楽曲情報を基にして、音声認識辞書生成用の文字列が生成され、楽曲情報と関連付けられた文字列の読みデータが音声認識辞書に登録される。音声認識用の文字列の生成では、言い換え語を生成するとともに、言い換え語の元のオリジナル文字列との関係を明確にし、オリジナル文字列は特定の識別コードで表すようにしている。
【0033】
以下に、言い換え語の元の文字列を特定容易にするための音声認識辞書の生成及び音声認識処理について説明する。本実施形態では、デジタルオーディオ機器に格納された楽曲が再生出力される音声認識装置200を対象とする。
【0034】
音声認識装置200にデジタルオーディオ機器が接続されると、デジタルオーディオ機器に格納されている楽曲情報(楽曲のジャンル、楽曲名、作曲者名、アーティスト名、アルバム名が含まれる)を基にして音声認識用の辞書を作成する。
【0035】
図2及び
図3は、本実施形態の音声認識辞書生成方法によって生成された音声認識辞書と、それを用いた音声認識結果の出力の一例を示した図である。
【0036】
図2は、音声認識用辞書の生成例を示しており、
図2(a)は、音声認識装置200に入力される楽曲情報であり、
図2(b)は
図2(a)の楽曲情報を基に生成された言い換え語を含む音声認識用の辞書の一例である。
【0037】
図2(a)は、4つの作曲者名とそれらに対応する識別情報(楽曲ID)を示している。識別情報は、例えば16進数の数値で表している。これらの各作曲者名を基にして言い換え語を所定の規定に基づいて作成し、認識対象文字列を生成する。
【0038】
図2(b)は、これら4つの作曲者名からそれぞれ言い換え語を生成し、音声認識の対象となる文字列を生成した例を示している。例えば、作曲者名"Fresh Nelly"に対して、スペースを区切り記号として作曲者名を分割し、分割した単語を基に生成した語を言い換え語として音声認識辞書に登録する。その結果、"Fresh"、"Nelly"、"Fresh Nell"の3つが言い換え語として登録される。これらの言い換え語は元の文字列が何であるかが分かるように、生成された言い換え語に関連付けて、元の楽曲IDが識別情報(単語ID)として記録されている。
【0039】
また、言い換え語が元の文字列と同一の場合には、特別な識別情報(
図2(b)では上位ビットを1とした数値)が付与されている。これにより、複数の同一な言い換え語を認識した場合であっても、その元の文字列を容易に特定することが可能となる。
【0040】
このように、本実施形態では、言い換え語などの認識対象文字列を識別するために16ビットの識別コードを用いているが、各認識対象文字列を特定できるものであればよい。例えば、上位4ビットに“1”をたてるようにしてもよい。
【0041】
これらの変換された文字列をTTSエンジン
5に入力して、各文字列に対応する読みデータを取得し、読みデータと各文字列が属する楽曲情報とを関連付けて音声認識辞書
8に登録する。
【0042】
図2(a)の他の作曲者名に対しても、同様に言い換え語を生成し、識別情報とともに認識辞書を作成する。
【0043】
図3は、
図2(b)に示した音声認識辞書が登録されている場合の音声認識結果における作曲者名選択画面31の一例を示した図である。
図3は、ユーザが“ネリー”と発話した場合の作曲者選択画面31を示している。音声認識装置は“ネリー”という音声を認識して、音声認識辞書に登録されている"Nelly"を検出する。
図2(b)に示した音声認識辞書を使用すると、4個の"Nelly"が選択され、作曲者選択画面31のリスト32a〜32dにはそれぞれ"Nelly"の元の文字列である"Fresh Nelly"、"Nelly"、"Nelly & st. lunatics"、"Nelly Furtado"が表示されている。この状態からリスト32aの"Fresh Nelly"が選択されると、楽曲ID"0x0001"に対応する楽曲が再生される。
【0044】
次に、制御部6で行われる音声認識辞書の生成処理について
図4のフローチャートを参照しながら説明する。この処理において、楽曲情報に応じた音声認識辞書生成用の文字列に変換するための変換規則は予め定義され記憶部
2に格納されているものとする。
【0045】
まず、
図4のステップS11において、入力部
1に接続されたデジタルオーディオ機器から楽曲情報を取得し、各楽曲情報のオリジナル文字列(原テキスト)とその楽曲の識別情報である楽曲IDとの対応関係を示したリストを作成する。楽曲情報としては、作曲者名、アーティスト名、楽曲名、ジャンル名などが含まれる。
【0046】
図5(a)は、対応関係のリストの一例を示している。
図5(a)では、楽曲情報を作曲者名とし、4つの作曲者名とそれに対応する楽曲IDを示している。
【0047】
次のステップS12では、オリジナル文字列に対して、言い換え語を生成する。この言い換え語は、適宜決められた規則により生成される。例えば、複数の単語が含まれる楽曲情報の場合には、それぞれの単語に分割し、分割された単語の組み合わせによって作成するようにしてもよい。また、言い換え語が多数生成される場合には、使用される可能性の低い言い換え語を排除するなどするようにしてもよい。
【0048】
生成される言い換え語は、どのオリジナル文字列から生成されたものかが分かるように、各言い換え語には作成の元となったオリジナル文字列の楽曲IDが付与される。
【0049】
図5(b)は、
図5(a)に示した作曲者名(オリジナル文字列)のうち、"Nell & st. lunatics"に対する言い換え語の生成例を示している。この例では、オリジナル文字列を“&”毎に分割した単語を基に生成したものである。これらの生成された言い換え語の元の文字列は、"Nelly & st. lunatics"であるため、その楽曲IDを関連付けて単語IDとしている。
【0050】
次のステップS13において、オリジナル文字列の楽曲IDをオリジナル文字列であることが分かるように特定のIDに変換する。本実施形態では、16進数で表される楽曲IDの上位ビットを1にするように楽曲IDを変換している。
【0051】
図5(c)において、言い換え語として記録される"Nelly & st. lunatics"はオリジナル文字列と同一であるため、単語IDにオリジナル文字列であることがわかるように、上位ビットを“1”にして"0x8003"とし、他の言い換え語とは区別している。
【0052】
なお、オリジナル文字列であることが分かるようにできれば、その他の方法で楽曲IDを変換するようにしてもよい。
【0053】
次のステップS14において、オリジナル文字列のすべてに対してステップS13の処理を行ったか否かを判定する。すべて処理が終了していない場合はステップS12に移行し、ステップS11で作成したリストの他の楽曲IDに対して同様の処理を行う。すべて処理が終了した場合は、ステップS15に移行する。
【0054】
図5(d)に、
図5(a)に示したすべてのオリジナル文字列に対して言い換え語を生成し、単語IDにオリジナル文字列であることがわかるようにする変換処理(オリジナル文字列取得ID付与処理)を施した結果を示している。
【0055】
次のステップS15において、制御部6は音声認識辞書生成部7に音声認識辞書を作成させる。読みデータと楽曲情報とを関連付けて音声認識辞書
8に登録する。
【0056】
次に、
図6及び
図7を参照して、発話された単語が言い換え語を含み、認識結果が複数同一の文字列となる場合であっても言い換え語に対応する元の文字列を特定可能とする、音声認識制御部11において行われる音声認識処理について説明する。
【0057】
まず、
図6のステップS21において、音声認識を実行する。音声認識制御部11は、マイクロフォン10を介して入力されたユーザの発話音声を音声認識エンジン9に認識させる。
【0058】
次のステップS22において、音声認識結果を取得する。
【0059】
次のステップS23において、ステップS22において認識された結果が、オリジナル文字列(原テキスト)か否かを判定する。オリジナル文字列の場合はステップS26に移行し、オリジナル文字列でない場合には、ステップS24に移行する。
【0060】
図7(a)は、認識結果の一例を示している。例えば、ユーザが“ネリー”と発話したとすると、
図5(d)に示される音声認識辞書を基に、
図7(a)に示す4つの"Nelly"がヒットする。これらの4つの"Nelly"について順にオリジナル文字列か否かを判定する。1番目の“Nelly”は単語IDが"0x0001"であり、上位ビットが“1”ではないため、オリジナル文字列ではないと判定される。3番目及び4番目の“Nelly”も同様にオリジナル文字列ではないと判定される。一方、2番目の“Nelly”は、上位ビットが“1”であるため、オリジナル文字列であると判定される。
【0061】
次のステップS24において、オリジナル文字列取得IDを生成する。オリジナル文字列取得IDは、単語IDの上位ビットが1になるような変換処理を施すことによって生成する。
図7(b)は、オリジナル文字列ではないと判定された認識文字列の単語IDをオリジナル文字列取得IDに変換した例を示している。例えば、単語IDが“0x0001”の“Nelly”に対して、“0x8000”を加算することによりオリジナル文字列取得ID“0x8001”に変換する。その他のオリジナル文字列でない認識結果に対しても同様にオリジナル文字列取得IDに変換する。
【0062】
次のステップS25において、ステップS24で生成されたオリジナル文字列取得IDを基に、記憶部2に格納されているオリジナル文字列を検索する。
図7(c)は、検索された結果を示している。
【0063】
一方、ステップS23において認識文字列がオリジナル文字列と判定されたときは、オリジナル文字列を取得するための処理(ステップS24及びステップS25の処理)は必要ないため、ステップS26に移行する。
【0064】
次のステップS26において、楽曲IDを生成する。
図7(d)は、ステップS25で取得されたオリジナル文字列と、ステップS23においてオリジナル文字列と判定された文字列とを示している。これらのオリジナル文字列から
図7(e)に示すように、対応する楽曲IDを算出する。すなわち、各オリジナル文字列の単語IDから特定の値を減算することによって、楽曲IDを算出する。
【0065】
なお、本実施形態では、オリジナル文字列取得のための識別コードを16進数の最上位ビットを“1”としたため、"0x8000"を減算することによって楽曲IDを算出したが、識別情報の表し方に応じて適宜処理される。
【0066】
次のステップS27において、ステップS25で生成されたオリジナル文字列を基に、認識結果の選択画面を表示部14の画面に表示する。その後、選択画面で選択された項目に従って、楽曲を再生する。
【0067】
以上説明したように、本実施形態の音声認識装置及び音声認識方法によれば、認識対象となるテキストに対して言い換え語を作成するとき、言い換え語のうち、言い換え語の元となった原テキストと一致する言い換え語を特定可能な識別情報を、その言い換え語に付与している。そして、音声認識をしたときに、認識結果に言い換え語が含まれていると判断されれば、言い換え語に付与された識別情報から原テキストに対応する特定の識別情報を生成し、原テキストを取得し、原テキストを出力するようにしている。これにより、ユーザの発話した言い換え語を認識した結果、複数の同一のテキストが結果として出力されることがなく、それぞれの言い換え語の元のテキストが出力されるようになり、認識結果からどの項目を選択してよいか特定できないという状況を回避することが可能になる。
【0068】
なお、本実施形態では、音声認識の対象となる文字列として楽曲情報を例にとって説明したが、これに限定されない。例えば、携帯電話機に格納されている電話帳データを車載器に取り込んで、車載器からハンズフリーで電話をかける際の音声認識にも適用可能である。
【0069】
図8は、電話帳データの登録及び利用の一例を示している。
図8(a)は、電話帳データに登録されているオリジナル文字列(名前)とその識別情報(ID)を対応付けたリストである。
図8(b)は、
図8(a)のオリジナル文字列を基に、言い換え語を生成し、さらに、オリジナル文字列とその他の文字列との区別をつけた識別情報(単語ID)との対応関係を示している。
【0070】
この
図8(b)の情報が音声認識辞書に登録されているとき、ユーザが“タケダ”と発話すると、音声認識装置は、
図8(b)の"TAKEDA"を検出する。
図8(b)に示すように、"TAKEDA"は2つ存在するが、その単語ID("0x0001","0x0002")を基にオリジナル文字列取得処理を施して、"SHINGEN TAKEDA"と"TAKEDA CHIHARU"を抽出し、
図8(c)の氏名選択画面81に示すように認識結果の出力表示を行う。
図8(c)の氏名選択画面81では、氏名認識候補82a、82bに氏名がフルネームで表示されるようになる。
【0071】
これにより、言い換え語として“タケダ”が複数存在するときであっても、“タケダ”と発話されたときに、その元となった文字列を表示することが可能となり、ユーザに所望の名前を選択させることが可能となる。