(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024131933
(43)【公開日】2024-09-30
(54)【発明の名称】音声処理装置、方法およびプログラム
(51)【国際特許分類】
G10L 15/32 20130101AFI20240920BHJP
G10L 17/00 20130101ALI20240920BHJP
G10L 15/10 20060101ALI20240920BHJP
【FI】
G10L15/32 200Z
G10L17/00 200Z
G10L15/10 200W
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2023042511
(22)【出願日】2023-03-17
(71)【出願人】
【識別番号】322003857
【氏名又は名称】パナソニックオートモーティブシステムズ株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】山梨 智史
(72)【発明者】
【氏名】持木 南生也
(72)【発明者】
【氏名】番場 裕
(57)【要約】
【課題】話者認識とコマンド認識とを使用して総合的に音声認識を行う方式において認識不良を軽減すること。
【解決手段】一実施形態の音声処理装置は、音声信号の入力部と、話者を、入力された音声信号から音声認識する第1音声認識部と、話者が発話したコマンドを、入力された音声信号から音声認識する第2音声認識部と、第1音声認識部の音声認識結果と第2音声認識部の音声認識結果とから、第2音声認識部が認識したコマンドの実行可否の総合判定を行う第3判定処理部と、第1音声認識部および第2音声認識部の少なくとも一方の音声認識結果に対して補正を行う補正部と、を有することを特徴とする。
【選択図】
図1
【特許請求の範囲】
【請求項1】
音声信号の入力部と、
話者を、入力された音声信号から音声認識する第1音声認識部と、
前記話者が発話したコマンドを、入力された前記音声信号から音声認識する第2音声認識部と、
前記第1音声認識部の音声認識結果と前記第2音声認識部の音声認識結果とから、前記第2音声認識部が認識したコマンドの実行可否の総合判定を行う第3判定処理部と、
前記第1音声認識部および前記第2音声認識部の少なくとも一方の音声認識結果に対しての補正を行う補正部と、
を有する音声処理装置。
【請求項2】
前記第1音声認識部の音声認識結果は、
音声情報が登録されている話者のうちの所定の話者情報または未登録であることを示す未登録情報を示す第1情報であり、
前記第2音声認識部の音声認識結果は、
登録されているコマンドのうちの所定のコマンドまたは未登録であることを示す未登録情報を示す第2情報であり、
第3判定処理部は、
前記第1情報を数値化した第1の値と前記第2情報を数値化した第2の値の演算後の第3の値が閾値以上の場合に前記第2音声認識部で認識されたコマンドを実行すると判定し、
前記補正部は、
前記第1の値および前記第2の値、若しくは前記第1情報を判定する前記第1音声認識部の判定値および前記第2情報を判定する前記第2音声認識部の判定値に対して、重み付けを行うことにより補正を行う、
請求項1に記載の音声処理装置。
【請求項3】
前記第1音声認識部は、
入力された音声信号の話者の特徴量である第1話者特徴量を算出する第1算出部と、
前記第1話者特徴量と、登録されている少なくとも1つの登録話者特徴量のうちの第2話者特徴量と、の類似度が第1閾値以上の場合に、前記音声信号は、登録されている登録者のうち、前記第2話者特徴量に対応する第1登録者の音声であると判定し、前記類似度が第1閾値未満の場合に、前記音声信号は、未登録の音声であると判定する第1判定処理部と、
を有し、
前記第2音声認識部は、
入力された前記音声信号に基づき、登録されている少なくとも1つの登録コマンドである第2コマンドとの確度が第2閾値以上の場合に、前記音声信号は、登録されているコマンドのうちの前記第2コマンドであると判定し、前記確度が第2閾値未満の場合に、前記音声信号は、未登録のコマンドであると判定する第2判定処理部と、
を有し、
前記第3判定処理部は、
前記第1判定処理部の判定結果を数値化した前記第1の値と、前記第2判定処理部の判定結果を数値化した前記第2の値とを演算した前記第3の値が第3閾値以上の場合に、前記第2判定処理部で判定された前記第2コマンドを実行すると判定する、
前記補正部は、前記第1判定処理部の前記第1閾値および前記第2判定処理部の前記第2閾値の少なくとも一方の値を下げることにより補正を行う、
請求項2に記載の音声処理装置。
【請求項4】
前記補正部は、
前記第1判定処理部の判定結果が前記第1登録者の音声とする判定結果であり、前記第2判定処理部の判定結果が前記未登録のコマンドとする判定結果である場合に、前記第2閾値を下げる補正を行い、
前記第1判定処理部の判定結果が前記未登録の音声とする判定結果であり、前記第2判定処理部の判定結果が前記第2コマンドとする判定結果である場合に、前記第1閾値を下げる補正を行う、
請求項3に記載の音声処理装置。
【請求項5】
前記第1閾値および前記第2閾値は、設定変更が可能である、
請求項3に記載の音声処理装置。
【請求項6】
重み付けを設定するUI部を有し、
前記補正部は、前記UI部により設定された重み付けの設定に基づいて前記補正を行う、
請求項3に記載の音声処理装置。
【請求項7】
前記補正部は、シチュエーションに応じて前記補正を行う、
請求項3に記載の音声処理装置。
【請求項8】
前記補正部は、検出部が検出した状態に応じて前記補正を行う、
請求項3に記載の音声処理装置。
【請求項9】
音声処理装置において、
音声信号の入力するステップと、
話者を、入力された音声信号から音声認識するステップと、
前記話者が発話したコマンドを、入力された前記音声信号から音声認識するステップと、
2つの前記音声認識のうちの少なくとも一方の音声認識結果に対しての補正を行うステップと、
前記話者を音声認識した音声認識結果と、前記話者が発話した前記コマンドを音声認識した音声認識結果とから、コマンドの実行可否の総合判定を行うステップと、
を含む方法。
【請求項10】
コンピュータに、
音声信号の入力部と、
話者を、入力された音声信号から音声認識する第1音声認識部と、
前記話者が発話したコマンドを、入力された前記音声信号から音声認識する第2音声認識部と、
前記第1音声認識部の音声認識結果と前記第2音声認識部の音声認識結果とから、前記第2音声認識部が認識したコマンドの実行可否の総合判定を行う第3判定処理部と、
前記第1音声認識部および前記第2音声認識部の少なくとも一方の音声認識結果に対して補正を行う補正部、
として機能させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、音声処理装置、方法およびプログラムに関する。
【背景技術】
【0002】
従来、話者により発話された音声を登録されている音声データと比較することによって話者を認識する話者認識技術がある。また、話者により発話されたコマンドを登録されている音声コマンドデータと比較することによってコマンドを認識するコマンド認識技術がある。
【0003】
特許文献1には、発話された連続するコマンドからユーザ以外により発話されたコマンドを除き、残ったコマンドによりユーザからのコマンドを認識する認識技術が開示されている。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
本開示は、話者認識とコマンド認識とを使用して総合的に音声認識を行う方式において認識不良を軽減することが可能な音声処理装置、方法およびプログラムを提供することである。
【課題を解決するための手段】
【0006】
本開示に係る音声処理装置は、音声信号の入力部と、話者を、入力された音声信号から音声認識する第1音声認識部と、前記話者が発話したコマンドを、入力された前記音声信号から音声認識する第2音声認識部と、前記第1音声認識部の音声認識結果と前記第2音声認識部の音声認識結果とから、前記第2音声認識部が認識したコマンドの実行可否の総合判定を行う第3判定処理部と、前記第1音声認識部および前記第2音声認識部の少なくとも一方の音声認識結果に対して補正を行う補正部と、を有することを特徴とする。
【発明の効果】
【0007】
本開示によれば、話者認識とコマンド認識とを使用して総合的に音声認識を行う方式において認識不良を軽減することができる。
【図面の簡単な説明】
【0008】
【
図1】
図1は、実施の形態に係る音声処理装置の機能ブロックの構成の一例を示す図である。
【
図2】
図2は、実施の形態に係る音声処理装置の処理フローの一例を示す図である。
【
図3】
図3は、実施の形態に係る音声処理装置のシチュエーションにより重み付けを行う処理フローの一例を示す図である。
【
図4】
図4は、実施の形態に係る音声処理装置の補正すべき対象を話者認識とコマンド認識のうちの一方に限定する場合の処理フローの一例を示す図である。
【
図5】
図5は、実施の形態に係る音声処理装置のカーナビゲーションでの使用例の一例を示す概念図である。
【
図6】
図6は、実施の形態に係る音声処理装置のハードウェアブロックの構成の一例を示す図である。
【発明を実施するための形態】
【0009】
以下に添付図面を参照しながら、本開示に係る音声処理装置、方法およびプログラムの実施の形態について詳細に説明する。
【0010】
(実施の形態)
(音声処理装置の概略構成について)
実施の形態に係る音声処理装置1は、
図1に示されるように、入力部101、第1音声認識部102、第2音声認識部103、第3判定処理部104、および補正部105を有する。
【0011】
入力部101は、音声信号の入力部である。入力された音声信号は第1音声認識部102および第2音声認識部103のそれぞれに出力される。
【0012】
第1音声認識部102は、話者を音声認識する音声認識部である。第1音声認識部102は、入力部101から入力される音声信号に基づいて、音声信号を発話した話者を識別する。第1音声認識部102の音声認識結果は、例えば、音声信号を発話した人物が登録されている話者か、それとも未登録かを示す情報である。なお、登録されている話者とは、自身の音声情報の登録を事前に済ませている話者のことである。登録されている話者は、複数人であってもよい。音声情報とは話者の音声の情報のことである。音声情報は後述する具体例では特徴量として説明する。
【0013】
第2音声認識部103は、コマンドを音声認識する音声認識部である。第2音声認識部103は、入力部101から入力される音声信号に基づいて、音声信号中にコマンドが含まれるかどうかを認識する。第2音声認識部103の音声認識結果は、例えば、登録されているコマンドか、登録されているコマンドが含まれないかを示す情報である。
【0014】
ここで、「コマンド」とは、起動や、終了や、所定の処理を実行するためのワード(文字の並び)である。登録されているコマンドとは、予め登録されている所定のコマンドのことである。
【0015】
第3判定処理部104は、第1音声認識部102の音声認識結果と第2音声認識部103の音声認識結果とから、第2音声認識部103が認識したコマンドの実行可否の総合判定を行う。「可」がコマンド実行で、「否」がコマンド非実行である。また、後述する説明で、判定結果の「OK」が「コマンド実行」に相当し、判定結果の「NG」が「コマンド非実行」に相当する。
【0016】
第3判定処理部104は、総合判定において、第1音声認識部102の音声認識結果の情報である第1情報を数値化した第1の値と、第2音声認識部103の音声認識結果の情報である第2情報を数値化した第2の値との、演算後の第3の値が閾値以上の場合に第2音声認識部103で認識されたコマンドの実行可と判定する。
【0017】
例えば第1の値が「1」であるとき、音声情報が登録されている話者であることを示し、第1の値が「0」であるとき、未登録であることを示す。また、例えば第2の値が「1」であるとき、登録されているコマンドが含まれることを示し、第2の値が「0」であるとき、登録されているコマンドが含まれないことを示す。
【0018】
補正部105は、第1音声認識部102および第2音声認識部103の少なくとも一方の音声認識結果に対して補正を行う。
【0019】
このように、本実施の形態の音声処理装置1は、話者がコマンドを発話すると、第1音声認識部102で話者の音声を音声認識し、この処理に並行して第2音声認識部103でコマンドを音声認識して、それらの総合結果で条件を満たすとコマンドを実行する。
【0020】
(音声処理装置の具体的な構成について)
以下では、
図1に示される音声処理装置1の具体的な構成について説明する。なお、
図1に示される音声処理装置1の構成は、音声処理装置の構成の一例であり、
図1に示される構成に音声処理装置の構成を限定するものではない。例えば、
図1に示される音声処理装置1は、マイク10、音声取得部11および前処理部12により音声信号を入力する構成であるが、入力部101をこれに限定するものではない。入力部101は、外部装置から音声信号を受信する構成であってもよい。
【0021】
また、以下において、話者特徴量とは、音声信号から算出される話者の音声の特徴量のことである。話者特徴量の登録は、発話により入力された音声から算出される話者特徴量を音声処理装置が自動的に第1音声認識部102において算出し登録してもよい。ユーザ自身が手動で音声処理装置1を操作することによって話者特徴量の登録を行ってもよい。また、音声処理装置1において自動登録と手動登録とを併用可能にしてもよい。
【0022】
また、話者特徴量は、この例では登録部17に登録される。登録部17に登録されている話者特徴量のことを「登録話者特徴量」と言う。登録話者特徴量の登録数は一人分でもよいし、登録者が複数人である場合には登録者の人数分でもよい。また、一人当たりの登録数が複数であってもよい。
【0023】
マイク10は、音声信号の入力部である。
【0024】
音声取得部11は、マイク10により音声信号を取得して前処理部12に出力する。音声取得部11が取得する音声信号には人の声以外に環境音やノイズなども含まれるため、以下において、これらを含む信号を入力信号と呼ぶ場合もある。
【0025】
前処理部12は、音声取得部11が出力する音声信号を前処理して第1音声認識部102および第2音声認識部103に出力する。前処理は、一例として、音声区間の算出や、ハイパスフィルタの適用による音声区間の信号の通過帯域制限などである。
【0026】
第1特徴量算出部13は、前処理部12から入力された音声信号の第1話者特徴量を算出する。第1特徴量算出部13は、一例として話者認識DNN(Deep Neural Network)を用いる。話者認識DNNは、話者学習用DB150が有する話者の音声データにより学習させた学習済みのモデルである。音声信号が話者認識DNNに入力されると、入力層から中間の各層を介して音声信号の算出処理がなされ、出力層側で算出結果の第1話者特徴量が得られる。第1話者特徴量は1つ以上の因子(言い換えるとパラメータ)で構成され、各因子の値の大きさや各因子の値の割合などで話者の音声の特徴が示される。各因子の種類としては、例えば声の周波数や話すリズムなどが生成され得る。出力層側からは、算出結果として第1話者特徴量の取り出しが可能である。
【0027】
第1判定処理部14は、第1特徴量算出部13から得られた第1話者特徴量と登録部17に登録されている少なくとも一つの話者特徴量とを比較する。そして、第1判定処理部14は、第1話者特徴量と登録されている第2話者特徴量との類似度が第1閾値以上の場合に、音声信号は、登録されている登録者のうち、第2話者特徴量に対応する第1登録者の音声であると判定する。また、第1判定処理部14は、類似度が第1閾値未満の場合に、前記音声信号は、未登録の話者の音声であると判定する。
【0028】
上記類似度は、第1話者特徴量と、登録話者特徴量との類似度のことを指す。類似度は、第1話者特徴量と登録話者特徴量とがそれぞれ有する複数の因子の値の集合を所定の方式で比較することによって算出される。類似度を算出する方式は特に限定しない。方式は任意であってよい。
【0029】
第1判定処理部14は、具体的には、第1話者特徴量と登録話者特徴量との類似度である類似度Xが第1閾値TH1以上かを判定し、類似度Xが第1閾値TH1以上である第2話者特徴量が存在する場合に、音声信号は、登録されている登録特徴量のうちの第2話者特徴量に対応する第1登録者の音声であると判定する。また、第1判定処理部14は、類似度Xが登録話者特徴量の何れに対しても第1閾値TH1未満である場合に、音声信号は、登録者の音声ではない、つまり未登録の話者の音声であると判定する。第1判定処理部14の判定条件を次の判定条件1に示す。
【0030】
<判定条件1>
X≧TH1 (登録されている話者)
X<TH1 (未登録の話者)
【0031】
第2判定処理部15は、入力された音声信号の確度を算出する。第2判定処理部15は、一例としてコマンド認識DNNを用いる。コマンド認識DNNは、コマンド学習用DB160が有する複数種類の登録用のコマンドの音声データにより学習させた学習済みのモデルである。音声信号がコマンド認識DNNに入力されると、入力層から中間の各層を介して登録されている各コマンドに対する確からしさを示す値(言い換えると確度)の算出処理がなされ、出力層側では、算出結果として、確度が出力される。出力層側からは、確度の値の取り出しが可能である。メモリに音声の波形データを記憶させて比較する方式と比較して、本方式では多数のコマンドの登録が可能である。なお、以下において、登録されているコマンドのことを「登録コマンド」と言う。
【0032】
第2判定処理部15は、登録されている少なくとも1つの登録コマンドのうちの第2コマンドである確度Yが第2閾値TH2以上の場合に、音声信号は、登録コマンドのうちの第2コマンドであると判定する。また、第2判定処理部15は、確度Yが第2閾値TH2未満の場合に、音声信号は、登録コマンドを含まないと判定する。第2判定処理部15は、例えば、登録されている各コマンドに対する確度のうち、最も高い値を確度Yとして、第2閾値TH2以上であるか否かの判定を行う。第2判定処理部15の判定条件を次の判定条件2に示す。
【0033】
<判定条件2>
Y≧TH2 (登録されているコマンド)
Y<TH2 (登録されているコマンドでない)
【0034】
第3判定処理部104は、第1判定処理部14の判定結果を数値化した第1の値Aと、第2判定処理部15の判定結果を数値化した第2の値Bとを演算し、演算後の第3の値Zが第3の閾値TH3以上かを判定することにより、音声認識の総合判定を行う。第3判定処理部104は、第3の値Zが第3閾値TH3以上の場合に、総合判定結果Cの値として「1」を出力する。総合判定結果Cの値「1」は、認識成功を意味し、第2判定処理部15で判定されたコマンドの実行を意味する。また、第3判定処理部104は、第3の値Zが第3閾値TH3未満の場合には、総合判定結果Cの値として「0」を出力する。総合判定結果Cの値「0」は、認識失敗を意味し、コマンドの非実行を意味する。
【0035】
第3判定処理部104は、一例としては、第1の値Aと第2の値Bの和の第3の値Zを第3閾値TH3と比較する。これらの判定条件一式の例を次の判定条件3に示す。
【0036】
<判定条件3>
X≧TH1 ⇒ A=1
X<TH1 ⇒ A=0
Y≧TH2 ⇒ B=1
Y<TH2 ⇒ B=0
Z=A+B
Z≧TH3 ⇒ C=1
Z<TH3 ⇒ C=0
【0037】
判定条件3の例では、第3の閾値TH3の値を「2」に設定する。例えば、第1判定処理部14の判定結果として、音声信号が、登録されている登録者の音声であるとする判定結果が得られ、第2判定処理部15の判定結果として、音声信号が、登録されているコマンドであるとする判定結果が得られたとする。その場合は、第1の値Aの値が「1」、第2の値Bの値が「1」なので、第3の値Zの値は「2」となり、総合判定結果Cの値は「1」となる。
【0038】
補正部105は、第1の値および第2の値、若しくは、第1情報を判定する第1音声認識部102の判定値および第2情報を判定する第2音声認識部103の判定値、に対して重み付けを行うことにより音声認識結果に対して補正を行う。第1音声認識部102の判定値は、一例として第1閾値TH1であり、第2音声認識部103の判定値は、一例として第2閾値TH2である。
【0039】
補正部105は、第1判定処理部14の第1閾値TH1および第2判定処理部15の第2閾値TH2の少なくとも一方の値を下げることにより補正を行ってもよい。補正を行った場合には、第3の値Zの値が「2」以上になり易いため、使用状況によって有用である。
【0040】
例えば、第1判定処理部14の判定結果として、音声信号が、登録されている登録者の音声であるとする判定結果が得られ、第2判定処理部15の判定結果として、音声信号が、登録されているコマンドではないとする判定結果が得られたパターンを考える。このパターンでは、音声処理装置1において話者認識においては類似度Xが第1閾値TH1より高いという結果が得られているが、コマンド認識においては確度Yが第2閾値TH2より低いという結果が得られている。例えば、発話者の発話の仕方によっては、登録済みのコマンドを発話しているにもかかわらず、コマンドが認識されない場合がある。そのような場合には、例えば、補正部105が第2判定処理部15の第2閾値TH2を下げることにより、コマンドを認識されやすくすることができる。補正部105が第2閾値TH2を下げることにより、登録されている第2コマンドであると判定されやすくなる。この結果、第3判定処理部104の総合判定で第3の値Zが第3閾値TH3以上として判定されやすくなる。
【0041】
また、別の例として、第1判定処理部14の判定結果として、音声信号が、未登録者の音声であるとする判定結果が得られ、第2判定処理部15の判定結果として、音声信号が、登録されているコマンドであるとする判定結果が得られるパターンを考える。このパターンでは、音声処理装置1においてコマンド認識においては確度Yが第2閾値TH2より高いという結果が得られているが、話者認識においては類似度Xが第1閾値TH1より低いという結果が得られている場合である。例えば、発話者の声の調子や環境音などによっては、登録者であるにもかかわらず、話者が登録者として認識されない場合がある。そのような場合には、例えば、補正部105が第1判定処理部14の第1閾値TH1を下げることにより、話者を登録者として認識されやすくすることができる。補正部105が第1閾値TH1を下げることにより、第2話者特徴量に対応する第1登録者の音声として判定されやすくなる。この結果、第3判定処理部104の総合判定で第3の値Zが第3閾値TH3以上として判定されやすくなる。
【0042】
一例として、第1閾値TH1および第2閾値TH2の設定変更により、第1音声認識部102および第2音声認識部103の少なくとも一方の音声認識結果を補正する方式を説明したが、補正は、第1閾値TH1および第2閾値TH2の設定変更によるものに限らない。例えば、第1閾値TH1の値および第2閾値TH2の値は固定とし、第3判定処理部104の総合判定において次式で重み付けを行うことによって補正を行ってもよい。
【0043】
<重み付け>
Z=αA+βB(α、β:重み係数)
Z≧TH3 ⇒ C=1
Z<TH3 ⇒ C=0
【0044】
重み係数α、βの値の設定に応じて第3閾値TH3を調整してもよい。
【0045】
音声処理装置1の制御部は、第3判定処理部104の出力に基づいて音声処理装置1の動作を決定する。例えば音声処理装置1の制御部は、入力された音声が第3判定処理部104により認識されると、第2判定処理部15で認識されたコマンドを実行する。また、入力された音声が認識されない場合には、制御部は次の音声認識まで待機する。
【0046】
また、音声処理装置1は、第3判定処理部104の出力を、音声処理装置1と通信可能な外部装置へ送信してもよい。そのように構成することで、外部装置は、音声処理装置1からの結果を受信してコマンドを実行することが可能である。なお、外部装置の種類は限定されない。外部装置は任意であってよい。
【0047】
(UI部)
音声処理装置1は、ユーザの声に反応して起動やコマンドの実行などを行う装置に対する適用が可能である。一例としては、家電や、携帯端末や、車載装置などが挙げられる。対象の装置に操作パネルが設けられている場合には、音声処理装置1は、UI部として操作パネルの表示画面上にUI画面を出力し、UI画面でユーザの設定を受け付けてもよい。UI画面は、操作パネルに設けられているハードウェアキーで操作するものでもよいし、画面に表示されているソフトウェアキーをタッチすることで操作するものでもよい。ユーザがUI画面に第1閾値TH1と第2閾値TH2の設定値を入力するなどして設定の変更を指示することで、補正部105が、第1判定処理部14の第1閾値TH1と第2判定処理部15の第2閾値TH2に対して、UI画面に設定された設定に基づき、値を補正する。音声処理装置1に端末機器を接続し、端末機器で表示したUI画面で設定変更が行えるようにしてもよい。端末機器は、音声処理装置1と有線接続されてもよいし、無線接続されてもよい。
【0048】
(音声処理装置の処理フロー)
続いて、
図2の処理フローを参照して音声処理装置1の音声処理フローについて説明する。なお、以下において音声処理装置1は、マイク10からの音声信号の入力が可能な状態で待機中であるものとする。
【0049】
図2に示されるように、マイク10を介して音声取得部11が入力信号を取得する(ステップS1)。続いて、前処理部12が、入力信号の音声区間を検出し、さらにハイパスフィルタの適用等を行う前処理を実行して(ステップS2)、前処理が行われた入力信号を、話者認識を行う第1特徴量算出部13およびコマンド認識を行う第2判定処理部に入力する。
【0050】
続いて、第2特徴量算出部15は、コマンド認識DNNにより、入力信号から、登録されている各コマンドに対する確度を得る(ステップS3)。さらに、第2判定処理部15は、登録されている少なくとも1つの登録コマンドのうち第2コマンドである確度Yが第2閾値TH2以上かを判定する。この判定結果は、第3判定処理部104に出力される。
【0051】
また、第1特徴量算出部13は、話者認識DNNにより、入力信号から話者特徴量を算出する(ステップS4)。さらに、第1判定処理部14は、算出された話者特徴量と、登録されている話者特徴量との類似度を求め、その類似度Xが第1閾値TH1以上かを判定する。
【0052】
続いて、補正部105は、補正すべき第1閾値TH1または第2閾値TH2の値を補正する(ステップS5)。
【0053】
続いて、第3判定処理部104は、類似度Xが補正後の第1閾値TH1以上且つ確度Yが補正後の第2閾値TH2以上かを、第3閾値TH3の値により確認し、音声認識の総合的な判定を行う(ステップS6)。具体的には、第3判定処理部104が、第1判定処理部14の判定結果を数値化した第1の値Aと、第2判定処理部15の判定結果を数値化した第2の値Bとを演算し、演算後の第3の値Zが第3の閾値TH3以上かの比較により、音声認識の総合判定を行う。
【0054】
そして、第3判定処理部104は、類似度Xが補正後の第1閾値TH1以上且つ確度Yが補正後の第2閾値TH2以上の場合、つまり第3の値Zが第3閾値TH3以上の場合(ステップS6:Yes)、判定結果「OK」を出力する(ステップS7)。第3の値Zが第3閾値TH3未満の場合は(ステップS6:No)、第3判定処理部104は、判定結果「NG」を出力する(ステップS8)。
【0055】
音声処理装置1は、判定結果の出力後、音声認識の終了操作が有るかを判定してもよい(ステップS9)。終了操作は、ボタン操作でもよいし、終了コマンドの音声認識で受けてもよい。音声処理装置1は、終了操作がある場合は(ステップS9:Yes)、処理を終了し、終了操作がない場合は(ステップS9:No)、ステップS1からの処理を繰り返す。
【0056】
なお、ステップS5において、補正部105は、補正すべき第1閾値TH1または第2閾値TH2の値を補正するが、そのタイミングで補正すべき対象ではない場合は、補正を行わず、処理はステップS6に進む。
【0057】
また、ステップS5において、補正部105は、第1閾値TH1または第2閾値TH2の補正を、登録されているコマンドのうちの所定のコマンドに対してのみ行うようにしてもよい。あるいは、補正部105は、第1閾値TH1または第2閾値TH2の補正を、登録されている話者特徴量のうちの特定の話者特徴量に対してのみ行うようにしてもよい。例えば、第2判定処理部15において、登録されているコマンドのうち特定のコマンドであると認識された場合にのみ、補正部105が第1閾値TH1を下げてもよい。また、第1判定処理部14において、特定の登録者であると認識された場合にのみ、補正部105が第2閾値TH2を下げてもよい。ステップS5では、例えば、予め補正すべき対象として、第1閾値TH1と第2閾値TH2のいずれかを示す情報と、補正値の補正幅と、コマンドや話者情報などを、補正部105に登録しておき、登録されているコマンドや話者情報が認識結果から検出された場合に、検出されたコマンドまたは話者情報に対応する設定に基づいて閾値の値を補正する。これらの情報は、予め登録しておいてもよいし、操作パネルなどから補正部105へ後から設定してもよい。
【0058】
閾値の補正は、話者認識の判定結果とコマンド認識の判定結果のうち、判定結果が悪い方、つまり音声認識で得られる結果が悪い方の閾値の値を下げる補正を行うものでもよい。例えば、補正部105は、話者認識の判定結果の方がコマンド認識の判定結果よりも悪い場合には、第1閾値TH1を下げ、第2閾値TH2は下げないような補正を行ってもよい。また、補正部105は、コマンド認識の判定結果の方が話者認識の判定結果よりも悪い場合には、第2閾値TH2を下げ、第1閾値TH1は下げないような補正を行ってもよい。
【0059】
補正幅は、適宜決めてよい。補正部105は、一度に設定の補正幅に補正してもよいし、話者認識の判定結果とコマンド認識の判定結果とを見ながら、少しずつ設定の補正幅を限度に補正を行うようにしてもよい。補正幅がわずかであっても認識率が上がり、認識不良が軽減する場合がある。
【0060】
また、補正部105が第1閾値TH1と第2閾値TH2のうちの補正すべき対象を補正した後に、補正した値に第1閾値TH1と第2閾値TH2の値を固定してもよいし、所定のタイミングで第1閾値TH1と第2閾値TH2の値を初期値に戻してもよい。音声処理装置1の使用環境に応じてそれらの設定を適宜変更してよい。
【0061】
(シチュエーションに応じて重み付けを行う処理フロー)
その時々のシチュエーションにより、認識率が低下する場合がある。そこで特定のシチュエーションになった場合に補正対象を補正する方法について説明する。
【0062】
図3を参照し、シチュエーションによる処理フローについて説明する。なお、
図2の処理フローと共通する箇所は、説明の繰り返しとなるため同一の符号を付して説明を省略し、それ以外の追加したステップについて説明する。
【0063】
図3に示される処理フローでは、
図2に示される処理フローに対して、ステップS50が追加されている。
【0064】
ステップS50において、第1閾値TH1と第2閾値TH2の補正をすべきシチュエーションかを補正部105が判定する。第1閾値TH1と第2閾値TH2の補正をすべきシチュエーションであると補正部105が判定した場合は(ステップS50:Yes)、補正部105が、補正すべき第1閾値TH1または第2閾値TH2の値を補正する(ステップS5)。一方、補正をすべきシチュエーションでないと補正部105が判定した場合は(ステップS50:No)、補正を行わず、処理はステップS6に移行する。
【0065】
補正部105は、特定のシチュエーションを登録しておき、その状態を検出部などで検出したら、補正をすべきシチュエーションであると判定する。補正部105は、特定のシチュエーションであるか否かを、例えば特定の条件を満たすか否かによって判定する。例えば、補正部105は、騒音がある程度大きい場合に、補正をすべきシチュエーションであると判定する。周囲の騒音はマイクなどの検出部で検出することができる。補正部105は、静かな条件では閾値を下げず、騒音がある程度大きい場合に閾値を下げる補正を行う。このように、騒音が所定レベル以上の場合に閾値の補正を行うことも可能である。
【0066】
また、音声処理装置1が、カメラを検出部として設け、カメラ画像などに基づいて話者のマスクの装着の有無や体温等、話者の体調変化に関する情報を検出することにより、補正部105が検出結果に基づいて判定し、話者の体調変化に応じて第1閾値TH1および第2閾値TH2を下げるようにすることもできる。話者がマスクを装着している場合や風邪をひいている場合は、話者の音声特徴量が変わり得る。音声処理装置1は、カメラから撮影画像を取得し、撮像画像の顔画像を分析することで、マスクの装着状態を検出し、補正部105は、マスクの装着状態の検出結果から、補正をすべきシチュエーションかどうかを判定する。
【0067】
特定のシチュエーションにおける補正の方法は、上述した例に限られない。例えば、類似度Xが第1閾値TH1よりも所定の値以上大きくなる場合に、補正部105は、第2閾値TH2を下げる補正を行うという判断をしてもよい。また、確度Yが第2閾値TH2よりも所定の値以上大きくなる場合に、補正部105は、第1閾値TH1を下げる補正を行うという判断をしてもよい。類似度Xが第1閾値TH1以上、かつ、確度Yが第2閾値TH2以上の場合、補正部105は第1閾値TH1および第2閾値TH2の補正を行わないとする判断を行ってもよい。これらの設定は一例であり、これに限定されるものではない。
【0068】
(補正すべき対象を第1閾値TH1と第2閾値TH2のうちの一方に限定する場合の処理フロー)
図4を参照し、補正すべき対象を第1閾値TH1と第2閾値TH2のうちの一方に限定する場合の処理フローについて説明する。なお、
図2の処理フローと共通する箇所は、説明の繰り返しとなるため同一の符号を付して説明を省略し、それ以外の追加したステップについて説明する。
【0069】
図4に示される処理フローでは、
図2に示される処理フローに対して、ステップS51が追加されている。
【0070】
補正部105は、ステップS51において、第1閾値TH1と第2閾値TH2のうちの一方だけが補正すべき対象かを判定する。補正部105は、第1閾値TH1と第2閾値TH2のうちの一方だけが補正すべき対象であると判定した場合(ステップS51:Yes)、ステップS5で、第1閾値TH1および第2閾値TH2のうち、補正すべき対象となる方の値を補正する。一方、補正すべき対象がない場合や、第1閾値TH1と第2閾値TH2の両方が補正すべき対象となる場合には、第1閾値TH1と第2閾値TH2のうちの一方だけが補正すべき対象ではないので(ステップS51:No)、重みづけ部8は補正を行わず、処理はステップS6に移行する。
【0071】
以上に示した重み付けの方法は一例であり、これに限定するものではない。その他の条件に応じて重み付けを行うようにしてもよい。
【0072】
また、本実施の形態では、音声処理装置1が話者認識とコマンド認識とを共に実施した例を示したが、使用環境などにより、話者認識側の機能をOFFにして使用してもよい。
【0073】
例えば操作パネルなどの操作部から第1音声認識部102の機能をOFFにして、コマンド認識側の第2音声認識部103の機能だけで音声認識する。この場合は、第2音声認識部103の結果だけなので第3閾値TH3の値を低く設定する。
【0074】
(重み付けの例)
変形例として、例えば、補正対象とする閾値を、第1閾値TH1に限定してもよいし、第2閾値TH2に限定してもよい。また、登録されているコマンドのうちの所定のコマンドに対しては、第2閾値TH2を低下させないようにしてもよい。例えば、本実施の形態の音声処理装置1が車載器の音声処理装置に適用される場合において、車両制御に関わる重要なコマンドについては閾値を下げないように設定してもよい。また、例えばサイドビューとワイドビューなど、類似する単語が設定されているコマンド群に対しては閾値を下げないように設定してもよい。
【0075】
また、登録者の使用頻度に応じて閾値を下げるようにしてもよい。例えば、登録されている話者特徴量のうちの使用頻度が高い登録者の話者特徴量について、閾値を下げてもよい。使用頻度が低い登録者の話者特徴量については、話者認識を行う第1音声認識部102の閾値を下げない。その他、特定の話者特徴量について、コマンド認識を行う第2音声認識部103の閾値を下げる、などの変形が考えられる。
【0076】
なお、本実施の形態では音声情報を特徴量として説明してきたが、これに限るものではない。
【0077】
(カーナビゲーションでの使用例)
図5に示されるように、音声処理装置1をカーナビゲーションに使用した場合、まず登録時において、発話者Aさんが発話した所定のコマンド、本例では「ナビ画面」が、音声信号として話者認識部である第1音声認識部102に入力され、第1音声認識部102において算出された音声信号の音声情報が登録部に登録され、メモリなどに記憶される。その後の使用時には、発話者Aさんが発話したコマンドが、音声信号として話者認識部である第1音声認識部102とコマンド認識部である第2音声認識部103とに入力され、第1音声認識部102と第2音声認識部103とでそれぞれ音声認識が行われる。
【0078】
第1音声認識部102は、音声信号の話者の音声情報が、登録されている音声情報かを判定して認識結果を出力する。第2音声認識部103は、音声信号のコマンドの音声情報が、登録されているコマンドの音声情報かを判定して認識結果を出力する。これらの認識結果が共にOKの場合に、カーナビゲーションは、第2音声認識部103で認識したコマンドを実行する。この例では、「ナビ画面」が認識された例を示しているが、他の登録されているコマンドが認識された場合は、そのコマンドが実行される。
【0079】
本実施の形態では、第1音声認識部102と第2音声認識部103の少なくとも一方の音声認識結果に対して補正を行うため、話者の声質の状態や周囲の騒音など各種の使用環境に応じて認識不良が発生した場合でも、それに応じた重み付けで補正を行うことで認識不良を軽減することができる。また、話者認識とコマンド認識との性能に差がある場合でも、重み付けを行うことで認識不良を軽減することができる。
【0080】
(音声処理装置のハードウェア構成)
図6は、音声処理装置のハードウェアブロックの構成の一例を示す図である。
図6に示される音声処理装置2は、CPU(Central Processing Unit)を有するコンピュータ構成で、CPUがメモリに記憶されているプログラムを実行することで、上述した音声処理の各種機能を発揮する。
【0081】
一例として音声処理装置2は、CPU21、メモリ22、タッチパネル23、表示ディスプレイ24、記憶装置25、通信IF(インタフェース)26、カメラ27、スピーカ28、およびマイク29を有し、これらはバス接続されている。
【0082】
CPUは、メモリ22に記憶されたプログラムを実行して、入力部101、第1音声認識部102、第2音声認識部103、第3判定処理部104、および補正部105などの一部またはすべての機能部を実現する。入力部101、第1音声認識部102、第2音声認識部103、第3判定処理部104、および補正部105としてのCPUはハードウェア各部を制御するなどして音声処理を行う。
【0083】
メモリ22は、ROM(Read Only Memory)やRAM(Random Access Memory)などである。
【0084】
タッチパネル23は、表示ディスプレイ24の画面に積層されており、画面上のタッチ位置を検出する。
【0085】
表示ディスプレイ24は、液晶等の表示ディスプレイである。表示ディスプレイ24にUI画面など表示される。タッチパネル23および表示ディスプレイ24は、操作パネルの一例である。
【0086】
記憶装置25は、HDD(Hard Disk Drive)やSSD(Solid State Drive)である。記憶装置25は、第1閾値TH1、第2閾値TH2、第3閾値TH3、判定条件、および各種の条件設定、話者特徴量などを記憶する。なお、話者特徴量を外部のシステムに記憶させ、判定の際に通信IF26を介して外部から取得するように構成してもよい。
【0087】
通信IF26は、有線または無線の通信IFである。
【0088】
カメラ27は、CCD(Charge Coupled Device)またはCMOS(Complementary Metal Oxide Semiconductor)などの撮像デバイスを有し、撮像画像を出力する。
【0089】
スピーカ28は、CPU21が再生する通知音や、応答メッセージなどの音声を出力する。
【0090】
マイク29は、
図1のマイク10に相当し、音声などを入力する。
【0091】
なお、音声処理装置のハードウェアブロックの構成は一例であり、これに限定されず、構成を適宜変形してよい。
【0092】
(実施の形態の効果)
以上のように、本実施の形態の音声処理装置は、話者認識とコマンド認識とを使用して総合的に音声認識を行う。本実施の形態の音声処理装置は、話者認識とコマンド認識との性能の差や、話者の声質の状態や周囲の騒音など各種の使用環境に応じて認識不良が発生した場合でも、話者認識とコマンド認識の少なくとも一方の音声認識の認識率を上げる重み付けを行うことができるので、調整により認識不良を軽減することができる。
【0093】
本開示はソフトウェア、ハードウェア、又は、ハードウェアと連携したソフトウェアで実現することが可能である。
【0094】
なお、本開示は、システム、装置、方法、集積回路、コンピュータープログラム、または、記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータープログラムおよび記録媒体の任意な組み合わせで実現されてもよい。また、プログラム製品は、コンピュータープログラムが記録されたコンピュータが読み取り可能な媒体である。
【0095】
また、一部の手順またはすべての手順を記録したプログラムを、記録媒体に記録して提供したり、ROMに格納してコンピュータ構成の情報処理装置として提供したり、あるいは、ネットワークを介してプログラムをダウンロードし、コンピュータで実行することもできる。コンピュータのCPUは、プログラムを読み込んで実行することにより、処理を実施する。
【0096】
以上、図面を参照しながら実施の形態について説明したが、本開示はかかる例に限定されない。当業者であれば、特許請求の範囲に記載された範疇において、各種の変更例又は修正例に想到し得ることも明らかである。そのような変更例又は修正例についても、本開示の技術的範囲に属するものと解される。また、本開示の趣旨を逸脱しない範囲において、実施の形態における各構成要素は任意に組み合わされてよい。
【0097】
(付記)
本開示の態様は、例えば以下の通りである。
(項目1)
音声信号の入力部と、
話者を、入力された音声信号から音声認識する第1音声認識部と、
前記話者が発話したコマンドを、入力された前記音声信号から音声認識する第2音声認識部と、
前記第1音声認識部の音声認識結果と前記第2音声認識部の音声認識結果とから、前記第2音声認識部が認識したコマンドの実行可否の総合判定を行う第3判定処理部と、
前記第1音声認識部および前記第2音声認識部の少なくとも一方の音声認識結果に対しての補正を行う補正部と、
を有する音声処理装置。
(項目2)
前記第1音声認識部の音声認識結果は、
音声情報が登録されている話者のうちの所定の話者情報または未登録であることを示す未登録情報を示す第1情報であり、
前記第2音声認識部の音声認識結果は、
登録されているコマンドのうちの所定のコマンドまたは未登録であることを示す未登録情報を示す第2情報であり、
第3判定処理部は、
前記第1情報を数値化した第1の値と前記第2情報を数値化した第2の値の演算後の第3の値が閾値以上の場合に前記第2音声認識部で認識されたコマンドを実行すると判定し、
前記補正部は、
前記第1の値および前記第2の値、若しくは前記第1情報を判定する前記第1音声認識部の判定値および前記第2情報を判定する前記第2音声認識部の判定値に対して、重み付けを行うことにより補正を行う、
項目1に記載の音声処理装置。
(項目3)
前記第1音声認識部は、
入力された音声信号の話者の特徴量である第1話者特徴量を算出する第1算出部と、
前記第1話者特徴量と、登録されている少なくとも1つの登録話者特徴量のうちの第2話者特徴量と、の類似度が第1閾値以上の場合に、前記音声信号は、登録されている登録者のうち、前記第2話者特徴量に対応する第1登録者の音声であると判定し、前記類似度が第1閾値未満の場合に、前記音声信号は、未登録の音声であると判定する第1判定処理部と、
を有し、
前記第2音声認識部は、
入力された前記音声信号に基づき、登録されている少なくとも1つの登録コマンドである第2コマンドとの確度が第2閾値以上の場合に、前記音声信号は、登録されているコマンドのうちの前記第2コマンドであると判定し、前記確度が第2閾値未満の場合に、前記音声信号は、未登録のコマンドであると判定する第2判定処理部と、
を有し、
前記第3判定処理部は、
前記第1判定処理部の判定結果を数値化した前記第1の値と、前記第2判定処理部の判定結果を数値化した前記第2の値とを演算した前記第3の値が第3閾値以上の場合に、前記第2判定処理部で判定された前記第2コマンドを実行すると判定する、
前記補正部は、前記第1判定処理部の前記第1閾値および前記第2判定処理部の前記第2閾値の少なくとも一方の値を下げることにより補正を行う、
項目1または項目2に記載の音声処理装置。
(項目4)
前記補正部は、
前記第1判定処理部の判定結果が前記第1登録者の音声とする判定結果であり、前記第2判定処理部の判定結果が前記未登録のコマンドとする判定結果である場合に、前記第2閾値を下げる補正を行い、
前記第1判定処理部の判定結果が前記未登録の音声とする判定結果であり、前記第2判定処理部の判定結果が前記第2コマンドとする判定結果である場合に、前記第1閾値を下げる補正を行う、
項目3に記載の音声処理装置。
(項目5)
前記第1閾値および前記第2閾値は、設定変更が可能である、
項目3に記載の音声処理装置。
(項目6)
重み付けを設定するUI部を有し、
前記補正部は、前記UI部により設定された重み付けの設定に基づいて前記補正を行う、
項目1から項目5のうちの何れか一項目に記載の音声処理装置。
(項目7)
前記補正部は、シチュエーションに応じて前記補正を行う、
項目1から項目6のうちの何れか一項目に記載の音声処理装置。
(項目8)
前記補正部は、検出部が検出した状態に応じて前記補正を行う、
項目1から項目7のうちの何れか一項目に記載の音声処理装置。
(項目9)
音声処理装置において、
音声信号の入力するステップと、
話者を、入力された音声信号から音声認識するステップと、
前記話者が発話したコマンドを、入力された前記音声信号から音声認識するステップと、
2つの前記音声認識のうちの少なくとも一方の音声認識結果に対しての補正を行うステップと、
前記話者を音声認識した音声認識結果と、前記話者が発話した前記コマンドを音声認識した音声認識結果とから、コマンドの実行可否の総合判定を行うステップと、
を含む方法。
(項目10)
コンピュータに、
音声信号の入力部と、
話者を、入力された音声信号から音声認識する第1音声認識部と、
前記話者が発話したコマンドを、入力された前記音声信号から音声認識する第2音声認識部と、
前記第1音声認識部の音声認識結果と前記第2音声認識部の音声認識結果とから、前記第2音声認識部が認識したコマンドの実行可否の総合判定を行う第3判定処理部と、
前記第1音声認識部および前記第2音声認識部の少なくとも一方の音声認識結果に対して補正を行う補正部、
として機能させるプログラム。
【符号の説明】
【0098】
1、2 音声処理装置
101 入力部
102 第1音声認識部
103 第2音声認識部
104 第3判定処理部
105 補正部
10、29 マイク
11 音声取得部
12 前処理部
13 第1特徴量算出部
14 第1判定処理部
15 第2判定処理部
17 登録部
21 CPU
22 メモリ
23 タッチパネル
24 表示ディスプレイ
25 記憶装置
26 通信IF
27 カメラ
28 スピーカ
150 話者学習用DB
160 コマンド学習用DB