特開2024-131933 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ パナソニックオートモーティブシステムズ株式会社の特許一覧

特開2024-131933音声処理装置、方法およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024131933

(43)【公開日】2024-09-30

(54)【発明の名称】音声処理装置、方法およびプログラム

(51)【国際特許分類】

G10L 15/32 20130101AFI20240920BHJP

G10L 17/00 20130101ALI20240920BHJP

G10L 15/10 20060101ALI20240920BHJP

【ＦＩ】

G10L15/32 200Z

G10L17/00 200Z

G10L15/10 200W

【審査請求】未請求

【請求項の数】10

【出願形態】ＯＬ

(21)【出願番号】P 2023042511

(22)【出願日】2023-03-17

(71)【出願人】

【識別番号】322003857

【氏名又は名称】パナソニックオートモーティブシステムズ株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】山梨智史

(72)【発明者】

【氏名】持木南生也

(72)【発明者】

【氏名】番場裕

(57)【要約】

【課題】話者認識とコマンド認識とを使用して総合的に音声認識を行う方式において認識不良を軽減すること。
【解決手段】一実施形態の音声処理装置は、音声信号の入力部と、話者を、入力された音声信号から音声認識する第１音声認識部と、話者が発話したコマンドを、入力された音声信号から音声認識する第２音声認識部と、第１音声認識部の音声認識結果と第２音声認識部の音声認識結果とから、第２音声認識部が認識したコマンドの実行可否の総合判定を行う第３判定処理部と、第１音声認識部および第２音声認識部の少なくとも一方の音声認識結果に対して補正を行う補正部と、を有することを特徴とする。
【選択図】図１

【特許請求の範囲】

【請求項1】

音声信号の入力部と、
話者を、入力された音声信号から音声認識する第１音声認識部と、
前記話者が発話したコマンドを、入力された前記音声信号から音声認識する第２音声認識部と、
前記第１音声認識部の音声認識結果と前記第２音声認識部の音声認識結果とから、前記第２音声認識部が認識したコマンドの実行可否の総合判定を行う第３判定処理部と、
前記第１音声認識部および前記第２音声認識部の少なくとも一方の音声認識結果に対しての補正を行う補正部と、
を有する音声処理装置。

【請求項2】

前記第１音声認識部の音声認識結果は、
音声情報が登録されている話者のうちの所定の話者情報または未登録であることを示す未登録情報を示す第１情報であり、
前記第２音声認識部の音声認識結果は、
登録されているコマンドのうちの所定のコマンドまたは未登録であることを示す未登録情報を示す第２情報であり、
第３判定処理部は、
前記第１情報を数値化した第１の値と前記第２情報を数値化した第２の値の演算後の第３の値が閾値以上の場合に前記第２音声認識部で認識されたコマンドを実行すると判定し、
前記補正部は、
前記第１の値および前記第２の値、若しくは前記第１情報を判定する前記第１音声認識部の判定値および前記第２情報を判定する前記第２音声認識部の判定値に対して、重み付けを行うことにより補正を行う、
請求項１に記載の音声処理装置。

【請求項3】

前記第１音声認識部は、
入力された音声信号の話者の特徴量である第１話者特徴量を算出する第１算出部と、
前記第１話者特徴量と、登録されている少なくとも１つの登録話者特徴量のうちの第２話者特徴量と、の類似度が第１閾値以上の場合に、前記音声信号は、登録されている登録者のうち、前記第２話者特徴量に対応する第１登録者の音声であると判定し、前記類似度が第１閾値未満の場合に、前記音声信号は、未登録の音声であると判定する第１判定処理部と、
を有し、
前記第２音声認識部は、
入力された前記音声信号に基づき、登録されている少なくとも１つの登録コマンドである第２コマンドとの確度が第２閾値以上の場合に、前記音声信号は、登録されているコマンドのうちの前記第２コマンドであると判定し、前記確度が第２閾値未満の場合に、前記音声信号は、未登録のコマンドであると判定する第２判定処理部と、
を有し、
前記第３判定処理部は、
前記第１判定処理部の判定結果を数値化した前記第１の値と、前記第２判定処理部の判定結果を数値化した前記第２の値とを演算した前記第３の値が第３閾値以上の場合に、前記第２判定処理部で判定された前記第２コマンドを実行すると判定する、
前記補正部は、前記第１判定処理部の前記第１閾値および前記第２判定処理部の前記第２閾値の少なくとも一方の値を下げることにより補正を行う、
請求項２に記載の音声処理装置。

【請求項4】

前記補正部は、
前記第１判定処理部の判定結果が前記第１登録者の音声とする判定結果であり、前記第２判定処理部の判定結果が前記未登録のコマンドとする判定結果である場合に、前記第２閾値を下げる補正を行い、
前記第１判定処理部の判定結果が前記未登録の音声とする判定結果であり、前記第２判定処理部の判定結果が前記第２コマンドとする判定結果である場合に、前記第１閾値を下げる補正を行う、
請求項３に記載の音声処理装置。

【請求項5】

前記第１閾値および前記第２閾値は、設定変更が可能である、
請求項３に記載の音声処理装置。

【請求項6】

重み付けを設定するＵＩ部を有し、
前記補正部は、前記ＵＩ部により設定された重み付けの設定に基づいて前記補正を行う、
請求項３に記載の音声処理装置。

【請求項7】

前記補正部は、シチュエーションに応じて前記補正を行う、
請求項３に記載の音声処理装置。

【請求項8】

前記補正部は、検出部が検出した状態に応じて前記補正を行う、
請求項３に記載の音声処理装置。

【請求項9】

音声処理装置において、
音声信号の入力するステップと、
話者を、入力された音声信号から音声認識するステップと、
前記話者が発話したコマンドを、入力された前記音声信号から音声認識するステップと、
２つの前記音声認識のうちの少なくとも一方の音声認識結果に対しての補正を行うステップと、
前記話者を音声認識した音声認識結果と、前記話者が発話した前記コマンドを音声認識した音声認識結果とから、コマンドの実行可否の総合判定を行うステップと、
を含む方法。

【請求項10】

コンピュータに、
音声信号の入力部と、
話者を、入力された音声信号から音声認識する第１音声認識部と、
前記話者が発話したコマンドを、入力された前記音声信号から音声認識する第２音声認識部と、
前記第１音声認識部の音声認識結果と前記第２音声認識部の音声認識結果とから、前記第２音声認識部が認識したコマンドの実行可否の総合判定を行う第３判定処理部と、
前記第１音声認識部および前記第２音声認識部の少なくとも一方の音声認識結果に対して補正を行う補正部、
として機能させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、音声処理装置、方法およびプログラムに関する。

【背景技術】

【0002】

従来、話者により発話された音声を登録されている音声データと比較することによって話者を認識する話者認識技術がある。また、話者により発話されたコマンドを登録されている音声コマンドデータと比較することによってコマンドを認識するコマンド認識技術がある。

【0003】

特許文献１には、発話された連続するコマンドからユーザ以外により発話されたコマンドを除き、残ったコマンドによりユーザからのコマンドを認識する認識技術が開示されている。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特表２０１９－５１４０４５号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

本開示は、話者認識とコマンド認識とを使用して総合的に音声認識を行う方式において認識不良を軽減することが可能な音声処理装置、方法およびプログラムを提供することである。

【課題を解決するための手段】

【0006】

本開示に係る音声処理装置は、音声信号の入力部と、話者を、入力された音声信号から音声認識する第１音声認識部と、前記話者が発話したコマンドを、入力された前記音声信号から音声認識する第２音声認識部と、前記第１音声認識部の音声認識結果と前記第２音声認識部の音声認識結果とから、前記第２音声認識部が認識したコマンドの実行可否の総合判定を行う第３判定処理部と、前記第１音声認識部および前記第２音声認識部の少なくとも一方の音声認識結果に対して補正を行う補正部と、を有することを特徴とする。

【発明の効果】

【0007】

本開示によれば、話者認識とコマンド認識とを使用して総合的に音声認識を行う方式において認識不良を軽減することができる。

【図面の簡単な説明】

【0008】

【図1】図１は、実施の形態に係る音声処理装置の機能ブロックの構成の一例を示す図である。

【図2】図２は、実施の形態に係る音声処理装置の処理フローの一例を示す図である。

【図3】図３は、実施の形態に係る音声処理装置のシチュエーションにより重み付けを行う処理フローの一例を示す図である。

【図4】図４は、実施の形態に係る音声処理装置の補正すべき対象を話者認識とコマンド認識のうちの一方に限定する場合の処理フローの一例を示す図である。

【図5】図５は、実施の形態に係る音声処理装置のカーナビゲーションでの使用例の一例を示す概念図である。

【図6】図６は、実施の形態に係る音声処理装置のハードウェアブロックの構成の一例を示す図である。

【発明を実施するための形態】

【0009】

以下に添付図面を参照しながら、本開示に係る音声処理装置、方法およびプログラムの実施の形態について詳細に説明する。

【0010】

（実施の形態）
（音声処理装置の概略構成について）
実施の形態に係る音声処理装置１は、図１に示されるように、入力部１０１、第１音声認識部１０２、第２音声認識部１０３、第３判定処理部１０４、および補正部１０５を有する。

【0011】

入力部１０１は、音声信号の入力部である。入力された音声信号は第１音声認識部１０２および第２音声認識部１０３のそれぞれに出力される。

【0012】

第１音声認識部１０２は、話者を音声認識する音声認識部である。第１音声認識部１０２は、入力部１０１から入力される音声信号に基づいて、音声信号を発話した話者を識別する。第１音声認識部１０２の音声認識結果は、例えば、音声信号を発話した人物が登録されている話者か、それとも未登録かを示す情報である。なお、登録されている話者とは、自身の音声情報の登録を事前に済ませている話者のことである。登録されている話者は、複数人であってもよい。音声情報とは話者の音声の情報のことである。音声情報は後述する具体例では特徴量として説明する。

【0013】

第２音声認識部１０３は、コマンドを音声認識する音声認識部である。第２音声認識部１０３は、入力部１０１から入力される音声信号に基づいて、音声信号中にコマンドが含まれるかどうかを認識する。第２音声認識部１０３の音声認識結果は、例えば、登録されているコマンドか、登録されているコマンドが含まれないかを示す情報である。

【0014】

ここで、「コマンド」とは、起動や、終了や、所定の処理を実行するためのワード（文字の並び）である。登録されているコマンドとは、予め登録されている所定のコマンドのことである。

【0015】

第３判定処理部１０４は、第１音声認識部１０２の音声認識結果と第２音声認識部１０３の音声認識結果とから、第２音声認識部１０３が認識したコマンドの実行可否の総合判定を行う。「可」がコマンド実行で、「否」がコマンド非実行である。また、後述する説明で、判定結果の「ＯＫ」が「コマンド実行」に相当し、判定結果の「ＮＧ」が「コマンド非実行」に相当する。

【0016】

第３判定処理部１０４は、総合判定において、第１音声認識部１０２の音声認識結果の情報である第１情報を数値化した第１の値と、第２音声認識部１０３の音声認識結果の情報である第２情報を数値化した第２の値との、演算後の第３の値が閾値以上の場合に第２音声認識部１０３で認識されたコマンドの実行可と判定する。

【0017】

例えば第１の値が「１」であるとき、音声情報が登録されている話者であることを示し、第１の値が「０」であるとき、未登録であることを示す。また、例えば第２の値が「１」であるとき、登録されているコマンドが含まれることを示し、第２の値が「０」であるとき、登録されているコマンドが含まれないことを示す。

【0018】

補正部１０５は、第１音声認識部１０２および第２音声認識部１０３の少なくとも一方の音声認識結果に対して補正を行う。

【0019】

このように、本実施の形態の音声処理装置１は、話者がコマンドを発話すると、第１音声認識部１０２で話者の音声を音声認識し、この処理に並行して第２音声認識部１０３でコマンドを音声認識して、それらの総合結果で条件を満たすとコマンドを実行する。

【0020】

（音声処理装置の具体的な構成について）
以下では、図１に示される音声処理装置１の具体的な構成について説明する。なお、図１に示される音声処理装置１の構成は、音声処理装置の構成の一例であり、図１に示される構成に音声処理装置の構成を限定するものではない。例えば、図１に示される音声処理装置１は、マイク１０、音声取得部１１および前処理部１２により音声信号を入力する構成であるが、入力部１０１をこれに限定するものではない。入力部１０１は、外部装置から音声信号を受信する構成であってもよい。

【0021】

また、以下において、話者特徴量とは、音声信号から算出される話者の音声の特徴量のことである。話者特徴量の登録は、発話により入力された音声から算出される話者特徴量を音声処理装置が自動的に第１音声認識部１０２において算出し登録してもよい。ユーザ自身が手動で音声処理装置１を操作することによって話者特徴量の登録を行ってもよい。また、音声処理装置１において自動登録と手動登録とを併用可能にしてもよい。

【0022】

また、話者特徴量は、この例では登録部１７に登録される。登録部１７に登録されている話者特徴量のことを「登録話者特徴量」と言う。登録話者特徴量の登録数は一人分でもよいし、登録者が複数人である場合には登録者の人数分でもよい。また、一人当たりの登録数が複数であってもよい。

【0023】

マイク１０は、音声信号の入力部である。

【0024】

音声取得部１１は、マイク１０により音声信号を取得して前処理部１２に出力する。音声取得部１１が取得する音声信号には人の声以外に環境音やノイズなども含まれるため、以下において、これらを含む信号を入力信号と呼ぶ場合もある。

【0025】

前処理部１２は、音声取得部１１が出力する音声信号を前処理して第１音声認識部１０２および第２音声認識部１０３に出力する。前処理は、一例として、音声区間の算出や、ハイパスフィルタの適用による音声区間の信号の通過帯域制限などである。

【0026】

第１特徴量算出部１３は、前処理部１２から入力された音声信号の第１話者特徴量を算出する。第１特徴量算出部１３は、一例として話者認識ＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）を用いる。話者認識ＤＮＮは、話者学習用ＤＢ１５０が有する話者の音声データにより学習させた学習済みのモデルである。音声信号が話者認識ＤＮＮに入力されると、入力層から中間の各層を介して音声信号の算出処理がなされ、出力層側で算出結果の第１話者特徴量が得られる。第１話者特徴量は１つ以上の因子（言い換えるとパラメータ）で構成され、各因子の値の大きさや各因子の値の割合などで話者の音声の特徴が示される。各因子の種類としては、例えば声の周波数や話すリズムなどが生成され得る。出力層側からは、算出結果として第１話者特徴量の取り出しが可能である。

【0027】

第１判定処理部１４は、第１特徴量算出部１３から得られた第１話者特徴量と登録部１７に登録されている少なくとも一つの話者特徴量とを比較する。そして、第１判定処理部１４は、第１話者特徴量と登録されている第２話者特徴量との類似度が第１閾値以上の場合に、音声信号は、登録されている登録者のうち、第２話者特徴量に対応する第１登録者の音声であると判定する。また、第１判定処理部１４は、類似度が第１閾値未満の場合に、前記音声信号は、未登録の話者の音声であると判定する。

【0028】

上記類似度は、第１話者特徴量と、登録話者特徴量との類似度のことを指す。類似度は、第１話者特徴量と登録話者特徴量とがそれぞれ有する複数の因子の値の集合を所定の方式で比較することによって算出される。類似度を算出する方式は特に限定しない。方式は任意であってよい。

【0029】

第１判定処理部１４は、具体的には、第１話者特徴量と登録話者特徴量との類似度である類似度Ｘが第１閾値ＴＨ１以上かを判定し、類似度Ｘが第１閾値ＴＨ１以上である第２話者特徴量が存在する場合に、音声信号は、登録されている登録特徴量のうちの第２話者特徴量に対応する第１登録者の音声であると判定する。また、第１判定処理部１４は、類似度Ｘが登録話者特徴量の何れに対しても第１閾値ＴＨ１未満である場合に、音声信号は、登録者の音声ではない、つまり未登録の話者の音声であると判定する。第１判定処理部１４の判定条件を次の判定条件１に示す。

【0030】

＜判定条件１＞
Ｘ≧ＴＨ１（登録されている話者）
Ｘ＜ＴＨ１（未登録の話者）

【0031】

第２判定処理部１５は、入力された音声信号の確度を算出する。第２判定処理部１５は、一例としてコマンド認識ＤＮＮを用いる。コマンド認識ＤＮＮは、コマンド学習用ＤＢ１６０が有する複数種類の登録用のコマンドの音声データにより学習させた学習済みのモデルである。音声信号がコマンド認識ＤＮＮに入力されると、入力層から中間の各層を介して登録されている各コマンドに対する確からしさを示す値（言い換えると確度）の算出処理がなされ、出力層側では、算出結果として、確度が出力される。出力層側からは、確度の値の取り出しが可能である。メモリに音声の波形データを記憶させて比較する方式と比較して、本方式では多数のコマンドの登録が可能である。なお、以下において、登録されているコマンドのことを「登録コマンド」と言う。

【0032】

第２判定処理部１５は、登録されている少なくとも１つの登録コマンドのうちの第２コマンドである確度Ｙが第２閾値ＴＨ２以上の場合に、音声信号は、登録コマンドのうちの第２コマンドであると判定する。また、第２判定処理部１５は、確度Ｙが第２閾値ＴＨ２未満の場合に、音声信号は、登録コマンドを含まないと判定する。第２判定処理部１５は、例えば、登録されている各コマンドに対する確度のうち、最も高い値を確度Ｙとして、第２閾値ＴＨ２以上であるか否かの判定を行う。第２判定処理部１５の判定条件を次の判定条件２に示す。

【0033】

＜判定条件２＞
Ｙ≧ＴＨ２（登録されているコマンド）
Ｙ＜ＴＨ２（登録されているコマンドでない）

【0034】

第３判定処理部１０４は、第１判定処理部１４の判定結果を数値化した第１の値Ａと、第２判定処理部１５の判定結果を数値化した第２の値Ｂとを演算し、演算後の第３の値Ｚが第３の閾値ＴＨ３以上かを判定することにより、音声認識の総合判定を行う。第３判定処理部１０４は、第３の値Ｚが第３閾値ＴＨ３以上の場合に、総合判定結果Ｃの値として「１」を出力する。総合判定結果Ｃの値「１」は、認識成功を意味し、第２判定処理部１５で判定されたコマンドの実行を意味する。また、第３判定処理部１０４は、第３の値Ｚが第３閾値ＴＨ３未満の場合には、総合判定結果Ｃの値として「０」を出力する。総合判定結果Ｃの値「０」は、認識失敗を意味し、コマンドの非実行を意味する。

【0035】

第３判定処理部１０４は、一例としては、第１の値Ａと第２の値Ｂの和の第３の値Ｚを第３閾値ＴＨ３と比較する。これらの判定条件一式の例を次の判定条件３に示す。

【0036】

＜判定条件３＞
Ｘ≧ＴＨ１ ⇒ Ａ＝１
Ｘ＜ＴＨ１ ⇒ Ａ＝０
Ｙ≧ＴＨ２ ⇒ Ｂ＝１
Ｙ＜ＴＨ２ ⇒ Ｂ＝０
Ｚ＝Ａ＋Ｂ
Ｚ≧ＴＨ３ ⇒ Ｃ＝１
Ｚ＜ＴＨ３ ⇒ Ｃ＝０

【0037】

判定条件３の例では、第３の閾値ＴＨ３の値を「２」に設定する。例えば、第１判定処理部１４の判定結果として、音声信号が、登録されている登録者の音声であるとする判定結果が得られ、第２判定処理部１５の判定結果として、音声信号が、登録されているコマンドであるとする判定結果が得られたとする。その場合は、第１の値Ａの値が「１」、第２の値Ｂの値が「１」なので、第３の値Ｚの値は「２」となり、総合判定結果Ｃの値は「１」となる。

【0038】

補正部１０５は、第１の値および第２の値、若しくは、第１情報を判定する第１音声認識部１０２の判定値および第２情報を判定する第２音声認識部１０３の判定値、に対して重み付けを行うことにより音声認識結果に対して補正を行う。第１音声認識部１０２の判定値は、一例として第１閾値ＴＨ１であり、第２音声認識部１０３の判定値は、一例として第２閾値ＴＨ２である。

【0039】

補正部１０５は、第１判定処理部１４の第１閾値ＴＨ１および第２判定処理部１５の第２閾値ＴＨ２の少なくとも一方の値を下げることにより補正を行ってもよい。補正を行った場合には、第３の値Ｚの値が「２」以上になり易いため、使用状況によって有用である。

【0040】

例えば、第１判定処理部１４の判定結果として、音声信号が、登録されている登録者の音声であるとする判定結果が得られ、第２判定処理部１５の判定結果として、音声信号が、登録されているコマンドではないとする判定結果が得られたパターンを考える。このパターンでは、音声処理装置１において話者認識においては類似度Ｘが第１閾値ＴＨ１より高いという結果が得られているが、コマンド認識においては確度Ｙが第２閾値ＴＨ２より低いという結果が得られている。例えば、発話者の発話の仕方によっては、登録済みのコマンドを発話しているにもかかわらず、コマンドが認識されない場合がある。そのような場合には、例えば、補正部１０５が第２判定処理部１５の第２閾値ＴＨ２を下げることにより、コマンドを認識されやすくすることができる。補正部１０５が第２閾値ＴＨ２を下げることにより、登録されている第２コマンドであると判定されやすくなる。この結果、第３判定処理部１０４の総合判定で第３の値Ｚが第３閾値ＴＨ３以上として判定されやすくなる。

【0041】

また、別の例として、第１判定処理部１４の判定結果として、音声信号が、未登録者の音声であるとする判定結果が得られ、第２判定処理部１５の判定結果として、音声信号が、登録されているコマンドであるとする判定結果が得られるパターンを考える。このパターンでは、音声処理装置１においてコマンド認識においては確度Ｙが第２閾値ＴＨ２より高いという結果が得られているが、話者認識においては類似度Ｘが第１閾値ＴＨ１より低いという結果が得られている場合である。例えば、発話者の声の調子や環境音などによっては、登録者であるにもかかわらず、話者が登録者として認識されない場合がある。そのような場合には、例えば、補正部１０５が第１判定処理部１４の第１閾値ＴＨ１を下げることにより、話者を登録者として認識されやすくすることができる。補正部１０５が第１閾値ＴＨ１を下げることにより、第２話者特徴量に対応する第１登録者の音声として判定されやすくなる。この結果、第３判定処理部１０４の総合判定で第３の値Ｚが第３閾値ＴＨ３以上として判定されやすくなる。

【0042】

一例として、第１閾値ＴＨ１および第２閾値ＴＨ２の設定変更により、第１音声認識部１０２および第２音声認識部１０３の少なくとも一方の音声認識結果を補正する方式を説明したが、補正は、第１閾値ＴＨ１および第２閾値ＴＨ２の設定変更によるものに限らない。例えば、第１閾値ＴＨ１の値および第２閾値ＴＨ２の値は固定とし、第３判定処理部１０４の総合判定において次式で重み付けを行うことによって補正を行ってもよい。

【0043】

＜重み付け＞
Ｚ＝αＡ＋βＢ（α、β：重み係数）
Ｚ≧ＴＨ３ ⇒ Ｃ＝１
Ｚ＜ＴＨ３ ⇒ Ｃ＝０

【0044】

重み係数α、βの値の設定に応じて第３閾値ＴＨ３を調整してもよい。

【0045】

音声処理装置１の制御部は、第３判定処理部１０４の出力に基づいて音声処理装置１の動作を決定する。例えば音声処理装置１の制御部は、入力された音声が第３判定処理部１０４により認識されると、第２判定処理部１５で認識されたコマンドを実行する。また、入力された音声が認識されない場合には、制御部は次の音声認識まで待機する。

【0046】

また、音声処理装置１は、第３判定処理部１０４の出力を、音声処理装置１と通信可能な外部装置へ送信してもよい。そのように構成することで、外部装置は、音声処理装置１からの結果を受信してコマンドを実行することが可能である。なお、外部装置の種類は限定されない。外部装置は任意であってよい。

【0047】

（ＵＩ部）
音声処理装置１は、ユーザの声に反応して起動やコマンドの実行などを行う装置に対する適用が可能である。一例としては、家電や、携帯端末や、車載装置などが挙げられる。対象の装置に操作パネルが設けられている場合には、音声処理装置１は、ＵＩ部として操作パネルの表示画面上にＵＩ画面を出力し、ＵＩ画面でユーザの設定を受け付けてもよい。ＵＩ画面は、操作パネルに設けられているハードウェアキーで操作するものでもよいし、画面に表示されているソフトウェアキーをタッチすることで操作するものでもよい。ユーザがＵＩ画面に第１閾値ＴＨ１と第２閾値ＴＨ２の設定値を入力するなどして設定の変更を指示することで、補正部１０５が、第１判定処理部１４の第１閾値ＴＨ１と第２判定処理部１５の第２閾値ＴＨ２に対して、ＵＩ画面に設定された設定に基づき、値を補正する。音声処理装置１に端末機器を接続し、端末機器で表示したＵＩ画面で設定変更が行えるようにしてもよい。端末機器は、音声処理装置１と有線接続されてもよいし、無線接続されてもよい。

【0048】

（音声処理装置の処理フロー）
続いて、図２の処理フローを参照して音声処理装置１の音声処理フローについて説明する。なお、以下において音声処理装置１は、マイク１０からの音声信号の入力が可能な状態で待機中であるものとする。

【0049】

図２に示されるように、マイク１０を介して音声取得部１１が入力信号を取得する（ステップＳ１）。続いて、前処理部１２が、入力信号の音声区間を検出し、さらにハイパスフィルタの適用等を行う前処理を実行して（ステップＳ２）、前処理が行われた入力信号を、話者認識を行う第１特徴量算出部１３およびコマンド認識を行う第２判定処理部に入力する。

【0050】

続いて、第２特徴量算出部１５は、コマンド認識ＤＮＮにより、入力信号から、登録されている各コマンドに対する確度を得る（ステップＳ３）。さらに、第２判定処理部１５は、登録されている少なくとも１つの登録コマンドのうち第２コマンドである確度Ｙが第２閾値ＴＨ２以上かを判定する。この判定結果は、第３判定処理部１０４に出力される。

【0051】

また、第１特徴量算出部１３は、話者認識ＤＮＮにより、入力信号から話者特徴量を算出する（ステップＳ４）。さらに、第１判定処理部１４は、算出された話者特徴量と、登録されている話者特徴量との類似度を求め、その類似度Ｘが第１閾値ＴＨ１以上かを判定する。

【0052】

続いて、補正部１０５は、補正すべき第１閾値ＴＨ１または第２閾値ＴＨ２の値を補正する（ステップＳ５）。

【0053】

続いて、第３判定処理部１０４は、類似度Ｘが補正後の第１閾値ＴＨ１以上且つ確度Ｙが補正後の第２閾値ＴＨ２以上かを、第３閾値ＴＨ３の値により確認し、音声認識の総合的な判定を行う（ステップＳ６）。具体的には、第３判定処理部１０４が、第１判定処理部１４の判定結果を数値化した第１の値Ａと、第２判定処理部１５の判定結果を数値化した第２の値Ｂとを演算し、演算後の第３の値Ｚが第３の閾値ＴＨ３以上かの比較により、音声認識の総合判定を行う。

【0054】

そして、第３判定処理部１０４は、類似度Ｘが補正後の第１閾値ＴＨ１以上且つ確度Ｙが補正後の第２閾値ＴＨ２以上の場合、つまり第３の値Ｚが第３閾値ＴＨ３以上の場合（ステップＳ６：Ｙｅｓ）、判定結果「ＯＫ」を出力する（ステップＳ７）。第３の値Ｚが第３閾値ＴＨ３未満の場合は（ステップＳ６：Ｎｏ）、第３判定処理部１０４は、判定結果「ＮＧ」を出力する（ステップＳ８）。

【0055】

音声処理装置１は、判定結果の出力後、音声認識の終了操作が有るかを判定してもよい（ステップＳ９）。終了操作は、ボタン操作でもよいし、終了コマンドの音声認識で受けてもよい。音声処理装置１は、終了操作がある場合は（ステップＳ９：Ｙｅｓ）、処理を終了し、終了操作がない場合は（ステップＳ９：Ｎｏ）、ステップＳ１からの処理を繰り返す。

【0056】

なお、ステップＳ５において、補正部１０５は、補正すべき第１閾値ＴＨ１または第２閾値ＴＨ２の値を補正するが、そのタイミングで補正すべき対象ではない場合は、補正を行わず、処理はステップＳ６に進む。

【0057】

また、ステップＳ５において、補正部１０５は、第１閾値ＴＨ１または第２閾値ＴＨ２の補正を、登録されているコマンドのうちの所定のコマンドに対してのみ行うようにしてもよい。あるいは、補正部１０５は、第１閾値ＴＨ１または第２閾値ＴＨ２の補正を、登録されている話者特徴量のうちの特定の話者特徴量に対してのみ行うようにしてもよい。例えば、第２判定処理部１５において、登録されているコマンドのうち特定のコマンドであると認識された場合にのみ、補正部１０５が第１閾値ＴＨ１を下げてもよい。また、第１判定処理部１４において、特定の登録者であると認識された場合にのみ、補正部１０５が第２閾値ＴＨ２を下げてもよい。ステップＳ５では、例えば、予め補正すべき対象として、第１閾値ＴＨ１と第２閾値ＴＨ２のいずれかを示す情報と、補正値の補正幅と、コマンドや話者情報などを、補正部１０５に登録しておき、登録されているコマンドや話者情報が認識結果から検出された場合に、検出されたコマンドまたは話者情報に対応する設定に基づいて閾値の値を補正する。これらの情報は、予め登録しておいてもよいし、操作パネルなどから補正部１０５へ後から設定してもよい。

【0058】

閾値の補正は、話者認識の判定結果とコマンド認識の判定結果のうち、判定結果が悪い方、つまり音声認識で得られる結果が悪い方の閾値の値を下げる補正を行うものでもよい。例えば、補正部１０５は、話者認識の判定結果の方がコマンド認識の判定結果よりも悪い場合には、第１閾値ＴＨ１を下げ、第２閾値ＴＨ２は下げないような補正を行ってもよい。また、補正部１０５は、コマンド認識の判定結果の方が話者認識の判定結果よりも悪い場合には、第２閾値ＴＨ２を下げ、第１閾値ＴＨ１は下げないような補正を行ってもよい。

【0059】

補正幅は、適宜決めてよい。補正部１０５は、一度に設定の補正幅に補正してもよいし、話者認識の判定結果とコマンド認識の判定結果とを見ながら、少しずつ設定の補正幅を限度に補正を行うようにしてもよい。補正幅がわずかであっても認識率が上がり、認識不良が軽減する場合がある。

【0060】

また、補正部１０５が第１閾値ＴＨ１と第２閾値ＴＨ２のうちの補正すべき対象を補正した後に、補正した値に第１閾値ＴＨ１と第２閾値ＴＨ２の値を固定してもよいし、所定のタイミングで第１閾値ＴＨ１と第２閾値ＴＨ２の値を初期値に戻してもよい。音声処理装置１の使用環境に応じてそれらの設定を適宜変更してよい。

【0061】

（シチュエーションに応じて重み付けを行う処理フロー）
その時々のシチュエーションにより、認識率が低下する場合がある。そこで特定のシチュエーションになった場合に補正対象を補正する方法について説明する。

【0062】

図３を参照し、シチュエーションによる処理フローについて説明する。なお、図２の処理フローと共通する箇所は、説明の繰り返しとなるため同一の符号を付して説明を省略し、それ以外の追加したステップについて説明する。

【0063】

図３に示される処理フローでは、図２に示される処理フローに対して、ステップＳ５０が追加されている。

【0064】

ステップＳ５０において、第１閾値ＴＨ１と第２閾値ＴＨ２の補正をすべきシチュエーションかを補正部１０５が判定する。第１閾値ＴＨ１と第２閾値ＴＨ２の補正をすべきシチュエーションであると補正部１０５が判定した場合は（ステップＳ５０：Ｙｅｓ）、補正部１０５が、補正すべき第１閾値ＴＨ１または第２閾値ＴＨ２の値を補正する（ステップＳ５）。一方、補正をすべきシチュエーションでないと補正部１０５が判定した場合は（ステップＳ５０：Ｎｏ）、補正を行わず、処理はステップＳ６に移行する。

【0065】

補正部１０５は、特定のシチュエーションを登録しておき、その状態を検出部などで検出したら、補正をすべきシチュエーションであると判定する。補正部１０５は、特定のシチュエーションであるか否かを、例えば特定の条件を満たすか否かによって判定する。例えば、補正部１０５は、騒音がある程度大きい場合に、補正をすべきシチュエーションであると判定する。周囲の騒音はマイクなどの検出部で検出することができる。補正部１０５は、静かな条件では閾値を下げず、騒音がある程度大きい場合に閾値を下げる補正を行う。このように、騒音が所定レベル以上の場合に閾値の補正を行うことも可能である。

【0066】

また、音声処理装置１が、カメラを検出部として設け、カメラ画像などに基づいて話者のマスクの装着の有無や体温等、話者の体調変化に関する情報を検出することにより、補正部１０５が検出結果に基づいて判定し、話者の体調変化に応じて第１閾値ＴＨ１および第２閾値ＴＨ２を下げるようにすることもできる。話者がマスクを装着している場合や風邪をひいている場合は、話者の音声特徴量が変わり得る。音声処理装置１は、カメラから撮影画像を取得し、撮像画像の顔画像を分析することで、マスクの装着状態を検出し、補正部１０５は、マスクの装着状態の検出結果から、補正をすべきシチュエーションかどうかを判定する。

【0067】

特定のシチュエーションにおける補正の方法は、上述した例に限られない。例えば、類似度Ｘが第１閾値ＴＨ１よりも所定の値以上大きくなる場合に、補正部１０５は、第２閾値ＴＨ２を下げる補正を行うという判断をしてもよい。また、確度Ｙが第２閾値ＴＨ２よりも所定の値以上大きくなる場合に、補正部１０５は、第１閾値ＴＨ１を下げる補正を行うという判断をしてもよい。類似度Ｘが第１閾値ＴＨ１以上、かつ、確度Ｙが第２閾値ＴＨ２以上の場合、補正部１０５は第１閾値ＴＨ１および第２閾値ＴＨ２の補正を行わないとする判断を行ってもよい。これらの設定は一例であり、これに限定されるものではない。

【0068】

（補正すべき対象を第１閾値ＴＨ１と第２閾値ＴＨ２のうちの一方に限定する場合の処理フロー）
図４を参照し、補正すべき対象を第１閾値ＴＨ１と第２閾値ＴＨ２のうちの一方に限定する場合の処理フローについて説明する。なお、図２の処理フローと共通する箇所は、説明の繰り返しとなるため同一の符号を付して説明を省略し、それ以外の追加したステップについて説明する。

【0069】

図４に示される処理フローでは、図２に示される処理フローに対して、ステップＳ５１が追加されている。

【0070】

補正部１０５は、ステップＳ５１において、第１閾値ＴＨ１と第２閾値ＴＨ２のうちの一方だけが補正すべき対象かを判定する。補正部１０５は、第１閾値ＴＨ１と第２閾値ＴＨ２のうちの一方だけが補正すべき対象であると判定した場合（ステップＳ５１：Ｙｅｓ）、ステップＳ５で、第１閾値ＴＨ１および第２閾値ＴＨ２のうち、補正すべき対象となる方の値を補正する。一方、補正すべき対象がない場合や、第１閾値ＴＨ１と第２閾値ＴＨ２の両方が補正すべき対象となる場合には、第１閾値ＴＨ１と第２閾値ＴＨ２のうちの一方だけが補正すべき対象ではないので（ステップＳ５１：Ｎｏ）、重みづけ部８は補正を行わず、処理はステップＳ６に移行する。

【0071】

以上に示した重み付けの方法は一例であり、これに限定するものではない。その他の条件に応じて重み付けを行うようにしてもよい。

【0072】

また、本実施の形態では、音声処理装置１が話者認識とコマンド認識とを共に実施した例を示したが、使用環境などにより、話者認識側の機能をＯＦＦにして使用してもよい。

【0073】

例えば操作パネルなどの操作部から第１音声認識部１０２の機能をＯＦＦにして、コマンド認識側の第２音声認識部１０３の機能だけで音声認識する。この場合は、第２音声認識部１０３の結果だけなので第３閾値ＴＨ３の値を低く設定する。

【0074】

（重み付けの例）
変形例として、例えば、補正対象とする閾値を、第１閾値ＴＨ１に限定してもよいし、第２閾値ＴＨ２に限定してもよい。また、登録されているコマンドのうちの所定のコマンドに対しては、第２閾値ＴＨ２を低下させないようにしてもよい。例えば、本実施の形態の音声処理装置１が車載器の音声処理装置に適用される場合において、車両制御に関わる重要なコマンドについては閾値を下げないように設定してもよい。また、例えばサイドビューとワイドビューなど、類似する単語が設定されているコマンド群に対しては閾値を下げないように設定してもよい。

【0075】

また、登録者の使用頻度に応じて閾値を下げるようにしてもよい。例えば、登録されている話者特徴量のうちの使用頻度が高い登録者の話者特徴量について、閾値を下げてもよい。使用頻度が低い登録者の話者特徴量については、話者認識を行う第１音声認識部１０２の閾値を下げない。その他、特定の話者特徴量について、コマンド認識を行う第２音声認識部１０３の閾値を下げる、などの変形が考えられる。

【0076】

なお、本実施の形態では音声情報を特徴量として説明してきたが、これに限るものではない。

【0077】

（カーナビゲーションでの使用例）
図５に示されるように、音声処理装置１をカーナビゲーションに使用した場合、まず登録時において、発話者Ａさんが発話した所定のコマンド、本例では「ナビ画面」が、音声信号として話者認識部である第１音声認識部１０２に入力され、第１音声認識部１０２において算出された音声信号の音声情報が登録部に登録され、メモリなどに記憶される。その後の使用時には、発話者Ａさんが発話したコマンドが、音声信号として話者認識部である第１音声認識部１０２とコマンド認識部である第２音声認識部１０３とに入力され、第１音声認識部１０２と第２音声認識部１０３とでそれぞれ音声認識が行われる。

【0078】

第１音声認識部１０２は、音声信号の話者の音声情報が、登録されている音声情報かを判定して認識結果を出力する。第２音声認識部１０３は、音声信号のコマンドの音声情報が、登録されているコマンドの音声情報かを判定して認識結果を出力する。これらの認識結果が共にＯＫの場合に、カーナビゲーションは、第２音声認識部１０３で認識したコマンドを実行する。この例では、「ナビ画面」が認識された例を示しているが、他の登録されているコマンドが認識された場合は、そのコマンドが実行される。

【0079】

本実施の形態では、第１音声認識部１０２と第２音声認識部１０３の少なくとも一方の音声認識結果に対して補正を行うため、話者の声質の状態や周囲の騒音など各種の使用環境に応じて認識不良が発生した場合でも、それに応じた重み付けで補正を行うことで認識不良を軽減することができる。また、話者認識とコマンド認識との性能に差がある場合でも、重み付けを行うことで認識不良を軽減することができる。

【0080】

（音声処理装置のハードウェア構成）
図６は、音声処理装置のハードウェアブロックの構成の一例を示す図である。図６に示される音声処理装置２は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）を有するコンピュータ構成で、ＣＰＵがメモリに記憶されているプログラムを実行することで、上述した音声処理の各種機能を発揮する。

【0081】

一例として音声処理装置２は、ＣＰＵ２１、メモリ２２、タッチパネル２３、表示ディスプレイ２４、記憶装置２５、通信ＩＦ（インタフェース）２６、カメラ２７、スピーカ２８、およびマイク２９を有し、これらはバス接続されている。

【0082】

ＣＰＵは、メモリ２２に記憶されたプログラムを実行して、入力部１０１、第１音声認識部１０２、第２音声認識部１０３、第３判定処理部１０４、および補正部１０５などの一部またはすべての機能部を実現する。入力部１０１、第１音声認識部１０２、第２音声認識部１０３、第３判定処理部１０４、および補正部１０５としてのＣＰＵはハードウェア各部を制御するなどして音声処理を行う。

【0083】

メモリ２２は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）やＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などである。

【0084】

タッチパネル２３は、表示ディスプレイ２４の画面に積層されており、画面上のタッチ位置を検出する。

【0085】

表示ディスプレイ２４は、液晶等の表示ディスプレイである。表示ディスプレイ２４にＵＩ画面など表示される。タッチパネル２３および表示ディスプレイ２４は、操作パネルの一例である。

【0086】

記憶装置２５は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）やＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）である。記憶装置２５は、第１閾値ＴＨ１、第２閾値ＴＨ２、第３閾値ＴＨ３、判定条件、および各種の条件設定、話者特徴量などを記憶する。なお、話者特徴量を外部のシステムに記憶させ、判定の際に通信ＩＦ２６を介して外部から取得するように構成してもよい。

【0087】

通信ＩＦ２６は、有線または無線の通信ＩＦである。

【0088】

カメラ２７は、ＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）またはＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）などの撮像デバイスを有し、撮像画像を出力する。

【0089】

スピーカ２８は、ＣＰＵ２１が再生する通知音や、応答メッセージなどの音声を出力する。

【0090】

マイク２９は、図１のマイク１０に相当し、音声などを入力する。

【0091】

なお、音声処理装置のハードウェアブロックの構成は一例であり、これに限定されず、構成を適宜変形してよい。

【0092】

（実施の形態の効果）
以上のように、本実施の形態の音声処理装置は、話者認識とコマンド認識とを使用して総合的に音声認識を行う。本実施の形態の音声処理装置は、話者認識とコマンド認識との性能の差や、話者の声質の状態や周囲の騒音など各種の使用環境に応じて認識不良が発生した場合でも、話者認識とコマンド認識の少なくとも一方の音声認識の認識率を上げる重み付けを行うことができるので、調整により認識不良を軽減することができる。

【0093】

本開示はソフトウェア、ハードウェア、又は、ハードウェアと連携したソフトウェアで実現することが可能である。

【0094】

なお、本開示は、システム、装置、方法、集積回路、コンピュータープログラム、または、記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータープログラムおよび記録媒体の任意な組み合わせで実現されてもよい。また、プログラム製品は、コンピュータープログラムが記録されたコンピュータが読み取り可能な媒体である。

【0095】

また、一部の手順またはすべての手順を記録したプログラムを、記録媒体に記録して提供したり、ＲＯＭに格納してコンピュータ構成の情報処理装置として提供したり、あるいは、ネットワークを介してプログラムをダウンロードし、コンピュータで実行することもできる。コンピュータのＣＰＵは、プログラムを読み込んで実行することにより、処理を実施する。

【0096】

以上、図面を参照しながら実施の形態について説明したが、本開示はかかる例に限定されない。当業者であれば、特許請求の範囲に記載された範疇において、各種の変更例又は修正例に想到し得ることも明らかである。そのような変更例又は修正例についても、本開示の技術的範囲に属するものと解される。また、本開示の趣旨を逸脱しない範囲において、実施の形態における各構成要素は任意に組み合わされてよい。

【0097】

（付記）
本開示の態様は、例えば以下の通りである。
（項目１）
音声信号の入力部と、
話者を、入力された音声信号から音声認識する第１音声認識部と、
前記話者が発話したコマンドを、入力された前記音声信号から音声認識する第２音声認識部と、
前記第１音声認識部の音声認識結果と前記第２音声認識部の音声認識結果とから、前記第２音声認識部が認識したコマンドの実行可否の総合判定を行う第３判定処理部と、
前記第１音声認識部および前記第２音声認識部の少なくとも一方の音声認識結果に対しての補正を行う補正部と、
を有する音声処理装置。
（項目２）
前記第１音声認識部の音声認識結果は、
音声情報が登録されている話者のうちの所定の話者情報または未登録であることを示す未登録情報を示す第１情報であり、
前記第２音声認識部の音声認識結果は、
登録されているコマンドのうちの所定のコマンドまたは未登録であることを示す未登録情報を示す第２情報であり、
第３判定処理部は、
前記第１情報を数値化した第１の値と前記第２情報を数値化した第２の値の演算後の第３の値が閾値以上の場合に前記第２音声認識部で認識されたコマンドを実行すると判定し、
前記補正部は、
前記第１の値および前記第２の値、若しくは前記第１情報を判定する前記第１音声認識部の判定値および前記第２情報を判定する前記第２音声認識部の判定値に対して、重み付けを行うことにより補正を行う、
項目１に記載の音声処理装置。
（項目３）
前記第１音声認識部は、
入力された音声信号の話者の特徴量である第１話者特徴量を算出する第１算出部と、
前記第１話者特徴量と、登録されている少なくとも１つの登録話者特徴量のうちの第２話者特徴量と、の類似度が第１閾値以上の場合に、前記音声信号は、登録されている登録者のうち、前記第２話者特徴量に対応する第１登録者の音声であると判定し、前記類似度が第１閾値未満の場合に、前記音声信号は、未登録の音声であると判定する第１判定処理部と、
を有し、
前記第２音声認識部は、
入力された前記音声信号に基づき、登録されている少なくとも１つの登録コマンドである第２コマンドとの確度が第２閾値以上の場合に、前記音声信号は、登録されているコマンドのうちの前記第２コマンドであると判定し、前記確度が第２閾値未満の場合に、前記音声信号は、未登録のコマンドであると判定する第２判定処理部と、
を有し、
前記第３判定処理部は、
前記第１判定処理部の判定結果を数値化した前記第１の値と、前記第２判定処理部の判定結果を数値化した前記第２の値とを演算した前記第３の値が第３閾値以上の場合に、前記第２判定処理部で判定された前記第２コマンドを実行すると判定する、
前記補正部は、前記第１判定処理部の前記第１閾値および前記第２判定処理部の前記第２閾値の少なくとも一方の値を下げることにより補正を行う、
項目１または項目２に記載の音声処理装置。
（項目４）
前記補正部は、
前記第１判定処理部の判定結果が前記第１登録者の音声とする判定結果であり、前記第２判定処理部の判定結果が前記未登録のコマンドとする判定結果である場合に、前記第２閾値を下げる補正を行い、
前記第１判定処理部の判定結果が前記未登録の音声とする判定結果であり、前記第２判定処理部の判定結果が前記第２コマンドとする判定結果である場合に、前記第１閾値を下げる補正を行う、
項目３に記載の音声処理装置。
（項目５）
前記第１閾値および前記第２閾値は、設定変更が可能である、
項目３に記載の音声処理装置。
（項目６）
重み付けを設定するＵＩ部を有し、
前記補正部は、前記ＵＩ部により設定された重み付けの設定に基づいて前記補正を行う、
項目１から項目５のうちの何れか一項目に記載の音声処理装置。
（項目７）
前記補正部は、シチュエーションに応じて前記補正を行う、
項目１から項目６のうちの何れか一項目に記載の音声処理装置。
（項目８）
前記補正部は、検出部が検出した状態に応じて前記補正を行う、
項目１から項目７のうちの何れか一項目に記載の音声処理装置。
（項目９）
音声処理装置において、
音声信号の入力するステップと、
話者を、入力された音声信号から音声認識するステップと、
前記話者が発話したコマンドを、入力された前記音声信号から音声認識するステップと、
２つの前記音声認識のうちの少なくとも一方の音声認識結果に対しての補正を行うステップと、
前記話者を音声認識した音声認識結果と、前記話者が発話した前記コマンドを音声認識した音声認識結果とから、コマンドの実行可否の総合判定を行うステップと、
を含む方法。
（項目１０）
コンピュータに、
音声信号の入力部と、
話者を、入力された音声信号から音声認識する第１音声認識部と、
前記話者が発話したコマンドを、入力された前記音声信号から音声認識する第２音声認識部と、
前記第１音声認識部の音声認識結果と前記第２音声認識部の音声認識結果とから、前記第２音声認識部が認識したコマンドの実行可否の総合判定を行う第３判定処理部と、
前記第１音声認識部および前記第２音声認識部の少なくとも一方の音声認識結果に対して補正を行う補正部、
として機能させるプログラム。

【符号の説明】

【0098】

１、２音声処理装置
１０１入力部
１０２第１音声認識部
１０３第２音声認識部
１０４第３判定処理部
１０５補正部
１０、２９マイク
１１音声取得部
１２前処理部
１３第１特徴量算出部
１４第１判定処理部
１５第２判定処理部
１７登録部
２１ＣＰＵ
２２メモリ
２３タッチパネル
２４表示ディスプレイ
２５記憶装置
２６通信ＩＦ
２７カメラ
２８スピーカ
１５０話者学習用ＤＢ
１６０コマンド学習用ＤＢ

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

知財求人

青山学院大学 (神奈川県相模原市中央区淵野辺)

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版