(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-05-24
(45)【発行日】2024-06-03
(54)【発明の名称】音声処理装置および音声処理方法
(51)【国際特許分類】
H04R 3/00 20060101AFI20240527BHJP
【FI】
H04R3/00 310
H04R3/00 320
(21)【出願番号】P 2020078052
(22)【出願日】2020-04-27
【審査請求日】2023-03-02
(73)【特許権者】
【識別番号】000010098
【氏名又は名称】アルプスアルパイン株式会社
(74)【代理人】
【識別番号】100105784
【氏名又は名称】橘 和之
(74)【代理人】
【識別番号】100098497
【氏名又は名称】片寄 恭三
(74)【代理人】
【識別番号】100099748
【氏名又は名称】佐藤 克志
(74)【代理人】
【識別番号】100103171
【氏名又は名称】雨貝 正彦
(72)【発明者】
【氏名】工藤 信範
【審査官】中村 天真
(56)【参考文献】
【文献】特開2006-094389(JP,A)
【文献】特開2006-135689(JP,A)
【文献】特開2002-101486(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-25/93
H04R 3/00- 3/14
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
複数のスピーカが配置された所定の空間に設置された音声処理装置であって、
複数の音声信号を対象としてビームフォーミング処理を施すビームフォーミング処理部
と、
ユーザにより音声入力が開始されることを検出する検出部と、
前記検出部により音声入力の開始が検出された場合、前記複数のスピーカの音声出力機能を停止し、前記複数のスピーカをマイクとして機能させ、マイクとして機能する前記複数のスピーカから前記ビームフォーミング処理部に音声信号を入力させる切替部と
を備え、
前記所定の空間は、車両の車内に形成された車内空間であり、
前記複数のスピーカは、ダッシュボードの両端部に設けられた2台のツイータである
ことを特徴とする音声処理装置。
【請求項2】
前記検出部は、ユーザによる音声入力の終了を検出し、
前記切替部は、前記複数のスピーカをマイクとして機能させた後、前記検出部により音声入力の終了が検出された場合、前記複数のスピーカについてマイクとして機能させることを停止し、音声出力機能の停止を解除する
ことを特徴とする請求項1に記載の音声処理装置。
【請求項3】
複数のスピーカが配置された所定の空間に設置された音声処理装置であって、
マイクとしてのみ機能する第1マイクと、
複数の音声信号を対象としてビームフォーミング処理を施すビームフォーミング処理部と、
前記第1マイクにより収音された音声を分析することによってユーザにより音声入力が開始されることを検出する検出部と、
前記検出部により音声入力の開始が検出された場合、前記複数のスピーカの音声出力機能を停止して前記所定の空間に前記複数のスピーカから音声の出力がなされない状態を構築し、前記複数のスピーカをマイクとして機能させ、マイクとして機能する前記複数のスピーカから前記ビームフォーミング処理部に音声信号を入力させる切替部とを備え、
前記複数のスピーカから前記ビームフォーミング処理部に音声信号が入力されている期間、前記第1マイクからも前記ビームフォーミング処理部に音声信号が入力される状態とされ、
前記ビームフォーミング処理部は、前記検出部により音声入力の開始が検出された場合、前記第1マイクからの音声信号および前記複数のスピーカのそれぞれからの音声信号を対象としてビームフォーミング処理を施す
ことを特徴とする音声処理装置。
【請求項4】
前記検出部は、ユーザによる音声入力の終了を検出し、
前記切替部は、前記複数のスピーカをマイクとして機能させた後、前記検出部により音声入力の終了が検出された場合、前記複数のスピーカについてマイクとして機能させることを停止し、音声出力機能の停止を解除する
ことを特徴とする請求項3に記載の音声処理装置。
【請求項5】
前記所定の空間は、車両の車内に形成された車内空間であり、
前記複数のスピーカは、前記車内空間において、左右方向に離間して配置された車載スピーカであることを特徴とする請求項
3または
4に記載の音声処理装置。
【請求項6】
前記複数のスピーカは、ダッシュボードの両端部に設けられた2台のツイータであることを特徴とする請求項
5に記載の音声処理装置。
【請求項7】
複数のスピーカが配置された所定の空間に設置され、複数の音声信号を対象としてビームフォーミング処理を施すビームフォーミング処理部が設けられた音声処理装置による音声処理方法であって、
前記音声処理装置の検出部が、ユーザにより音声入力が開始されることを検出するステップと、
前記音声処理装置の切替部が、前記検出部により音声入力の開始が検出された場合、前記複数のスピーカの音声出力機能を停止し、前記複数のスピーカをマイクとして機能させ、マイクとして機能する前記複数のスピーカから前記ビームフォーミング処理部に音声信号を入力させるステップと
を含み、
前記所定の空間は、車両の車内に形成された車内空間であり、
前記複数のスピーカは、ダッシュボードの両端部に設けられた2台のツイータである
ことを特徴とする音声処理方法。
【請求項8】
複数のスピーカが配置された所定の空間に設置され、複数の音声信号を対象としてビームフォーミング処理を施すビームフォーミング処理部およびマイクとしてのみ機能する第1マイクが設けられた音声処理装置による音声処理方法であって、
前記音声処理装置の検出部が、前記第1マイクにより収音された音声を分析することによってユーザにより音声入力が開始されることを検出するステップと、
前記音声処理装置の切替部が、前記検出部により音声入力の開始が検出された場合、前記複数のスピーカの音声出力機能を停止して前記所定の空間に前記複数のスピーカから音声の出力がなされない状態を構築し、前記複数のスピーカをマイクとして機能させ、マイクとして機能する前記複数のスピーカから前記ビームフォーミング処理部に音声信号を入力させるステップとを含み、
前記複数のスピーカから前記ビームフォーミング処理部に音声信号が入力されている期間、前記第1マイクからも前記ビームフォーミング処理部に音声信号が入力される状態とされ、
前記ビームフォーミング処理部は、前記検出部により音声入力の開始が検出された場合、前記第1マイクからの音声信号および前記複数のスピーカのそれぞれからの音声信号を対象としてビームフォーミング処理を施す
ことを特徴とする音声処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声処理装置および音声処理方法に関し、特に、マイクにより収音されたユーザの発話音声を処理する音声処理装置および音声処理方法に用いて好適なものである。
【背景技術】
【0002】
従来、マイクにより収音されたユーザの発話音声の音声信号を入力し、入力した音声信号に対してノイズキャンセル処理やエコーキャンセル処理等の処理を施す音声処理装置が存在する。この種の音声処理装置では、複数のマイクから音声信号を入力し、ビームフォーミング処理を施すことによって、出力する音声信号の更なる高品質化を図ったものがある。なお、特許文献1には、マイクが故障したときに、スピーカをマイクの代用として使用し、ハンズフリーフォンシステムの機能を継続する技術が記載されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
ビームフォーミング処理は複数台のマイクが必要となるため、ビームフォーミング処理を実行する機能を新たに音声処理装置に実装する場合、複数台のマイクから音声信号が入力される状態を構築する必要がある。この方法として専用のマイクを増設し、専用のマイクを音声処理装置に接続すること、或いは、専用のマイクを音声処理装置に内蔵することが考えられるが、この場合、専用のマイクを増設する分、コストが増大してしまう。
【0005】
本発明は、このような問題を解決するために成されたものであり、コストの増大を抑制しつつ、ビームフォーミング処理を実行する機能を音声処理装置に実装できるようにすることを目的としている。
【課題を解決するための手段】
【0006】
上記した課題を解決するために、本発明は、複数のスピーカが配置された所定の空間に設置された音声処理装置について、複数の音声信号を対象としてビームフォーミング処理を施すビームフォーミング処理部を設け、ユーザにより音声入力がされる場合に、複数のスピーカの音声出力機能を停止し、複数のスピーカをマイクとして機能させ、マイクとして機能する複数のスピーカから音声信号がビームフォーミング処理部に入力されるようにしている。この構成において所定の空間は、車両の車内に形成された車内空間であり、複数のスピーカは、ダッシュボードの両端部に設けられた2台のツイータであってもよい。またこの構成において、音声入力の開始が検出された場合、複数のスピーカの音声出力機能を停止して所定の空間に複数のスピーカから音声の出力がなされない状態を構築し、複数のスピーカをマイクとして機能させ、マイクとして機能する複数のスピーカからビームフォーミング処理部に音声信号を入力させるようにし、複数のスピーカからビームフォーミング処理部に音声信号が入力されている期間、マイクとしてのみ機能する第1マイクからもビームフォーミング処理部に音声信号が入力される状態とされ、音声入力の開始が検出された場合、第1マイクからの音声信号および複数のスピーカのそれぞれからの音声信号を対象としてビームフォーミング処理を施すようにしてもよい。
【発明の効果】
【0007】
上記のように構成した本発明によれば、専用のマイクを増設して、音声処理装置に複数のマイクから音声信号が入力されるようにするのではなく、音声処理装置が設置された空間に元々ある複数のスピーカを利用して、音声処理装置に複数の音声信号が入力されるようにすることができるため、コストの増大を抑制しつつ、ビームフォーミング処理を実行する機能を音声処理装置に実装できる。
【図面の簡単な説明】
【0008】
【
図1】本発明の一実施形態に係る音声処理装置が車内空間に設けられた様子の一例を示す図である。
【
図2】本発明の一実施形態に係る音声認識システムの構成例を示す図である。
【
図3】本発明の一実施形態に係る音声処理装置のハードウェア構成の一例を示す図である。
【
図4】本発明の一実施形態に係る音声処理装置の制御ユニットの機能の一例を示す機能ブロック図である。
【
図5】本発明の一実施形態に係る音声処理装置の動作例を示すフローチャートである。
【発明を実施するための形態】
【0009】
以下、本発明の一実施形態を図面に基づいて説明する。
図1は、本実施形態に係る音声処理装置1が車両の車内に形成された車内空間2(特許請求の範囲の「所定の空間」に相当)に設けられた様子を示す図である。
図1では、車内空間2の前部座席(運転席3+助手席4)およびダッシュボード5の周辺を単純化して模式的に示している。
図1で示すように、ダッシュボード5の中央部には音声処理装置1が設けられている。ただし
図1で示す音声処理装置1の設置位置は一例であり、音声処理装置1は任意の位置に設置できる。音声処理装置1には、音声を収音する内蔵マイク6(マイクロフォン)が内蔵されている。ただし
図1では内蔵マイク6を誇張して描画している。
【0010】
図1で示すように、ダッシュボード5の両端部には一対のツイータ7R、7L(特許請求の範囲の「複数のスピーカ」「車載スピーカ」に相当)が設けられている。ツイータ7R、7Lは、高音域の音声を音声出力するスピーカであり、音声処理装置1に接続されている。
図1における図示は省略したが、車内空間2には、ツイータ7R、7L以外に、中音域以下の音声を出力するスピーカ(例えばフルレンジスピーカや、フルレンジスピーカとサブウーファとの組み合わせ等)が設けられており、音声処理装置1と各スピーカとにより車載オーディオシステムが構成されている。なお車載オーディオシステムにおいて、本実施形態のように一対のツイータをダッシュボードの両端部に設けることは、現状、広く行われている。
【0011】
以下の説明において、音声処理装置1に接続されたスピーカの集まりを「スピーカ群」(ツイータ7R、7Lを含む)という。また、車両の搭乗者を単に「ユーザ」という。
【0012】
図2は、本実施形態に係る音声処理装置1を含んで構成される音声認識システム9の構成を示す図である。
図2で示すように、音声処理装置1は、インターネットや電話網等の通信網を含んで構成されたネットワークNにアクセス可能であり、ネットワークNを介してサービス提供サーバ10と通信可能である。サービス提供サーバ10は、クライアント端末で収集された音声の音声認識に関するサービスを提供するクラウドサーバである。以下、サービス提供サーバ10により提供されるサービスを「音声認識サービス」という。音声認識サービスの1つは、クライアント端末で収集された音声を音声認識して、その音声の内容を理解し、その音声の内容に対応する処理を実行するというものである。一例として、サービス提供サーバ10は、ユーザがクライアント端末に対して何らかの質問を内容とする音声を発話した場合に、その音声を音声認識し、その音声の内容を理解し、質問に対する回答を生成し、クライアント端末に音声として出力させ、これによりユーザとクライアント端末との間で音声対話を実現する。
【0013】
本実施形態に係る音声処理装置1は、サービス提供サーバ10に対するクライアント端末として機能し、ユーザは、音声処理装置1を介して音声認識サービスを利用することができる。ユーザは、音声認識サービスの利用に際し、ウェイクワードと呼ばれる予め定められた特定のワードを発話し、ウェイクワードの発話に続けて、何らかの質問や、要求を行うための文言(以下、「リクエスト」という)を発話する。本実施形態では、説明の便宜のため、リクエストの発話の前に必ずウェイクワードの発話がユーザにより行われるものとする。
【0014】
音声処理装置1は、ユーザによるウェイクワードおよびリクエストの発話に応じて処理要求データを生成し、サービス提供サーバ10に送信する。処理要求データは、ユーザが発話したウェイクワードに対応する音声データ、および、ユーザが発話したリクエストに対応する音声データを含む音声データ(以下「発話音声データ」という)と、発話音声データに関する必要な参照情報が所定のフォーマット(例えばJSON)に従って記述された制御情報データとを含んでいる。
【0015】
ここで発話音声データに含まれるリクエストに対応する音声データは、サービス提供サーバ10における音声認識の対象となるものであり、高品質であることが求められる。これを鑑み、本実施形態に係る音声処理装置1は、入力音声について、エコーキャンセル処理およびノイズキャンセル処理を実行する機能の他、ビームフォーミング処理を実行する機能が実装されている。周知の通り、ある装置においてビームフォーミング処理を実行するためには、その装置に複数台のマイクから音声信号が入力されるようにする必要があるが、本実施形態に係る音声処理装置1は、備え付けのマイクとして、1台の内蔵マイク6のみを備えている。
【0016】
このような構成の音声処理装置1にビームフォーミング処理を実行する機能を実装するためには、専用のマイクを増設し、その専用のマイクを音声処理装置1に接続すること、或いは、その専用のマイクを音声処理装置1に内蔵することが考えられるが、この場合、専用のマイクを増設する分、コストが増大してしまう。また、専用のマイクを接続するようにした場合、適切な位置に固定的に専用のマイクを取り付ける必要があり、作業の難易度が高く、また、専用のマイクを内蔵するようにした場合、筐体内において専用のマイクを搭載するスペースについての課題や、筐体内の他の電子部品との配置についての課題、デザイン上の課題等の種種の課題を解決する必要がある。以上を踏まえ、本実施形態に係る音声処理装置1は、以下の構成の下、以下の手段でビームフォーミング処理を実行する。以下、音声処理装置1の構成および処理について詳述する。
【0017】
図3は、音声処理装置1の要部のハードウェア構成例を示すブロック図である。ただし、
図3では、制御ユニット12(後述)を示すブロック内に、制御ユニット12により実現される機能を示す機能ブロックを描画している。
図3で示すように、音声処理装置1は、ハードウェア構成として制御ユニット12と音声処理ユニット13とを備えている。
【0018】
制御ユニット12は、DSP(Digital Signal Processor)およびDSPに付随する各種回路/電子部品を備え、DSPの機能により各種処理を実行する。ただし、制御ユニット12はDSPではなく、例えば、汎用のマイクロプロセッサやマイクロコントローラを含んで構成されていてもよい。音声処理ユニット13は、音声処理に関する各種回路/電子部品を備えている。なお、
図3において制御ユニット12および音声処理ユニット13を異なるブロックとしているのは説明の便宜上のことであり、当然、制御ユニット12の機能を実現する各種回路/電子部品および音声処理ユニット13を実現する各種回路/電子部品が共通する基板上に設けられていてもよい。制御ユニット12は、音声処理ユニット13に対して音声信号を出力して音声を放音させる機能、および、音声処理ユニット13により収音された音声に基づく音声信号を入力し、対応する処理を実行する機能を備えている。
【0019】
音声処理装置1は、動作モードとして通常モードとビームフォーミングモードとを有している。以下まず、通常モードのときの音声処理ユニット13の動作、および、ビームフォーミングモードのときの音声処理ユニット13の動作について、制御ユニット12が出力する音声信号に基づく音声を放音する点、および、収音した音声に基づく音声信号を制御ユニット12に出力する点に着目して説明する。
【0020】
<通常モード>
通常モードにおいて、制御ユニット12がデジタルな音声信号をD/Aコンバータ14に出力すると、音声信号はD/Aコンバータ14によりデジタル/アナログ変換され、ボリューム15により音量レベルが調整され、スピーカアンプ16により増幅される。通常モードにおいては、セレクタ17は、スピーカ機能状態とされる。このスピーカ機能状態では、セレクタ17のスイッチによりスピーカアンプ16とスピーカ群(ツイータ7R、7Lを含む)とが導通された状態とされる。従って、スピーカアンプ16により増幅された音声信号はセレクタ17を介してツイータ7R、7Lに出力され、ツイータ7R、7Lにおいて音声信号に基づく音声が放音される。なお、スピーカ機能状態では、セレクタ17のスイッチによりツイータ7R、7Lとマイクアンプ18R、18Lとの導通状態は停止される。
【0021】
通常モードにおいて、内蔵マイク6が音声を収音すると、内蔵マイク6が収音した音声に基づく音声信号は、内蔵マイク6からマイクアンプ19に出力され、マイクアンプ19により増幅され、A/Dコンバータ20でアナログ/デジタル変換され、エコーキャンセラ21によりエコーキャンセル処理が施される。通常モードにおいては、ビームフォーミング処理部22は、オフ状態とされる。このオフ状態では、ビームフォーミング処理部22は、前段のエコーキャンセラ21から入力した音声信号について信号処理を施すことなく、後段のノイズキャンセラ23に出力する。従って、通常モードにおいて、エコーキャンセラ21によりエコーキャンセル処理が施された音声信号は、ビームフォーミング処理部22を介してノイズキャンセラ23に出力され、ノイズキャンセラ23においてノイズキャンセル処理が施され、制御ユニット12に出力される。
【0022】
<ビームフォーミングモード>
ビームフォーミングモードでは、セレクタ17は、マイク機能状態とされる。このマイク機能状態では、セレクタ17のスイッチによりスピーカアンプ16とスピーカ群(ツイータ7R、7Lを含む)との導通状態が停止され、スピーカアンプ16からスピーカ群への音声出力が遮断される。つまり、ツイータ7R、7L(複数のスピーカ)の音声出力機能が停止される。そしてビームフォーミングモードでは、ツイータ7R、7Lとマイクアンプ18R、18Lとが信号線により導通された状態とされる。
【0023】
ここでツイータ7R、7Lは、スピーカとして機能するとき、スピーカアンプ16から入力した音声信号を振動板の振動に変換し音声として出力するが、音声を出力していない状態のときには、周囲で発生した音声を振動板で収音し、振動板の振動を音声信号に変換するマイクとして機能させることができる。特に本実施形態に係るツイータ7R、7Lについては、マイクとして有効に機能することが事前に実証されている。そしてビームフォーミングモードにおいては、ツイータ7R、7Lの音声出力機能が停止された状態で、ツイータ7R、7Lとマイクアンプ18R、18Lとが導通するため、ツイータ7R、7Lはマイクとして機能し、ツイータ7R、7Lにより収音された音声に基づく音声信号は、セレクタ17を介してマイクアンプ18R、18Lに出力される。マイクアンプ18R、18Lが入力した音声信号は、マイクアンプ18R、18Lにて増幅され、A/Dコンバータ24R、24Lでアナログ/デジタル変換され、エコーキャンセラ25R、25Lでエコーキャンセル処理が施され、ビームフォーミング処理部22に入力される。
【0024】
一方、ビームフォーミングモードにおいて、内蔵マイク6が収音した音声に基づく音声信号は、マイクアンプ19による増幅、A/Dコンバータ20によるアナログ/デジタル変換、および、エコーキャンセラ21によるエコーキャンセル処理を介して、ビームフォーミング処理部22に入力される。
【0025】
ビームフォーミングモードではビームフォーミング処理部22はオン状態とされる。オン状態の場合、ビームフォーミング処理部22は、エコーキャンセラ21およびエコーキャンセラ25R、25Lのそれぞれから入力する音声信号に基づいてビームフォーミング処理を実行する。周知の通り、ビームフォーミング処理は、音声信号が示す音声について、音声の発生源に向かう方向(内蔵マイク6から音の発生源に向かう方向)に対しての感度を確保しつつ、音声の発生源に向かう方向以外の感度を低下させる処理である。ビームフォーミング処理では、各マイクで検出した信号のレベルと位相差に基づいて、音声の発生源に向かう方向を特定する処理が行われるが、ツイータ7Rとツイータ7Lとは左右方向に離間して配置されており、各ツイータに対する音声の発生源の距離が相違するときに、位相差と信号のレベルの差とが現出しやすく、ビームフォーミング処理部22への音声信号の供給元として適している。
【0026】
なお、ビームフォーミング処理は、ツイータ7R、7Lの配置位置や、内蔵マイク6とツイータ7R、7Lとの位置関係、ツイータ7R、7Lおよび内蔵マイク6の特性等が考慮されて事前に行われたテストやシミュレーションの結果に基づいて設計されたモデルに従って適切に実行される。ビームフォーミング処理部22によりビームフォーミング処理が施された音声信号は、ノイズキャンセラ23によりノイズキャンセル処理が施された後、制御ユニット12に出力される。このように動作モードがビームフォーミングモードのときは、収音された音声についてビームフォーミング処理が施されるため、その点で通常モードのときと比較して制御ユニット12に出力される音声信号の品質が高い。
【0027】
図4は、制御ユニット12の要部の機能を機能ブロックとして表現した機能ブロック図である。
図4で示すように、制御ユニット12は、その機能構成として、音声出力部26、コンテンツ再生部27、音声入力部28、検出部29、音声認識処理部30および切替部31を備えている。上述したように、本実施形態では、各機能ブロック26~31の処理はDSPによって実行されるが、各機能ブロック26~31は、DSPに限らず、任意のハードウェア或いは任意のハードウェアと任意のソフトウェアとの組み合わせにより実現可能である。例えば、制御ユニット12がコンピュータのCPU、RAM、ROM等を備えて構成され、制御ユニット12の各機能ブロック26~31は、CPUがROMに記憶されたプログラムRAMに読み出して実行することにより各種処理を実行する。以下、制御ユニット12の各機能ブロック26~31の処理の説明を通して、音声処理装置1の動作について説明する。
【0028】
音声出力部26は、音声信号をD/Aコンバータ14に出力し、音声信号に基づく音声を音声処理ユニット13に放音させる。
【0029】
コンテンツ再生部27は、ユーザの指示に応じてコンテンツを再生する。コンテンツは、図示しないコンテンツドライブに挿入されたCDやDVDに記録された楽曲や動画(映画などの動画)、記憶領域に記憶されたデータに記録された楽曲や動画、音声処理装置1に接続された外部装置に記憶された楽曲や動画等である。音声出力部26は、コンテンツ再生部27により再生されたコンテンツの音声に対応する音声信号を出力する。以下、コンテンツ再生部27により再生されるコンテンツに対応する音声を特に「コンテンツ音声」という。
【0030】
音声入力部28は、ノイズキャンセラ23から音声信号を入力し、入力した音声信号を音声データとして音声バッファ(不図示)にバッファリングする。この結果、現時点から遡って所定期間の間に音声処理ユニット13により収音された音声に基づく音声データが音声バッファに記憶された状態となる。以下、音声バッファに記憶された音声データの集合を「入力音声データ」という。
【0031】
検出部29は、ユーザによりウェイクワードが発話されたときに、そのことを検出する。詳述すると、検出部29は、音声入力部28により音声バッファに累積的に記憶される入力音声データを継続して分析し、入力音声データに記録された音声の音声波形と、あらかじめ登録されたウェイクワードの音声パターンの類似度を継続して算出する。そして、検出部29は、ウェイクワードの音声パターンと、入力音声データに係る音声波形との類似度が閾値以上となった場合、ユーザがウェイクワードに対応する音声を発話したことを検出する。
【0032】
なお、ユーザによりウェイクワードが発話されたということは、基本的にはユーザがこれからリクエスト(音声入力)を行うということである。従って検出部29がユーザによりウェイクワードが発話されたことを検出する処理は、特許請求の範囲の「ユーザにより音声入力が開始されることを検出する」処理に相当する。検出部29は、ユーザによりウェイクワードが発話されたことを検出した場合、音声認識処理部30および切替部31にその旨、通知する。以下この通知を「開始通知」という。
【0033】
一方、検出部29は、ユーザによりウェイクワードが発話され、更にリクエストの発話が開始され、その後リクエストの発話が終了したときに、そのことを検出する。詳述すると、検出部29は、ユーザによるウェイクワードの発話を検出した後、音声入力部28により音声バッファに累積的に記憶される入力音声データを継続して分析し、音声の音圧レベルが所定値以上の状態となった後、音圧レベルが所定値以下の状態が一定時間以上続いた場合、リクエストの発話が終了したことを検出する。なお、ユーザは、ウェイクワードを発話した後、一定期間内にリクエストの発話を開始し、リクエストの発話が終了すると、発話をしばらくやめると想定されており、音声の音圧レベルが所定値以下の状態が一定時間以上続いた場合、リクエストの発話が終了したとみなすことができる。
【0034】
なお、検出部29がユーザによるリクエストの発話の終了を検出する処理は、特許請求の範囲の「ユーザによる音声入力の終了を検出する」処理に相当する。検出部29は、ユーザによるリクエストの発話の終了を検出した場合、音声認識処理部30および切替部31にその旨、通知する。以下この通知を「終了通知」という。
【0035】
音声認識処理部30は、検出部29から開始通知を受け、更にリクエスト終了通知を受けると、音声バッファに格納された音声データに基づいて処理要求データを生成する。音声認識処理部30は、生成した処理要求データを、ネットワークNを介してサービス提供サーバ10に送信する。
【0036】
サービス提供サーバ10は、処理要求データを受信し、受信した処理要求データに基づいて、リクエストの内容を認識すると共に、当該内容に対応する処理を実行する。説明の便宜のため、本実施形態では、リクエストの内容は2つのパターンがあるものとする。1つ目は、車内空間2に設けられ、音声処理装置1に接続された機器(例えば空気調和装置)の制御を要求するパターン(以下「機器制御パターン」という)であり、当パターンのリクエストの文言の一例は「エアコンをつけて」というものである。2つ目は、音声対話を要求するパターン(以下「音声対話パターン」という)であり、当パターンのリクエストの文言の一例は「今日の天気は」というものである。
【0037】
サービス提供サーバ10は、リクエストの内容が機器制御パターンの場合には、音声処理装置1が機器を制御するための機器制御データを生成し、音声認識処理部30に応答する。サービス提供サーバ10は、リクエストの内容が音声対話パターンの場合には、音声処理装置1にリクエストに対応する所定の内容の音声(以下「応答音声」という)を音声出力させるための音声出力制御データを生成し、音声認識処理部30に応答する。音声出力制御データには、応答音声の音声データが含まれている。
【0038】
音声認識処理部30は、サービス提供サーバ10から機器制御データを受信した場合、機器制御データに基づいて機器を制御する。当処理についての詳細な説明は省略する。音声認識処理部30は、サービス提供サーバ10から音声出力制御データを受信した場合、音声出力制御データに基づいて音声出力部26を制御して、スピーカ群から応答音声を出力させる。後に明らかとなる通り、音声認識処理部30がサービス提供サーバ10から音声出力制御データを受信したタイミングでは、音声処理装置1の動作モードは通常モードであり、応答音声の出力は問題なくできる。なお、音声出力部26がコンテンツを再生中の場合には、音声認識処理部30は、コンテンツ音声に重畳して応答音声を出力させる。ただし、応答音声の出力中は、コンテンツの再生を一時的に中断したり、コンテンツ音声の音量を小さくしたりするようにしてもよい。
【0039】
切替部31は、動作モードが通常モードのときに検出部29から開始通知を受けた場合、動作モードをビームフォーミングモードに切り替える。動作モードのビームフォーミングモードへの切り替えに応じて、切替部31は、セレクタ17に制御信号を出力して、セレクタ17の状態をスピーカ機能状態からマイク機能状態へと切り替える。更に切替部31は、ビームフォーミング処理部22に制御信号を出力して、ビームフォーミング処理部22の状態をオフ状態からオン状態へと切り替える。
【0040】
一方、切替部31は、動作モードがビームフォーミングモードのときに検出部29から終了通知を受けた場合、動作モードを通常モードに切り替える。動作モードの通常モードへの切り替えに応じて、切替部31は、セレクタ17に制御信号を出力して、セレクタ17の状態をマイク機能状態からスピーカ機能状態へと切り替える。つまり、切替部31は、ツイータ7R、7Lについてマイクとして機能させることを停止し、音声出力機能の停止を解除する。更に切替部31は、ビームフォーミング処理部22に制御信号を出力して、ビームフォーミング処理部22の状態をオン状態からオフ状態へと切り替える。
【0041】
以上の処理が行われることにより、例えば以下の態様で音声認識サービスの提供が行われることになる。すなわち、コンテンツ再生部27によるコンテンツの再生、および、コンテンツの再生に伴うコンテンツ音声の出力が行われている状況であり、音声処理装置1の動作モードが通常モードであるものとする。この状況において、ユーザが車載機器の制御或いは音声対話の実行を所望し、ウェイクワードを発話したとする。すると、音声処理装置1の機能により、動作モードが通常モードからビームフォーミングモードへと移行し、スピーカ群によるコンテンツ音声の出力が停止されると共に、音声処理ユニット13において入力音声に対してビームフォーミング処理が施される状態となる。
【0042】
その後ユーザがリクエストを発話すると、リクエストに対応する音声信号はビームフォーミング処理が施された上で制御ユニット12に出力されることになる。このため、リクエストに対応する音声信号の高品質化、および、これに伴うサービス提供サーバ10に送信されるリクエストに対応する音声データの高品質化を実現でき、ひいてはサービス提供サーバ10におけるリクエストについての認識精度の向上を図ることができる。また、リクエストが発話されている間は、スピーカ群によりコンテンツ音声が放音されないため、この点からもリクエストに対応する音声信号の高品質化およびこれに付随する効果を得ることができる。
【0043】
そして、ユーザによるリクエストの発話が終了すると速やかに動作モードがビームフォーミングモードから通常モードへ移行する。上述の通り、通常モードではスピーカ群(ツイータ7R、7Lを含む)により音声出力が可能な状態となるため、リクエストが音声対話を要求するものである場合、リクエスト対する応答音声を問題なく出力できる。また、スピーカ群によりコンテンツ音声の放音が停止される期間は、ユーザがリクエストを発話した短い時間であり、これによるユーザへの影響は極めて限定的である。
【0044】
以上詳しく説明したように、本実施形態では、ツイータ7R、7L(複数のスピーカ)が配置された車内空間2に設置された音声処理装置1について、複数の音声信号を対象としてビームフォーミング処理を施すビームフォーミング処理部22を設け、ユーザによりリクエスト(音声入力)がされた場合に、ツイータ7R、7Lの音声出力機能を停止し、ツイータ7R、7Lをマイクとして機能させ、マイクとして機能するツイータ7R、7Lが出力する音声信号がビームフォーミング処理部22に入力されるようにしている。
【0045】
以上の構成によれば、専用のマイクを増設して、音声処理装置1に複数のマイクから音声信号が入力されるようにするのではなく、音声処理装置1が設置された空間に元々あるツイータ7R、7Lを利用して、音声処理装置1に複数のマイクから音声信号が入力されるようにすることができるため、コストの増大を抑制しつつ、ビームフォーミング処理を実行する機能を音声処理装置1に実装できる。
【0046】
次に、音声処理装置1の動作例についてフローチャートを用いて説明する。
図5は、音声処理装置1による音声処理方法を示すフローチャートである。
図5で示すように、音声処理装置1の検出部29は、ユーザにより音声入力が開始されることを検出する(ステップSA1)。上述の通り、本実施形態では、検出部29は、ユーザによりウェイクワードが発話されたことを検出する。次いで、音声処理装置1の切替部31は、複数のスピーカの音声出力機能を停止し、ツイータ7R、7Lをマイクとして機能させ、マイクとして機能するツイータ7R、7Lからビームフォーミング処理部22に音声信号を入力させる(ステップSA2)。上述の通り、本実施形態では、検出部29は、動作モードをビームフォーミングモードへ移行する。
【0047】
以上、本発明の一実施形態を説明したが、上記実施形態は、本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその要旨、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。
【0048】
例えば上記実施形態では、本発明が音声認識システム9の音声処理装置1に適用される例を説明したが、本発明が適用される音声処理装置は、本実施形態のようにサーバと協働で音声認識に関するサービスを提供する装置に限られない。すなわち本発明は、収音した音声に基づく音声信号についてビームフォーミング処理を行って品質を向上することが求められる音声処理装置に広く適用可能である。一例として、本発明をハンズフリー通話システムを構成する音声処理装置に適用することができる。
【0049】
また上記実施形態では、音声処理装置1は車内空間2に設けられていたが、音声処理装置1が設けられる空間は車内空間2に限られない。すなわち、音声処理装置1が設けられる空間は、マイクとして機能させることが可能なスピーカが元々存在する空間であればよい。一例として音声処理装置1は、オフィスや住宅の一室に設けられていてもよい。
【0050】
また上記実施形態では、検出部29は、ウェイクワードが発話されたことをもって音声入力(リクエスト)が開始されたことを検出した。また検出部29は、ウェイクワードの発話を検出した後、音声の音圧レベルが所定値以下の状態が一定時間以上続いた場合、音声入力(リクエスト)が終了したことを検出した。しかしながら、音声入力の開始/終了を検出部29が検出する方法は実施形態で例示した方法に限られず、ユーザの音声入力が行われる方法に応じた適切な方法が採用される。例えば、ユーザが音声入力の開始時および終了時に所定のスイッチを操作するシステム(音声入力の間、所定のスイッチを押し続けるというシステムでもよい)の場合、所定のスイッチに対する操作に基づいて音声入力の開始/終了を検出部29が検出してもよい。
【0051】
また例えば、ユーザと音声処理装置1との間での音声対話において2回目以降のユーザの発話にウェイクワードが含まれない場合に、検出部29が以下の処理を実行してもよい。すなわち、検出部29は、音声処理装置1により応答音声が出力された後、ユーザによる発話があるものとして、ユーザの音声入力の開始を検出し、その後、音声の音圧レベルが所定値以下の状態が一定時間以上続いた場合に、音声入力が終了したことを検出する構成でもよい。
【0052】
また、
図3で示す音声処理ユニット13のハードウェア構成はあくまで一例であり、ハードウェア構成が例示した内容に限られないことは勿論である。例えば、エコーキャンセラ21がない構成でもよく、エコーキャンセル処理、ノイズキャンセル処理およびビームフォーミング処理が施される順番は例示した順番に限られない。
【0053】
また、上記実施形態では、音声処理装置1に接続し、マイクとして機能させる複数のスピーカはツイータ7R、7Lであったが、車内空間2に設けられた他のスピーカであってもよい。ただしマイクとして有効に機能するスピーカに限られる。
【0054】
また、上記実施形態では、切替部31は、検出部29から開始通知を受けた後、終了通知を受けるまでの間、セレクタ17を制御してスピーカ群からの音声出力を停止したが、その際に、コンテンツ再生部27と連携しコンテンツの再生を一時停止する構成としてもよい。この構成によれば、音声出力が停止している間、コンテンツの再生が進むことを防止できる。
【0055】
また、上記実施形態で、サービス提供サーバ10が実行していた処理の一部または全部を音声処理装置1が実行する構成としてもよい。また音声処理装置1が実行していた処理の一部または全部をサービス提供サーバ10(サービス提供サーバ10以外の外部装置であってもよい)が実行する構成としてもよい。
【符号の説明】
【0056】
1 音声処理装置
2 車内空間(所定の空間)
5 ダッシュボード
7R、7L ツイータ(複数のスピーカ、車載スピーカ)
22 ビームフォーミング処理部
29 検出部
31 切替部