(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-12-01
(45)【発行日】2022-12-09
(54)【発明の名称】音声処理装置、音声処理方法および音声処理システム
(51)【国際特許分類】
G10L 15/28 20130101AFI20221202BHJP
G10L 15/20 20060101ALI20221202BHJP
G10L 15/10 20060101ALI20221202BHJP
G10L 15/00 20130101ALI20221202BHJP
【FI】
G10L15/28 400
G10L15/20 370E
G10L15/10 200W
G10L15/00 200J
(21)【出願番号】P 2018066232
(22)【出願日】2018-03-29
【審査請求日】2021-03-25
(73)【特許権者】
【識別番号】314012076
【氏名又は名称】パナソニックIPマネジメント株式会社
(74)【代理人】
【識別番号】100138771
【氏名又は名称】吉田 将明
(72)【発明者】
【氏名】田中 直也
(72)【発明者】
【氏名】山梨 智史
(72)【発明者】
【氏名】宮本 正成
【審査官】菊池 智紀
(56)【参考文献】
【文献】特開2005-055667(JP,A)
【文献】特開2001-051694(JP,A)
【文献】特開平11-052976(JP,A)
【文献】特表2015-513704(JP,A)
【文献】実開昭61-013900(JP,U)
【文献】国際公開第2017/138934(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-15/34,21/02-21/0364
H04R 1/40,3/00
(57)【特許請求の範囲】
【請求項1】
複数のシートのそれぞれに対応して複数の異なるマイクが配置された車両に搭載される音声処理装置であって、
前記複数の異なるマイクのそれぞれにより収音された所定時間分の音声信号を保持する保持部と、
前記複数の異なるマイクのそれぞれにより収音された音声信号に基づいて、前記車両に乗車している話者が発声する所定ワードの音声の有無を検出するワード検出部と、
前記所定ワードの音声が検出された場合に、前記保持部に保持される前記所定時間分の音声信号のそれぞれの特性に基づいて、
前記複数の異なるマイクから前記所定ワードを発声した話者の最も近くに配置されたマイクを話者位置マイクとして特定するマイク特定部と、
前記保持部に保持される前記所定時間分の音声信号と前記話者位置マイクに関する情報とを用いて、前記話者が発声した音声を出力するとともに、前記話者でない乗員が発声した音声を抑圧する音声処理部と、を備える、
音声処理装置。
【請求項2】
前記所定時間分の音声信号のそれぞれの特性は、前記複数の異なるマイク間の音声信号の時間差を検出して得られる、
請求項1に記載の音声処理装置。
【請求項3】
前記所定時間分の音声信号のそれぞれの特性は、前記複数の異なるマイクの音声信号ごとの音声波形、周波数、音声レベルを分析して得られる、
請求項1に記載の音声処理装置。
【請求項4】
前記マイク特定部は、前記ワード検出部からトリガ信号を受信してこの受信時刻を時刻の基準に設定し、前記所定時間分の音声信号のそれぞれ前記基準の時刻に対する時間差に基づき前記所定ワードを発声した話者の空間的な位置検出する、
請求項2に記載の音声処理装置。
【請求項5】
前記音声処理部の出力音声信号から、前記車両に搭載される音楽再生装置の再生音が前記複数の異なるマイクにより収音された再生音信号を抑圧する再生音キャンセラ、をさらに備える、
請求項1に記載の音声処理装置。
【請求項6】
前記話者位置マイクにより収音された音声信号の音源に対応する前記話者に、音声信号の指向性を形成するビームフォーミング処理部、をさらに備え、
前記複数の異なるマイクは、それぞれ複数のマイク素子を含んで構成されるマイクアレイである、
請求項1または
5に記載の音声処理装置。
【請求項7】
前記ワード検出部は、
前記複数の異なるマイクのうち特定のマイクにより収音された音声信号に基づいて、前記話者が発声する所定ワードの音声の有無を検出する、
請求項1に記載の音声処理装置。
【請求項8】
所定の条件を検出した場合に、自装置の作動モードを、前記話者が発声した音声を出力して前記話者でない乗員が発声した音声を抑圧する特定話者音声出力モードから、前記所定ワードの音声の有無を検出する所定ワード検出待機モードに移行する制御部、をさらに備える、
請求項1に記載の音声処理装置。
【請求項9】
前記ワード検出部は、
前記話者位置マイクにより収音された音声信号に基づいて、前記所定ワードと異なる終了ワードの音声の有無を検出し、
前記制御部は、
前記所定ワードと異なる終了ワードの音声が検出された場合に、前記所定の条件を満たしたとして、前記自装置の作動モードを前記所定ワード検出待機モードに移行する、
請求項
8に記載の音声処理装置。
【請求項10】
前記制御部は、
前記話者が発声した音声の認識結果を取得して一定時間が経過した場合に、前記所定の条件を満たしたとして、前記自装置の作動モードを前記所定ワード検出待機モードに移行する、
請求項
8に記載の音声処理装置。
【請求項11】
複数のシートのそれぞれに対応して複数の異なるマイクが配置された車両に搭載される音声処理装置における音声処理方法であって、
前記複数の異なるマイクのそれぞれにより収音された所定時間分の音声信号を保持部に保持するステップと、
前記複数の異なるマイクのそれぞれにより収音された音声信号に基づいて、前記車両に乗車している話者が発声する所定ワードの音声の有無を検出するステップと、
前記所定ワードの音声が検出された場合に、前記保持部に保持される前記所定時間分の音声信号のそれぞれの特性に基づいて、
前記複数の異なるマイクから前記所定ワードを発声した話者の最も近くに配置されたマイクを話者位置マイクとして特定するステップと、
前記保持部に保持される前記所定時間分の音声信号と前記話者位置マイクに関する情報とを用いて、前記話者が発声した音声を出力するとともに、前記話者でない乗員が発声した音声を抑圧するステップと、を有する、
音声処理方法。
【請求項12】
複数のシートのそれぞれに対応して複数の異なるマイクが配置された車両に搭載される音声処理装置と、前記車両に搭載される車載機器を制御する制御装置とを含む音声処理システムであって、
前記音声処理装置は、
前記複数の異なるマイクのそれぞれにより収音された所定時間分の音声信号を保持部に保持し、
前記複数の異なるマイクのそれぞれにより収音された音声信号に基づいて、前記車両に乗車している話者が発声する所定ワードの音声の有無を検出し、
前記所定ワードの音声が検出された場合に、前記保持部に保持される前記所定時間分の音声信号のそれぞれの特性に基づいて、
前記複数の異なるマイクから前記所定ワードを発声した話者の最も近くに配置された前記所定ワードの音声信号を収音したマイクを話者位置マイクとして特定し、
前記保持部に保持される前記所定時間分の音声信号と前記話者位置マイクに関する情報とを用いて、前記話者が発声した音声を出力し、前記話者でない乗員が発声した音声を抑圧し、
前記話者が発声した音声の認識結果を取得し、
前記制御装置は、
前記話者が発声した音声の認識結果に基づいて、前記車載機器の作動を制御する、
音声処理システム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、複数のシートのそれぞれに対応して複数の異なるマイクが配置された車両に搭載される音声処理装置および音声処理システム、ならびに音声処理装置により実行される音声処理方法に関する。
【背景技術】
【0002】
例えばミニバン、ワゴン車、ワンボックスカー等、車体の前後方向に複数(例えば3列以上)の座席(シート)が配置された比較的大きな車両において、運転席に座る運転者と後部座席に座る乗員(例えば運転者の家族や友人)との間で会話をしたり、後部座席までカーオーディオの音楽を流したりして、それぞれの席に設置されたマイクとスピーカを用いて音声を乗員または車載機器の間で伝達したり入出力したりする音声技術を搭載することが検討されている。
【0003】
また、車両も通信インターフェースを有するものが近年多く登場するようになった。通信インターフェースは、無線通信の機能を有し、例えば携帯電話網(セルラー網)、無線LAN(Local Area Network)等により構築され、車両内においてもネットワーク環境が整備されるようになった。運転者等はこのような通信インターフェースを介してインターネット回線上の例えばクラウドコンピューティングシステム(以下、単に「クラウド」とも称する)にアクセスして運転中に種々のサービスを受けることが可能になった。
【0004】
ここで、家庭用機器等においてクラウドを用いる音声技術の1つとして自動音声認識システムの開発が加速している。この自動音声認識システムは、クラウド上のサービスを受けるためのヒューマン・マシン・インターフェースとして普及しつつある。自動音声認識システムは、人間が発声した音声をテキストデータに変換等してコンピュータ等の制御装置にその音声の内容を認識されるものである。自動音声認識システムは、人間の手指を用いるキーボード入力に代わるインターフェースであり、より人間に近い操作でコンピュータ等に指示可能である。特に、車両では運転者の手指は従来のドライバー主体の運転走行中または例えば自動運転レベル3の自動運転中のハンドル操作に取られるため、車両に対する自動音声認識の音声技術導入には必然的な動機がある。
【0005】
なお、自動運転のレベルは、NHTSA(National Highway Traffic Safety Administration)によれば運転自動化なし(レベル0)、運転者支援(レベル1)、部分的運転自動化(レベル2)、条件付運転自動化(レベル3)、高度運転自動化(レベル4)、および完全自動運転化(レベル5)に分類されている。レベル3では、自動運転システムが運転を主導しつつ、必要に応じて人間による運転が要請される。自動運転システムのレベル3は近年、実用化されつつある。
【0006】
自動音声認識の音声技術に関する従来技術として、発声されたオーディオデータ(音声信号)がホットワードに対応するかどうかを判定し、ホットワードに対応すると判定されたオーディオデータのホットワードオーディオフィンガープリントを生成し、このホットワードオーディオフィンガープリントが以前に記憶されたホットワードオーディオフィンガープリントと一致した時に、発声されたコンピュータデバイスへのアクセスを無効化する技術が知られる(例えば、特許文献1参照)。
【0007】
なお、ホットワードは、システムまたは制御装置に対して対応する動作を実行させるための事前に設定された予約音声を指すとされる。ホットワードは、指令または命令を送信するトリガとなる所定ワード(特定の単語)であり、WuW(Wake Up Word,ウェイクアップワード)とも称される。本明細書中では、以下、この所定ワードのことを「WuW(Wake up Word)」またはウェイクアップワードとも称して説明する。
【先行技術文献】
【特許文献】
【0008】
【発明の概要】
【発明が解決しようとする課題】
【0009】
しかしながら、上記特許文献1に開示の技術は、ホットワードすなわちWuWが静かな環境下で発声されることを想定して構成されている。つまり、車両等の移動体のように、常に振動や車載機器のノイズが発生する環境下での使用においては、WuWが車両内のどの方向から発声されたか否かを検出することは考慮されていない。
【0010】
そのため、上記特許文献1の技術を用いても、振動やノイズが定常的に発生する車両内において、WuWに続けて車載機器の作動を指示する具体的な指示音声が発声されても、どの方向からWuWが発声されたか検出できない可能性があった。WuWの検出に基づいて車載機器の作動を迅速に行うことができない可能性があり、この点で改善の余地があった。
【0011】
本開示は、上述した従来の事情に鑑みて案出され、車両内で発声される所定ワード(例えば、ウェイクアップワード等)の発声方向を迅速に検出し、その所定ワードの話者が所定ワードに続けて発声する音声をその話者以外の音声に対して排他的に抽出する音声処理装置、音声処理方法および音声処理システムを提供することを目的とする。
【課題を解決するための手段】
【0012】
本開示は、複数のシートのそれぞれに対応して複数の異なるマイクが配置された車両に搭載される音声処理装置であって、前記複数の異なるマイクのそれぞれにより収音された所定時間分の音声信号を保持する保持部と、前記複数の異なるマイクのそれぞれにより収音された音声信号に基づいて、前記車両に乗車している話者が発声する所定ワードの音声の有無を検出するワード検出部と、前記所定ワードの音声が検出された場合に、前記保持部に保持される前記所定時間分の音声信号のそれぞれの特性に基づいて、前記複数の異なるマイクから前記所定ワードを発声した話者の最も近くに配置されたマイクを話者位置マイクとして特定するマイク特定部と、前記保持部に保持される前記所定時間分の音声信号と前記話者位置マイクに関する情報とを用いて、前記話者が発声した音声を出力するとともに、前記話者でない乗員が発声した音声を抑圧する音声処理部と、を備える、音声処理装置を提供する。
【0013】
また、本開示は、複数のシートのそれぞれに対応して複数の異なるマイクが配置された車両に搭載される音声処理装置における音声処理方法であって、前記複数の異なるマイクのそれぞれにより収音された所定時間分の音声信号を保持部に保持するステップと、前記複数の異なるマイクのそれぞれにより収音された音声信号に基づいて、前記車両に乗車している話者が発声する所定ワードの音声の有無を検出するステップと、前記所定ワードの音声が検出された場合に、前記保持部に保持される前記所定時間分の音声信号のそれぞれの特性に基づいて、前記複数の異なるマイクから前記所定ワードを発声した話者の最も近くに配置されたマイクを話者位置マイクとして特定するステップと、前記保持部に保持される前記所定時間分の音声信号と前記話者位置マイクに関する情報とを用いて、前記話者が発声した音声を出力するとともに、前記話者でない乗員が発声した音声を抑圧するステップと、を有する、音声処理方法を提供する。
【0014】
また、本開示は、複数のシートのそれぞれに対応して複数の異なるマイクが配置された車両に搭載される音声処理装置と、前記車両に搭載される車載機器を制御する制御装置とを含む音声処理システムであって、前記音声処理装置は、前記複数の異なるマイクのそれぞれにより収音された所定時間分の音声信号を保持部に保持し、前記複数の異なるマイクのそれぞれにより収音された音声信号に基づいて、前記車両に乗車している話者が発声する所定ワードの音声の有無を検出し、前記所定ワードの音声が検出された場合に、前記保持部に保持される前記所定時間分の音声信号のそれぞれの特性に基づいて、前記複数の異なるマイクから前記所定ワードを発声した話者の最も近くに配置されたマイクを話者位置マイクとして特定し、前記保持部に保持される前記所定時間分の音声信号と前記話者位置マイクに関する情報とを用いて、前記話者が発声した音声を出力し、前記話者でない乗員が発声した音声を抑圧し、前記話者が発声した音声の認識結果を取得し、前記制御装置は、前記話者が発声した音声の認識結果に基づいて、前記車載機器の作動を制御する、音声処理システムを提供する。
【発明の効果】
【0015】
本開示によれば、車両内で発声される所定ワード(例えば、ウェイクアップワード等)の発声方向を迅速に検出し、その所定ワードの話者が所定ワードに続けて発声する音声をその話者以外の音声に対して排他的に抽出する。この抽出により、所定ワードの検出後、その話者以外の音声が混入して出力されるのを抑圧してその話者が発声する音声を遅延なく鮮明(クリア)に出力することができる。その結果、自動音声認識等の精度や性能を向上させ、所定ワードの検出に基づいて車載機器の作動を迅速に行うことができる。
【図面の簡単な説明】
【0016】
【
図2】実施の形態1に係る音声処理システムの構成を説明する機能ブロック図
【
図3】実施の形態1に係る音声制御部の構成を説明する処理ブロック図
【
図4】実施の形態1に係る音声制御部の動作手順を示すフローチャート
【
図5】音声処理装置および音声認識サーバ間での動作手順を示すシーケンス図
【
図6】実施の形態1に係る第1変形例の音声制御部の動作を示す処理ブロック図
【
図7】実施の形態1に係る第1変形例の音声制御部の動作手順を示すフローチャート
【
図8】実施の形態1に係る第2変形例の音声制御部の動作を示す処理ブロック図
【
図10】実施の形態2に係る音声処理装置のシステム構成を説明する機能ブロック図
【
図11】実施の形態2に係る音声処理部の信号処理の動作を示す処理ブロック図
【
図12】実施の形態2に係る音声処理部の動作手順を示すフローチャート
【発明を実施するための形態】
【0017】
以下、適宜図面を参照しながら、本開示に係る、車両に搭載可能な音声処理装置、音声処理方法および音声処理システムを具体的に開示した各実施の形態を詳細に説明する。ただし、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、添付図面および以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。
【0018】
また、実施の形態1でいう「部」または「装置」とは単にハードウェアによって実現される物理的構成に限定されず、その構成が有する機能をプログラム等のソフトウェアにより実現されるものも含む。また、1つの構成が有する機能が2つ以上の物理的構成により実現されても、または2つ以上の構成の機能が例えば1つの物理的構成によって実現されていても構わない。
【0019】
また、各実施の形態の車両に搭載可能な音声処理装置、音声処理方法および音声処理システムは、車両に搭載されており、例えば複数のシートのそれぞれに対応して複数の異なるマイクが配置され、これら複数の異なるマイクのそれぞれにより収音された音声信号を適宜音声処理する。
【0020】
(実施の形態1)
図1~
図8を参照して、本開示に係る車両1に搭載可能な音声処理装置100、音声処理方法および音声処理システム100Sの実施の形態1について説明する。
【0021】
先ず
図1を参照して、実施の形態1に係る車両1の構成について説明する。
図1は、実施の形態1に係る車両1の上面図である。
【0022】
図1に示すように、車両1は、道路運送車両法に基づく自動車において自動走行可能な自動車を一例に挙げている。車両1には、実施の形態1の音声処理システム100Sが搭載される。
【0023】
車両1は、車両1を構成する車体2を有する。車両1は、例えばミニバン、ワゴン車、ワンボックスカー等、前後方向に複数(例えば3列以上)の座席(シート)が配置された比較的大きな車両である。また、車体2内の運転席に着座する運転者の前方には、インストルメントパネル3が配置される。なお、車体2内部には、車載機器の1つとしてナビゲーション装置35(
図2参照)も搭載されており、ナビゲーション装置35は、DSP(Digital Signal Processor)を含んで構成される。
【0024】
車両1の車体2内には、複数のシートのそれぞれに対応して配置される複数(例えば、実施の形態1では6本)の異なるマイクMC1~MC6と、同様に複数のシートそれぞれに対応して配置される音声出力装置20(後述参照)の複数(例えば、実施の形態1では4つ)の車載スピーカSP1~SP4と、この複数のマイクMC1~MC6により入力された音声信号を処理する音声処理装置100と、車両に搭載される1つ以上の車載機器30と、が搭載される。
【0025】
複数のマイクMC1~MC6は、運転者の運転シート(1列目シート)、乗員のセカンドシート(2列目)およびサードシート(3列目シート)にそれぞれ対応して2本ずつ配置される。これにより、複数のマイクMC1~MC6は、運転者または乗員が発する音声を車体2内の全領域で収音可能である。また、実施の形態1では、マイクMC1~MC6は指向性マイクまたは無指向性マイクのいずれでも良い。
【0026】
複数の車載スピーカSP1~SP4のうち一対の車載スピーカSP1,SP2は、運転者の運転シートおよび助手シートに対応するドアにそれぞれ内蔵して配置される。また、残りの一対の車載スピーカSP3,SP4は、乗員のセカンドシートおよびサードシート間の車体2側壁部にそれぞれ内蔵して配置される。これにより、複数の車載スピーカSP1~SP4は、音声処理装置100または車載機器30から出力される音声信号を車両1の内に着席している運転者または乗員に向けて出力可能である。また、実施の形態1では、車載スピーカSP1~SP4は、マイクMC1~MC6と同様に指向性スピーカまたは無指向性スピーカのいずれでも良い。なお、車載スピーカSP1~SP4の少なくとも1つは車両1のインストルメントパネル3に配置されても良く、この場合には、運転者または助手シートの乗員は音声内容をより鮮明に把握可能となる。
【0027】
音声処理装置100および車載機器30は、インストルメントパネル3近傍に配置される。また、音声処理装置100および車載機器30は無線通信回線を介してクラウドCLに接続される。クラウドCL上には、音声認識サーバ40が設けられる。また、実施の形態1では、複数のマイクMC1~MC6と音声処理装置100とを含んで、音声処理システム100Sが構成されることになる。
【0028】
次に
図2を参照して、音声処理システム100Sのシステム構成について説明する。
図2は、音声処理システム100Sの構成を説明する機能ブロック図である。
【0029】
車両1には、1つ以上の音声出力装置20と、複数の車載機器30と、実施の形態1の音声処理システム100Sと、が搭載される。
【0030】
音声出力装置20は、車載機器30から出力された音声信号を増幅するアンプ(増幅回路の一例)21と、この増幅された音声信号を出力する前述の複数の車載スピーカSP1~SP4と、を含む。複数の車載スピーカSP1~SP4は、前述したように、車両1に設置される複数のドアや車両1のインストルメントパネル3等に内蔵されて設けられる。
【0031】
複数の車載機器30は、車体2内に搭載される各種機器の総称である。具体的には、複数の車載機器30は、カーオーディオ31、エアコンディショナー32、照明装置33、映像表示装置34、ナビゲーション装置35等を含んで構成される。これら車載機器30はいずれも後述する音声処理装置100の車載機器制御部120に接続される。
【0032】
カーオーディオ31は、音響装置であり、ラジオ放送を受信したり、CD(Compact Disc)や電子音楽ファイルなどの音楽媒体などを再生したりする。
【0033】
エアコンディショナー32は、車体2内の温度や湿度を調整して運転者または乗員の車内環境を快適にする。また、エアコンディショナー32は、乾燥した空気の送風により車体2のフロントガラスやサイドガラスの霜取りや曇り取りを行う。
【0034】
照明装置33は、安全走行に必要であり、車両1の前方を照らしたり、車両1の周辺に車両1の行動を照明により報知したりする。
【0035】
映像表示装置34は、画像表示部として例えば液晶パネルを含んで構成され、インストルメントパネル3に一体的に設けられる。映像表示装置34は、運転者または乗員に対し画像情報を適宜表示する。
【0036】
ナビゲーション装置35は、車両1の走行時に車両1の位置や目的地までの経路をガイドする。経路のガイドは、例えば前述の映像表示装置34等を共通に用いて、地図情報や矢印情報等が映像表示装置34に適宜表示されて行われる。なお、実施の形態1では、車載機器30としてカーオーディオ31、エアコンディショナー32、照明装置33、映像表示装置34、ナビゲーション装置35を列挙したが、あくまで例示でありこれらに限定されることは意図されない。
【0037】
音声出力装置20のアンプ21には、カーオーディオ31、映像表示装置34、ナビゲーション装置35等の車載機器30が接続され、これら車載機器30から音声信号が出力される。この音声信号は、最終的に音声出力装置20の車載スピーカSP1~SP4を通じて車体2内に流される。
【0038】
音声処理システム100Sは、前述したように、複数のマイクMC1~MC6と、音声処理装置100と、を含んで構成される。音声処理装置100は、通信インターフェース110と、車載機器制御部(制御装置の一例)120と、メモリ130と、音声制御部(音声処理部の一例)140と、を含む。
図2では、通信インターフェースを便宜的に「通信I/F」と記載している。なお、音声処理装置100においてその一部または全部の機能はソフトウェアで実現されており、このソフトウェアの一部または全部を例えばナビゲーション装置35のDSP上で実行されるように構成しても良い。この場合には、既存のハード資源をそのまま利用できるので製造コストを抑制することが可能となる。
【0039】
通信インターフェース110は、無線通信の機能を有しており、無線通信回線を介してクラウドCLに接続され無線通信を行う。また、通信インターフェース110は、無線通信回路として携帯電話網(セルラー網)、無線LAN等を使用することが可能である。
【0040】
なお、クラウドCLには音声認識サーバ40が設けられる。音声認識サーバ40は、同様に通信インターフェース41を含み、さらに演算機42とメモリ43とストレージ44とを有する。演算機42は、データ処理および所定のアルゴリズムを実行するためのCPU(Central Processing Unit)である。メモリ43は、所定のデータやアルゴリズムを一時的に記憶保持するRAM(Random Access Memory)である。ストレージ44は、大容量のデータ等を記憶するための大容量記憶装置(例えば、HDD(Hard Disk Drive)もしくはSSD(Solid State Drive))であり、磁気記憶装置、光学記憶装置等の1つ以上の記憶装置を含んで構成される。
【0041】
車載機器制御部120は、例えばCPU、DSPまたはFPGA(Field Programmable Gate Array)を用いて構成され、後述する自動音声認識システムの認識結果に基づいて、各車載機器30のON/OFFを制御したり、その動作状況を音声で報知するように指示したりして車載機器30それぞれの作動を制御する。また、音声処理装置100のメモリ130は、車載機器制御部120および音声制御部140の間の所定のデータやプログラム等のやり取りを行うための一時的記憶装置として機能する。
【0042】
ここで、実施の形態1では、車載された音声処理装置100とクラウド上に設けられた音声認識サーバ40とを含んで自動音声認識システムが実現される。すなわち、音声処理装置100は複数のマイクMC1~MC6により収音された音声信号を取り込む。音声処理装置100は、音声信号を音声処理した上で、通信インターフェース110を介してクラウドCLおよび音声認識サーバ40に音声信号を送信する。この音声信号の送信により、音声認識サーバ40は、送信された音声信号を例えばコーパスに基づき音声認識してテキストデータに変換する。このテキストデータは、システムコマンドまたはデータ入力等の様々な目的や所定のサービス利用のために用いられる。
【0043】
テキストデータの変換や解釈については、所定の自動音声認識アルゴリズムに従って行われる。この自動音声認識アルゴリズムは、音声認識サーバ40に実装されており、例えばディープラーニングに基づく人工知能(AI:Artificial Intelligence)により生成される。このような、音声認識および人工知能により運転者または乗員は、音声を発することでクラウドCL上の、例えば他のサーバが提供する種々のサービス、例えばスケジュール管理またはサポートデスクへの問い合わせ等を受けることが可能となる。また、運転者または乗員は、音声処理装置100の車載機器制御部120を通じて各車載機器30の操作指示、例えば音楽再生等を音声で指示することも可能となる。
【0044】
また、自動音声認識システムは、装置に指示を出す前に発せされる所定ワード、実施の形態1ではその一例としてWuW(ウェイクアップワード:Wake Up Word)をトリガとして実質的に機能する。人により発せられたWuWの音声が、システムへのアクセスを許可するキーとなるので、システムが検出可能なように事前に所定ワードにより定義される。そのため、このWuWは、事前に音声処理装置100のメモリ130などに適宜記憶保持される。なお、WuWは、その一例として例えば「ハロー、マイ・コンピュータ」や「ヘイ、ビークル」等で定義付けられるが、特にこのフレーズ(語句)に限定されず種々のものを採用することができ、任意に設定可能である。
【0045】
WuWを含むフレーズが検出されれば、自動音声認識システムが起動(ウェイクアップ)し、その自動認識の動作が開始されることになる。このWuWを用いたシステム起動により、自動音声認識システムは常時動作する必要はなく、必要とされるときだけ起動または機能すれば良い。これにより、システムの演算処理やネットワークの回線トラフィックなどの負担を低減することが可能となる。
【0046】
実施の形態1では、このようなWuWの検出機能は音声処理装置100の音声制御部140に実装される。また、WuWの検出に関する音声信号マッチングモデルは、事前に設定され、例えば音声処理装置100のメモリ130に記憶保持されている。なお、音声信号マッチングモデルとしては、例えばパターンマッチング辞書モデルまたは音響モデル等が採用されるが、これに限定されない。種々のモデルまたはその他の音声信号マッチング技術を適宜採用することができる。
【0047】
次に
図3を参照して、音声制御部140の構成について説明する。
図3は、音声制御部140の構成を説明する信号処理ブロック図である。
【0048】
図3に示すように、音声制御部140は、WuW検出部(ワード検出部の一例)141と、音声信号バッファ部(保持部の一例)142と、話者位置検出部(マイク特定部の一例)143と、CTC(Cross Talk Canceller)部(音声処理部の一例)144と、を有する。また、音声制御部140にはA/D変換器(図示略)が設けられる。A/D変換器は、マイクMC1~MC6の音声信号を所定のサンプリング周期で量子化してデジタル変換し、音声制御部140内部に取り込む。
【0049】
WuW検出部141は、複数の異なるマイクMC1~MC6のそれぞれにより収音された音声信号を直接取得する。また、WuW検出部141は、メモリ130に記憶保持された音声信号マッチングモデルを事前に取得しており、その音声信号マッチングモデルをその内部に保持している。WuW検出部141は、入力された音声信号に基づき、所定の音声信号マッチングモデルに対応するアルゴリズムに従って、特定の話者より発生されたWuWの音声信号の有無を検出する。WuW検出部141は、WuWの音声を検出したら、その検出情報を話者位置検出部143にトリガ信号として送信する。なお、WuW検出部141に記憶保持部を設けて、その記憶保持部に前述の音声信号マッチングモデルを保持しておいても良い。また、マッチングアルゴリズムは、例えばディープラーニングに基づく人工知能(AI:Artificial Intelligence)により生成されても良い。
【0050】
音声信号バッファ部142は、例えばRAM等の記憶回路により構成され、入力されたマイクMC1~MC6の音声信号それぞれを個別に所定時間分(例えば2~3秒)、常時記憶保持する。音声信号バッファ部142の容量が一杯になったら、マイクMC1~MC6の音声信号それぞれにおいて古い音声信号は上書き更新され、現時点から直前(所定期間前まで)のタイミングでの最新の音声データそれぞれが繰り返し記憶保持される。以下、このような一連の処理を「バッファリング処理」ともいう。なお、音声信号バッファ部142を音声制御部140の内部に設ける代わりに、その機能を音声処理装置100のメモリ130に共通化し、音声制御部140はこの音声処理装置100のメモリ130にバッファされた音声信号を適宜取得するように構成しても良い。この場合には、部品点数を少なくして製造コストを削減することが可能となる。
【0051】
話者位置検出部143は、WuW検出部141から送信されたトリガ信号を受信すると、この受信時刻を時刻の基準に設定する。話者位置検出部143は、その受信時刻から過去所定時間分の音声信号(つまり、バッファリング処理された信号)を個別に音声信号バッファ部142からそれぞれ取得する。話者位置検出部143は、WuWの音声信号とこのバッファリング処理された各音声信号とを照会して、例えば音源方向推定アルゴリズムに従って車体2内におけるWuWの話者の空間的位置を検出する。
【0052】
音源方向推定アルゴリズムでは、例えばマイクMC1~MC6間の音声信号の時間差検出に基づいて空間的な位置検出を行う。また、時間差検出以外にも、マイクMC1~MC6の音声信号それぞれをフーリエ変換やスペクトル分析して、その音声信号ごとの音声波形、周波数や音声レベル等をさらに分析して位置検出することも可能である。
【0053】
このようにして話者位置検出部143は、WuWの音声が検出された場合に、音声信号バッファ部142に記憶保持される所定時間分の音声信号のそれぞれの特性に基づいて、WuWを発生した話者の空間的な位置検出を行う。これにより、話者位置検出部143は、その話者に最も近くに配置されたマイク(つまり、マイクMC1~MC6のうちいずれか)、すなわちWuWの音声を収音したマイクを話者位置マイクとして特定する。話者位置検出部143は、例えば話者位置マイクの識別番号をCTC部144に送信する。
【0054】
また、話者位置検出部143が話者位置マイクを特定した後は、音声信号バッファ部142はバッファリング処理を停止する。また、WuW検出部141の動作も停止する。これにより、音声制御部140の処理の負荷を低減することが可能となる。
【0055】
CTC部144は、マイクMC1~MC6の音声信号をリアルタイムにそれぞれ直接取得する。また、CTC部144は、適用フィルタ(図示略)および加算器(図示略)を有する。CTC部144は、WuWの話者が発声した音声のみを抽出可能とするため、話者位置マイクで収音された音声信号に対し適応フィルタで生成されたダミー音声信号(言い換えると、キャンセル信号)を加算器で加算することでWuWの話者以外が発声した音声をキャンセルする。これにより、CTC部144は、音声信号バッファ部142に記憶保持される所定時間分の音声信号と話者位置マイクに関する情報とを用いて、WuWの話者でない乗員が発声した音声を抑圧して、WuWの話者が発声した音声のみを可能な限り抽出して出力する。
【0056】
また、適応フィルタは、話者位置マイクを含むマイクMC1~MC6で収音された音声信号すべてを参照して、例えば学習アルゴリズムに従って各マイクMC1~MC6間の伝達特性と等価になるまでフィルタ係数を更新しながら成長する。この適応フィルタを用いて音声信号の処理を行うことで、話者以外の音声をキャンセルするためのダミー音声信号を生成することが可能となる。なお、適応フィルタに限らず、WuWの話者以外の音声をキャンセル可能であれば種々のフィルタを採用することができる。例えば、マイクMC1~MC6間の伝達特性を予め実測して、この実測結果を反映したフィルタを事前に設計し実装しても良い。また、CTC部144は、適用フィルタによる処理に加えて、話者位置マイク以外のマイクのボリュームを下げ、話者位置マイクから収音される音声信号のみが音声制御部140に入力されるように構成しても良い。
【0057】
次に
図4および
図5を参照して、音声制御部140の動作、並びに音声処理装置100および音声認識サーバ40間での動作手順について説明する。
図4は、音声制御部140の動作手順を示すフローチャートである。
図5は、音声処理装置100および音声認識サーバ40間での動作を示すシーケンス図である。なお、
図4は、
図5のサブルーチンSR1の動作手順を示している。先ず
図4を用いて音声制御部140の動作手順、すなわちサブルーチンSR1について説明する。
【0058】
図4に示すように、サブルーチンSR1において、音声制御部140は、各マイクMC1~6により収音された音声信号を取得して、WuW検出部141および音声信号バッファ部142にこれら音声信号を先ず入力する(S10)。WuW検出部141は、入力された各音声信号に基づき、所定の音声信号マッチングアルゴリズムに従って、WuWの音声信号の検出を音声信号ごとに並行して開始する(S11)。WuW検出部141は、入力された各音声信号のいずれかにWuWの音声信号が含まれるか否かを判定する(S12)。判定の結果、WuW検出部141がWuWの音声信号があると判定すれば、WuW検出部141の処理はステップS14に進む。その一方、WuW検出部141がWuWの信号がないと判定すれば、WuW検出部141の処理はステップS11に戻る。
【0059】
WuW検出部141のステップS11およびS12の処理に並行して、音声信号バッファ部142は、入力されたマイクMC1~MC6の音声信号それぞれを個別に所定時間分、常時記憶保持する。すなわち、音声信号バッファ部142は、マイクMC1~MC6の音声信号それぞれに対しバッファリング処理を行う(S13)。
【0060】
話者位置検出部143は、WuWの音声信号とバッファリング処理された各音声信号とを照会して、車体2内におけるWuWの話者の空間的位置を検出する。これにより、話者位置検出部143は、WuWの音声を収音したマイクを話者位置マイクとして特定する(S14)。この話者位置マイクの特定により、話者位置マイクの音声信号に混入するWuWの話者以外が発声した音声を抑圧するように、音声制御部140はCTC部144の適応フィルタのフィルタ係数を設定して機能(起動)させる(S15)。
【0061】
このCTC部144の設定の際、WuW検出部141、音声信号バッファ部142および話者位置検出部143は、ステップS15以降(
図5に示すメインルーチンも含む)では動作(例えばバッファリング処理等)が不要となるのでその機能を停止する(S16)。
【0062】
CTC部144の適応フィルタのフィルタ係数が設定されたら、CTC部144は、話者位置マイクの音声信号を直接取得して、WuWの話者でない乗員が発声した音声を抑圧する。このとき、CTC部144は、適応フィルタを用いて音声信号のフィルタリング処理を行う(S17)。音声制御部140は、WuWを発声した話者の音声が鮮明になった音声信号を出力し、このフィルタリング処理による出力状態を維持する(S18)。
【0063】
すなわち、WuWが発声されその話者位置マイクが特定された以降の音声は、CTC部144でのフィルタリング処理が常時施される。その結果、WuWの話者以外の運転者または乗員が発声した音声は打ち消され、WuWの話者が発声した音声が主な音声信号が出力され続けることになる。このような一連のステップS10~S18が実行され、サブルーチンSR1は終了し、
図5に示すメインルーチンの動作手順に戻ることになる。
【0064】
図5に示すように、音声処理装置100の音声制御部140によるサブルーチンSR1が終了すると、音声処理装置100の処理はステップS100に進む。音声制御部140は、通信インターフェース110を用いて音声認識サーバ40に所定の音声認識起動コマンドを送信する(S100)。
【0065】
ここで、音声認識サーバ40は、音声処理装置100の音声制御部140から音声認識起動コマンドを受信したか否かを判定する(S102)。音声認識サーバ40は、受信していないと判定すれば、音声認識サーバ40の処理はステップS101に戻り、待機モードとなる。すなわち、音声認識サーバ40は、音声認識起動コマンドが受信されるまで待機モードとされる。その一方、音声認識サーバ40は、音声認識起動コマンドを受信したと判定すれば、音声認識サーバ40の処理はステップS104に進む。なお、音声認識起動コマンドは、音声認識サーバ40に自動音声認識の実行を促すトリガとして機能する命令文である。また、WuW検出部141がWuWの音声を検出したと同時に、音声認識サーバ40に音声認識起動コマンドが送信されるように構成しても良い。
【0066】
音声制御部140は、ステップS100の後、CTC部144がフィルタリング処理した音声信号を音声認識サーバ40に送信する(S103)。音声認識サーバ40は、その音声信号を受信して、前述の通り音声認識を実行する。音声認識サーバ40は、通信インターフェース41を用いて音声認識結果を音声制御部140に送信する(S104)。なお、サブルーチンSR1以降、音声制御部140により出力される音声信号は、CTC部144でのフィルタリング処理が行われており、WuWの話者が発声した音声が主な音声信号となっている。すなわち、ステップS103では、サブルーチンSR1のステップS17,S18と同様な処理が実行されている。
【0067】
音声処理装置100の車載機器制御部120は、音声認識サーバ40の認識結果に基づいて、車載機器30それぞれの作動を制御する(S105)。
【0068】
次に、音声制御部140は、所定の条件を満たしたか否かを検出することで、音声認識を終了するか否かを判定する(S106)。音声制御部140音声認識を終了すると判定すれば、音声制御部140の処理はステップS107に進む。その一方、音声制御部140が音声認識を終了しないと判定すれば、音声制御部140の処理はステップS103に戻る。
【0069】
音声制御部140は音声認識終了コマンドを音声認識サーバ40に送信する(S107)。音声認識サーバ40は、音声制御部140から音声認識終了コマンドを受信したか否かを判定し(S108)、受信したと判定すると音声認識サーバ40の処理はステップS101に戻り再び待機モードとなる。その一方、音声認識サーバ40が受信していないと判定するとステップS104に戻る。音声認識終了コマンドを受信しない限り、音声認識サーバ40は音声認識を実行し続ける。
【0070】
すなわち、これらステップS106,S107により、音声制御部140は、その制御機能の一部として、所定の条件を検出した場合に、自装置の作動モードを、WuWの話者が発声した音声を出力して話者でない乗員が発声した音声を抑圧する特定話者音声出力モード(S103)から、WuWの音声の有無を検出するWuW検出待機モード(すなわちSR1:所定ワード検出待機モードの一例)に移行する機能をさらに有することになる。
【0071】
ここで、実施の形態1では、所定の条件として2つの動作手順が選択的に実行される。所定の条件に関する第1動作手順では、WuWとは異なる音声認識の終了を意味するストップワード(SW,Stop Word:終了ワードの一例)が事前に定義、設定される。ステップS106において、音声制御部140のWuW検出部141は、WuWの検出だけではなく、話者位置マイクにより収音された音声信号に基づいて、同様なアルゴリズムに従ってSWの音声の有無を検出する。音声制御部140は、SWの音声が検出されたか否かを判定することによってステップS106を実行して、自装置の作業モードをWuW検出待機モードに移行する。
【0072】
また、所定の条件に関する第2動作手順では、音声制御部140は、話者が発声した音声の認識結果を取得して一定時間が経過したか否かを判定することによってステップS106を実行して、自装置の作業モードをWuW検出待機モードに移行する。
【0073】
このようにステップS106では、これら第1または第2動作手順のいずれか1つの条件が満足されるかどうかが判定され、音声制御部140の処理が実行される。
【0074】
以上により、実施の形態1に係る音声処理装置100は、複数の異なるマイクMC1~MC6のそれぞれにより収音された所定時間分の音声信号を保持する音声信号バッファ部(保持部の一例)142を備える。音声処理装置100は、複数の異なるマイクMC1~MC6のそれぞれにより収音された音声信号に基づいて、車両1に乗車している話者が発声するWuW(所定ワードの一例)の音声の有無を検出するWuW検出部(ワード検出部の一例)141を備える。音声処理装置100は、WuWの音声が検出された場合に、音声信号バッファ部142に保持される所定時間分の音声信号のそれぞれの特性に基づいて、WuWの音声信号を収音したマイク(例えば、マイクMC1~MC6のうちいずれか)を話者位置マイク(例えばマイクMC1)として特定する話者位置検出部(マイク特定部の一例)143を備える。音声処理装置100は、音声信号バッファ部142に保持される所定時間分の音声信号と話者位置マイクに関する情報とを用いて、話者が発声した音声を出力するとともに、話者でない乗員が発声した音声を抑圧するCTC部(音声処理部の一例)144を備える。
【0075】
これにより、音声処理装置100または音声処理システム100Sは、車両1内で発声されるWuWの発声方向を迅速に検出し、そのWuWの話者がWuWに続けて発声する音声をその話者以外の音声に対して排他的に抽出できる。音声処理装置100または音声処理システム100Sは、この抽出により、WuWの検出後、その話者以外の音声が混入して出力されるのを抑圧してその話者が発声する音声を遅延なく鮮明(クリア)に出力することができる。その結果、音声処理装置100または音声処理システム100Sは、自動音声認識等の精度や性能を向上させ、WuWの検出に基づいて車載機器30の作動を迅速に行うことができる。
【0076】
また、音声処理装置100は、所定の条件を検出した場合に、自装置の作動モードを、話者が発声した音声を出力して話者でない乗員が発声した音声を抑圧する特定話者音声出力モード(S103)から、WuW(所定ワードの一例)の音声の有無を検出するWuW検出待機モード(SR1、所定ワード検出待機モードの一例)に移行する音声制御部140(音声処理部の一例)をさらに備える。これにより、音声処理装置100は、必要なときのみ自装置を作動させるので、無駄な処理を削減するとともに、音声認識サーバ40との間で過剰な回線トラフィックが発生するのを防止することができる。
【0077】
また、音声処理装置100では、WuW検出部141は、話者位置マイクにより収音された音声信号に基づいて、WuW(所定ワードの一例)と異なるSW(終了ワードの一例)の音声の有無を検出する。音声処理装置100は、音声制御部140は、WuWと異なるSWの音声が検出された場合に、所定の条件を満たしたとして、自装置の作動モードをWuW検出待機モード(SR1、所定ワード検出待機モードの一例)に移行する。これにより、音声処理装置100は、WuWの話者自身で音声処理装置100の作動を終了させることができるので、運転者または乗員の人間側で無駄な処理や過剰な回線トラフィックを自発的に削減することができる。また、運転者または乗員は、音声処理装置100が待機状態になったことを自明的に把握することができる。
【0078】
また、音声処理装置100では、音声制御部140は、話者が発声した音声の認識結果を取得して一定時間が経過した場合に、所定の条件を満たしたとして、自装置の作動モードをWuW検出待機モード(SR1、所定ワード検出待機モードの一例)に移行する。これにより、音声処理装置100は、WuWの話者自身で音声処理装置100の作動を終了させてなくても自動的に装置側で作業を終了することができる。このため、音声処理装置100では、無駄な処理や過剰な回線トラフィックの発生を自動的に抑制することができる。
【0079】
(実施の形態1の第1変形例)
次に
図6および
図7を参照して、実施の形態1の第1変形例に係る音声制御部140の動作について説明する。
図6は、第1変形例の音声制御部140の動作を示す処理ブロック図である。
図7は、第1変形例の音声制御部140の動作手順を示すフローチャートである。なお、
図3および
図4と同一または同等部分については、図面等に同一あるいは同等符合を付してその説明を省略あるいは簡略化する。
【0080】
図6に示すように、第1変形例では、音声制御部140は再生音キャンセラ145およびノイズキャンセラ(不図示)をさらに備える。再生音キャンセラ145は、複数の車載機器30のうちカーオーディオ(音楽再生装置の一例)31にも接続されており、CTC部144の出力信号とともにその出力信号も入力される。具体的には、再生音キャンセラ145には、カーオーディオ31が音声出力装置20のアンプ21に出力する音声信号と同じ信号(デジタル信号)が入力される(
図2参照)。なお、ノイズキャンセラは、再生音キャンセラ145の出力信号にローパスフィルタ等のフィルタリング処理を実行してノイズを除去する。
【0081】
再生音キャンセラ145も、CTC部144と同様に適用フィルタ(不図示)および加算器(不図示)を有する。再生音キャンセラ145の適応フィルタは、カーオーディオ31で再生される音楽の音声信号を参照して、その再生音楽に関するダミー音声信号を生成する。再生音キャンセラ145は、話者位置マイクで収音された音声に対し適応フィルタで生成された、再生音楽に関するダミー音声信号を加算器で加算する。これにより、再生音キャンセラ145は、車載スピーカSP1,SP2,SP3,SP4を介して車体2内に流れ、話者位置マイクに混入して収音される再生音楽の音声信号をキャンセルする。このようにして、再生音キャンセラ145は、音声制御部140の出力音声信号から、車両1に搭載されるカーオーディオ31の再生音楽(再生音の一例)が複数の異なるマイクMC1~6により収音された再生音信号を抑圧する。
【0082】
図7に示すように、再生音キャンセラ145の処理は、CTC部144のステップS17での処理の後に実行される。再生音キャンセラ145は、カーオーディオ31の再生音楽の音声信号を取得して、前述したフィルタ処理により話者位置マイクに混入して収音される再生音楽の音声信号をキャンセルする(S20)。その以降は、CTC部144および再生音キャンセラ145両方でのフィルタリング処理により、音声制御部140は、WuWを発声した話者の音声が鮮明になった音声信号を出力し、この出力状態を維持する(S18)。
【0083】
以上により、実施の形態1の第1変形例に係る音声処理装置100は、音声制御部(音声処理部の一例)140の出力音声信号から、車両1に搭載されるカーオーディオ(音楽再生装置の一例)31の再生音楽(再生音の一例)が複数の異なるマイクMC1~6により収音された再生音信号を抑圧する再生音キャンセラ145をさらに備える。これにより、再生音キャンセラ145は、車載スピーカSP1,SP2,SP3,SP4を介して車体2内に流れ、話者位置マイクに混入して収音される再生音楽の音声信号をキャンセルすることができる。このため、音声処理装置100は、WuWを発声した話者以外の音声が混入して出力されるのをより効果的に抑制して、その話者が発声する音声をより鮮明にすることができる。
【0084】
(実施の形態1の第2変形例)
図8を参照して、実施の形態1の第2変形例に係る音声制御部140の動作について説明する。
図8は、第2変形例の音声制御部140の動作を示す処理ブロック図である。なお、
図3と同一または同等部分については、図面等に同一あるいは同等符合を付してその説明を省略あるいは簡略化する。
【0085】
図8に示すように、第2変形例では、音声制御部140はビームフォーミング(BF:Beam Forming)処理部146をさらに備える。また、複数の異なるマイクMC1~6は、それぞれ複数のマイク素子を含んで構成されるマイクアレイとされる。
【0086】
ビームフォーミング処理部146は、マイクロアレイで構成される複数のマイクMC1~6を用いて、話者位置マイクにより収音された音声信号の音源に対応する話者に、音声信号の指向性を形成する。この指向性の形成により、ビームフォーミング処理部146は、その指向軸をWuWの話者の方向に向けて車体2内におけるその話者周辺の音声やノイズの収音を抑制する。
【0087】
以上により、実施の形態1の第2変形例に係る音声処理装置100は、話者位置マイクにより収音された音声信号の音源に対応する話者(すなわちWuWを発声した話者)に、音声信号の指向性を形成するビームフォーミング処理部146をさらに備える。音声処理装置100は、複数の異なるマイクMC1~6は、それぞれ複数のマイク素子を含んで構成されるマイクアレイである。これにより、ビームフォーミング処理部146は、マイクロアレイで構成される複数のマイクMC1~6を用いて、車体2内におけるその話者周辺の音声やノイズの収音を抑制して、その話者が発声する音声をより一層鮮明にすることができる。
【0088】
(実施の形態2)
次に
図9~
図12を参照して、本開示に係る車両1に搭載可能な音声処理装置200、音声処理方法および音声処理システム200Sの実施の形態2について説明する。
図9は、実施の形態2に係る車両1の上面図である。
図10は、音声処理装置200のシステム構成を説明する機能ブロック図である。
図11は、音声制御部240の信号処理の動作を示す処理ブロック図である。
図12は、音声制御部240の動作手順を示すフローチャートである。なお、実施の形態1と同一または同等部分については、図面等に同一あるいは同等符合を付してその説明を省略あるいは簡略化する。
【0089】
図9および
図10にそれぞれ示すように、実施の形態2では、複数のマイクMC(具体的には、マイクMC1~MC6とWuW検出用マイクMC7)は車体2内に7本配置され、7本のうちマイクMC1~MC6以外である第7のマイクは、WuW検出用マイクMC7とされる。特定のマイクの一例としてのWuW検出用マイクMC7は、WuWを検出するために用いられる専用のマイクであり、車両1に乗車している乗員の発する音声を均等に収音し易くするために、できるだけ車体2の略中央部分天井面に埋設される。
図9では、WuW検出用マイクMC7は、マイクMC3とマイクMC4との間の中間的位置に配置されるが、配置される位置に限定されない。実施の形態2では、第7のマイク(つまり、WuW検出用マイクMC7)以外のマイクMC1~MC6により収音された音声に基づいて、WuWの検出は行われない。
【0090】
そのため、
図11に示すように、音声制御部240の信号処理の動作において、WuW検出部241には複数のマイクMC1~MC6の音声信号は入力されず、第7のマイク(WuW検出用マイクMC7)により収音された音声のみ、すなわち1チャンネル分の音声しか入力されない。その一方、音声信号バッファ部142、話者位置検出部143およびCTC部144には、上記実施の形態1と同様、マイクMC1~MC6の6チャンネル分の音声が入力される。
【0091】
WuW検出部241は、このWuW検出用マイクMC7の収音した音声信号に基づき所定のマッチングアルゴリズムに従って、車両1に乗車している人物の中から特定の話者より発生されたWuWの音声信号の有無を検出する。その他の構成については、上記実施の形態1と同様である。
【0092】
すなわち、
図12に示すように、実施の形態2に係るWuW検出部241は、WuW検出用マイクMC7により収音された音声信号を直接取得する(S30)。WuW検出部241は、入力されたWuW検出用マイクMC7の音声信号の検出処理を開始する(S31)。WuW検出部241は、入力された音声信号の中にWuWの音声信号が含まれるか否かを判定する(S32)。その一方、これらWuW検出部241のステップS30~ステップS32の処理に並行して、音声信号バッファ部142は、実施の形態1と同様に、マイクMC1~MC6により収音された音声信号をそれぞれ取得する(S33)。音声信号バッファ部142は、入力されたマイクMC1~MC6の音声信号それぞれを個別に所定時間分、常時記憶保持する。それ以降のステップは、実施の形態1と同様である。
【0093】
以上により、実施の形態2に係る音声処理装置200は、WuW検出部(ワード検出部の一例)241は、複数の異なるマイクMC(具体的には、マイクMC1~MC6と、WuW検出用マイクMC7)のうちWuW検出用マイクMC7により収音された音声信号に基づいて、話者が発声するWuW(所定ワードの一例)の音声の有無を検出する。これにより、音声処理装置200は、WuWの音声を検出する際にWuW検出用マイクMC7により収音された音声信号の中からWuWの音声を検出すればよいので、音声制御部240のWuW検出部241が処理すべき情報量を軽減して、より迅速にWuWの話者が発声する音声をより迅速に鮮明にすることができる。
【0094】
以上、図面を参照しながら各種の実施の形態について説明したが、本開示はかかる例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例、修正例、置換例、付加例、削除例、均等例に想到し得ることは明らかであり、それらについても当然に本開示の技術的範囲に属するものと了解される。また、発明の趣旨を逸脱しない範囲において、上述した各種の実施の形態における各構成要素を任意に組み合わせてもよい。
【産業上の利用可能性】
【0095】
本開示は、車両内で発声される所定ワード(例えば、ウェイクアップワード等)の発声方向を迅速に検出し、その所定ワードの話者が所定ワードに続けて発声する音声をその話者以外の音声に対して排他的に抽出することができる車両に搭載可能な音声処理装置、音声処理方法および音声処理システムとして有用である。
【符号の説明】
【0096】
1 車両
2 車体
3 インストルメントパネル
20 音声出力装置
21 アンプ
30 車載機器
31 カーオーディオ
32 エアコンディショナー
33 照明装置
34 映像表示装置
35 ナビゲーション装置
40 音声認識サーバ
41 通信インターフェース
42 演算機
43 メモリ
44 ストレージ
100S 音声処理システム
100 音声処理装置
110 通信インターフェース
120 車載機器制御部
130 メモリ
140 音声制御部
141 WuW検出部
142 音声信号バッファ部
143 話者位置検出部
144 CTC部
145 再生音キャンセラ
146 ビームフォーミング処理部
200S 音声処理システム
200 音声処理装置
240 音声制御部
241 WuW検出部
SP1,SP2,SP3,SP4 車載スピーカ
MC1,MC2,MC3,MC4,MC5,MC6 マイク
MC7 WuW検出用マイク
CL クラウド