IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日産自動車株式会社の特許一覧 ▶ ルノー エス.ア.エス.の特許一覧

特許7105320音声認識装置、音声認識装置の制御方法、コンテンツ再生装置、及びコンテンツ送受信システム
<>
  • 特許-音声認識装置、音声認識装置の制御方法、コンテンツ再生装置、及びコンテンツ送受信システム 図1
  • 特許-音声認識装置、音声認識装置の制御方法、コンテンツ再生装置、及びコンテンツ送受信システム 図2
  • 特許-音声認識装置、音声認識装置の制御方法、コンテンツ再生装置、及びコンテンツ送受信システム 図3
  • 特許-音声認識装置、音声認識装置の制御方法、コンテンツ再生装置、及びコンテンツ送受信システム 図4
  • 特許-音声認識装置、音声認識装置の制御方法、コンテンツ再生装置、及びコンテンツ送受信システム 図5
  • 特許-音声認識装置、音声認識装置の制御方法、コンテンツ再生装置、及びコンテンツ送受信システム 図6
  • 特許-音声認識装置、音声認識装置の制御方法、コンテンツ再生装置、及びコンテンツ送受信システム 図7
  • 特許-音声認識装置、音声認識装置の制御方法、コンテンツ再生装置、及びコンテンツ送受信システム 図8
  • 特許-音声認識装置、音声認識装置の制御方法、コンテンツ再生装置、及びコンテンツ送受信システム 図9
  • 特許-音声認識装置、音声認識装置の制御方法、コンテンツ再生装置、及びコンテンツ送受信システム 図10
  • 特許-音声認識装置、音声認識装置の制御方法、コンテンツ再生装置、及びコンテンツ送受信システム 図11
  • 特許-音声認識装置、音声認識装置の制御方法、コンテンツ再生装置、及びコンテンツ送受信システム 図12
  • 特許-音声認識装置、音声認識装置の制御方法、コンテンツ再生装置、及びコンテンツ送受信システム 図13
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-07-13
(45)【発行日】2022-07-22
(54)【発明の名称】音声認識装置、音声認識装置の制御方法、コンテンツ再生装置、及びコンテンツ送受信システム
(51)【国際特許分類】
   G10L 15/28 20130101AFI20220714BHJP
   G10L 13/033 20130101ALI20220714BHJP
【FI】
G10L15/28 230K
G10L15/28 500
G10L13/033 102Z
【請求項の数】 12
(21)【出願番号】P 2020560616
(86)(22)【出願日】2018-12-18
(86)【国際出願番号】 IB2018001565
(87)【国際公開番号】W WO2020128552
(87)【国際公開日】2020-06-25
【審査請求日】2021-06-14
(73)【特許権者】
【識別番号】000003997
【氏名又は名称】日産自動車株式会社
(73)【特許権者】
【識別番号】507308902
【氏名又は名称】ルノー エス.ア.エス.
【氏名又は名称原語表記】RENAULT S.A.S.
【住所又は居所原語表記】122-122 bis, avenue du General Leclerc, 92100 Boulogne-Billancourt, France
(74)【代理人】
【識別番号】100083806
【弁理士】
【氏名又は名称】三好 秀和
(74)【代理人】
【識別番号】100101247
【弁理士】
【氏名又は名称】高橋 俊一
(74)【代理人】
【識別番号】100095500
【弁理士】
【氏名又は名称】伊藤 正和
(74)【代理人】
【識別番号】100098327
【弁理士】
【氏名又は名称】高松 俊雄
(72)【発明者】
【氏名】大村 英雄
【審査官】中村 天真
(56)【参考文献】
【文献】特開2005-338454(JP,A)
【文献】特開2003-044069(JP,A)
【文献】特開平3-160499(JP,A)
【文献】実開平4-023400(JP,U)
【文献】国際公開第2014/103099(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-25/93
(57)【特許請求の範囲】
【請求項1】
音声信号が入力される音声入力部と、
前記音声入力部に入力された音声信号に特定の特徴成分が含まれているか否かを解析する音声解析部と、
前記音声入力部に入力された音声信号が示す音声を認識する音声認識部と、
前記音声認識部が認識した音声に応答して動作する応答動作部に対して応答を指示する応答指示部と、
前記音声解析部によって前記音声信号に特定の特徴成分が含まれていると解析されたとき、前記音声認識部による音声認識処理を実行させないよう前記音声認識部を制御するか、あるいは、前記音声認識部が認識した音声による指示内容を前記応答動作部に指示しないよう前記応答指示部を制御する制御部と、
音声出力部を含むコンテンツ再生装置の存在を検知する再生装置検知部と、
を備え、
前記音声解析部は、前記再生装置検知部が前記コンテンツ再生装置の存在を検知したとき、前記音声入力部に入力された音声信号に特定の特徴成分が含まれているか否かを解析する
音声認識装置。
【請求項2】
音声信号が入力される音声入力部と、
前記音声入力部に入力された音声信号に特定の特徴成分が含まれているか否かを解析する音声解析部と、
前記音声入力部に入力された音声信号が示す音声を認識する音声認識部と、
前記音声認識部が認識した音声に応答して動作する応答動作部に対して応答を指示する応答指示部と、
前記音声解析部によって前記音声信号に特定の特徴成分が含まれていると解析されたとき、前記音声認識部による音声認識処理を実行させないよう前記音声認識部を制御するか、あるいは、前記音声認識部が認識した音声による指示内容を前記応答動作部に指示しないよう前記応答指示部を制御する制御部と、
音声出力部を含むコンテンツ再生装置がコンテンツを再生していることを検知する再生装置検知部と、
を備え、
前記音声解析部は、前記再生装置検知部が、前記コンテンツ再生装置がコンテンツを再生していることを検知したとき、前記音声入力部に入力された音声信号に特定の特徴成分が含まれているか否かを解析する
音声認識装置。
【請求項5】
プロセッサが、
音声出力部を含むコンテンツ再生装置が存在するか否かを検知し、
前記コンテンツ再生装置の存在を検知したとき、音声入力部に入力された音声信号に特定の特徴成分が含まれているか否かを解析し、
前記音声信号に特定の特徴成分が含まれていないと解析されたとき、前記音声入力部に入力された音声信号が示す音声の音声認識処理を実行して音声を認識し、
認識した音声に応答して動作する応答動作部に対して応答を指示し、
前記音声信号に前記特定の特徴成分が含まれていると解析されたとき、前記音声入力部に入力された音声信号が示す音声の音声認識処理を実行しないよう制御するか、あるいは、音声認識処理を実行して認識した音声による指示内容を前記応答動作部に指示しないように制御する
音声認識装置の制御方法。
【請求項6】
プロセッサが、
音声出力部を含むコンテンツ再生装置がコンテンツを再生しているか否かを検知し、
前記コンテンツ再生装置がコンテンツを再生していることを検知したとき、音声入力部に入力された音声信号に特定の特徴成分が含まれているか否かを解析し、
前記音声信号に特定の特徴成分が含まれていないと解析されたとき、前記音声入力部に入力された音声信号が示す音声の音声認識処理を実行して音声を認識し、
認識した音声に応答して動作する応答動作部に対して応答を指示し、
前記音声信号に前記特定の特徴成分が含まれていると解析されたとき、前記音声入力部に入力された音声信号が示す音声の音声認識処理を実行しないよう制御するか、あるいは、音声認識処理を実行して認識した音声による指示内容を前記応答動作部に指示しないように制御する
音声認識装置の制御方法。
【請求項8】
少なくとも音声信号を含むコンテンツ信号を入力するコンテンツ入力部と、
前記コンテンツ信号を再生するコンテンツ再生部と、
前記コンテンツ信号の音声を出力する音声出力部と、
音声認識装置の存在を検知する音声認識装置検知部と、
前記音声認識装置検知部が前記音声認識装置の存在を検知したとき、前記音声認識装置が、前記音声出力部より出力される音声を人が発した音声と区別するために、前記音声信号に特定の特徴成分を含ませるよう前記音声信号を補正するコンテンツ信号補正部と、
を備えるコンテンツ再生装置。
【請求項10】
少なくとも、人が発した音声信号に特定の特徴成分を含ませるよう補正した音声信号を含むコンテンツ信号の音声を出力するコンテンツ出力装置と、
前記コンテンツ出力装置の存在を検知すると、入力された音声信号に前記特定の特徴成分が含まれているか否かを解析し、前記入力された音声信号に前記特定の特徴成分が含まれていると解析したときに、音声認識部による音声認識処理を実行させないよう制御するか、あるいは、音声認識した音声による指示内容に応答しないよう制御する音声認識装置と、
を備えるコンテンツ送受信システム。
【請求項11】
少なくとも、人が発した音声信号に特定の特徴成分を含ませるよう補正した音声信号を含むコンテンツ信号の音声を出力するコンテンツ出力装置と、
前記コンテンツ出力装置がコンテンツ信号の音声を出力していることを検知すると、入力された音声信号に前記特定の特徴成分が含まれているか否かを解析し、前記入力された音声信号に前記特定の特徴成分が含まれていると解析したときに、音声認識部による音声認識処理を実行させないよう制御するか、あるいは、音声認識した音声による指示内容に応答しないよう制御する音声認識装置と、
を備えるコンテンツ送受信システム。
【請求項12】
入力された音声信号に特定の特徴成分が含まれているか否かを解析し、前記入力された音声信号に前記特定の特徴成分が含まれていると解析したときに、音声認識部による音声認識処理を実行させないよう制御するか、あるいは、音声認識した音声による指示内容に応答しないよう制御する音声認識装置と、
人が発した音声信号を含むコンテンツ信号を出力するときに、前記音声認識装置の存在を検知すると、前記コンテンツ信号に含まれている音声信号に特定の特徴成分を含ませるように補正して、補正した音声信号を含むコンテンツ信号を出力するコンテンツ出力装置と、
を備えるコンテンツ送受信システム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、音声認識装置、音声認識装置の制御方法、コンテンツ再生装置、及びコンテンツ送受信システムに関する。
【背景技術】
【0002】
近年、人が発した所定の指示を実行させるための音声を認識し、認識した指示内容に応答する音声認識装置が普及し始めている。この種の音声認識装置は、スマートスピーカと称されている。
【先行技術文献】
【特許文献】
【0003】
【文献】特開平8-107375号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
音声認識装置が、人が発した音声ではなく、テレビジョン放送またはラジオ放送等の音声に誤って応答するという事例が報告されている。そこで、音声認識装置が、人が発した音声以外の音声に誤って応答することを防止することが求められる。なお、特許文献1には、マイクロホンが音声を収音するときに、スピーカから発せられた音声をエコーキャンセラによって打ち消すことが記載されている。
【0005】
実施形態は、人が発した音声以外の音声に誤って応答することを防止することができる音声認識装置、音声認識装置の制御方法、コンテンツ再生装置、及びコンテンツ送受信システムを提供することを目的とする。
【課題を解決するための手段】
【0006】
実施形態の一態様によれば、音声信号に特定の特徴成分が重畳されているとき、音声認識装置の制御部は、音声認識部による音声認識処理を実行させないよう音声認識部を制御するか、あるいは、音声認識部が認識した音声による指示内容を応答動作部に指示しないよう応答指示部を制御する。
【発明の効果】
【0007】
実施形態の音声認識装置、音声認識装置の制御方法、コンテンツ再生装置、及びコンテンツ送受信システムによれば、人が発した音声以外の音声に誤って応答することを防止することができる。
【図面の簡単な説明】
【0008】
図1図1は、第1実施形態を示すブロック図である。
図2図2は、図1に示すコンテンツ信号補正部120の具体的な構成例を示すブロック図である。
図3図3は、コンテンツ信号の音声波形を離散フーリエ変換した第1の変換信号を概念的に示す波形図である。
図4図4は、第1の変換信号を対数変換してさらに離散フーリエ変換した第2の変換信号を概念的に示す波形図である。
図5図5は、第2の変換信号の各時刻における波形の例を概念的に示す波形図である。
図6図6は、図2に示す畳み込み演算部124による1つの周波数の波形に対する畳み込み演算処理を概念的に示す波形図である。
図7図7は、図2に示す畳み込み演算部124による全体的な周波数に対する畳み込み演算処理を概念的に示す波形図である。
図8図8は、音声認識装置において特定の単語を含む指示内容に対して応答を不許可とする音声認識装置の構成例を示すブロック図である。
図9図9は、コンテンツ再生装置で実行される処理を示すフローチャートである。
図10図10は、音声認識装置で実行される処理であり、音声認識装置の制御方法を示すフローチャートである。
図11図11は、第2実施形態を示すブロック図である。
図12図12は、第3実施形態を示すブロック図である。
図13図13は、第4実施形態を示すブロック図である。
【発明を実施するための形態】
【0009】
以下、各実施形態の音声認識装置、音声認識装置の制御方法、コンテンツ再生装置、及びコンテンツ送受信システムについて、添付図面を参照して説明する。
【0010】
<第1実施形態>
図1において、車両100は、乗員30が聴く音楽等のコンテンツを再生するインフォテインメントシステム10を備える。インフォテインメントシステム10は、コンテンツ再生装置またはコンテンツ出力装置の一例である。車両100内には、スマートスピーカと称される音声認識装置20が配置されている。
【0011】
インフォテインメントシステム10は、コンテンツ入力部11、デジタル・シグナル・プロセッサ(以下、DSP)12、コンテンツ再生部13、音声出力部14、近距離通信部15を備える。コンテンツ入力部11は、例えば、テレビジョン放送を受信するテレビジョン受信機、ラジオ放送を受信するラジオ受信機、インターネット放送を受信するインターネット受信機のうちのいずれかである。コンテンツ入力部11は、光ディスクに記録されたコンテンツを再生する光ディスク再生装置、半導体メモリに記憶されたコンテンツを再生するメモリ再生装置であってもよい。近距離通信部15は、音声認識装置20の存在を検知する音声認識装置検知部の一例である。近距離通信部15は、例えば無線通信部であり、ブルートゥース(登録商標)等の通信接続相手機器が特定できる仕組みを有する通信規格に準拠した通信であってもよい。
【0012】
コンテンツ入力部11より入力されたコンテンツ信号は、DSP12に入力される。コンテンツ信号がアナログ信号であれば、図示されていないA/Dコンバータによってデジタル信号に変換されてDSP12に入力される。DSP12は、ソフトウェア(コンピュータプログラム)を実行することによって、コンテンツ信号補正部120として動作する。
【0013】
コンテンツ信号補正部120は、近距離通信部15が音声認識装置20と通信して音声認識装置20の存在を認識しているときに、コンテンツ信号を補正する。補正対象のコンテンツ信号は音声信号であり、コンテンツ信号は少なくとも音声信号を含む。ここでは、コンテンツ信号は音声信号であるとする。
【0014】
コンテンツ信号補正部120は、コンテンツ信号に特定の特徴成分を重畳するようコンテンツ信号を補正する。コンテンツ信号補正部120がコンテンツ信号を具体的にどのように補正するかについては後に詳述する。なお、インフォテインメントシステム10は、近距離通信部15を備えない構成であってもよい。
【0015】
コンテンツ再生部13は音声信号処理回路及び増幅器を備え、DSP12から供給されたコンテンツ信号を再生する。音声出力部14はスピーカであり、コンテンツ信号の音声V14を出力する。
【0016】
音声認識装置20は、音声入力部21、中央処理装置(以下、CPU)22、音声発生部23、通信部24、近距離通信部25を備える。CPU22は、機能的な構成として、音声解析部221、音声認識部222、応答指示部223、制御部224を備える。
【0017】
音声入力部21はマイクロホンであり、音声認識装置20に所定の指示を実行させるために乗員30が音声V30を発すると、音声入力部21が音声V30を収音する。音声入力部21より出力された音声信号は、図示されていないA/Dコンバータによってデジタル信号に変換されてCPU22に入力される。
【0018】
音声入力部21に、インフォテインメントシステム10によって再生されたコンテンツ信号の音声V14が入力されることがある。音声解析部221は、音声入力部21より出力された音声信号に特徴成分が重畳されているか否かを解析する。音声信号に特徴成分が重畳されていなければ、音声入力部21に入力された音声は、乗員30が発した音声V30である。音声信号に特徴成分が重畳されていれば、音声入力部21に入力された音声は、インフォテインメントシステム10より出力された音声V14である。
【0019】
音声解析部221による解析結果は、制御部224に供給される。制御部224は、音声信号に特徴成分が重畳されていないと解析されたとき、音声認識処理を実行させるよう音声認識部222を制御する。応答指示部223は、音声認識部222が認識した乗員30による指示内容に応じた応答を音声発生部23または通信部24に指示する。制御部224は、近距離通信部25がインフォテインメントシステム10の存在を認識していないとき、音声解析部221による解析結果にかかわらず、音声認識処理を実行させるよう音声認識部222を制御してもよい。
【0020】
制御部224は、近距離通信部25がインフォテインメントシステム10と通信してインフォテインメントシステム10の存在を認識していて、音声信号に特徴成分が重畳されていると解析されたとき、音声認識処理を実行させないよう音声認識部222を制御する。
【0021】
音声解析部221によって音声信号に特徴成分が重畳されていると解析されたとき、音声入力部21に入力された音声信号は乗員30が発した音声V30ではなく、コンテンツ信号の音声V14である。音声認識部222は声認識処理を実行しないので、仮に音声V14に、音声認識装置20が応答するような言葉が含まれていたとしても、その言葉を認識しない。よって、応答指示部223が誤って音声発生部23または通信部24に応答を指示することはない。
【0022】
制御部224は、音声信号に特徴成分が重畳されていると解析されたときに、音声認識処理を実行させないよう音声認識部222を制御する代わりに、音声認識部222から供給された指示内容に応答しないように応答指示部223を制御してもよい。
【0023】
近距離通信部25はインフォテインメントシステム10(コンテンツ再生装置)の存在を検知する再生装置検知部の一例である。音声解析部221は、近距離通信部25によってインフォテインメントシステム10の存在を検知したとき、音声入力部21に入力された音声信号に特定の特徴成分が含まれているか否かを解析してもよい。
【0024】
音声認識装置20は、インフォテインメントシステム10(コンテンツ再生装置)がコンテンツを再生していることを検知する再生装置検知部を備えてもよい。この場合、近距離通信部15がコンテンツ再生部13によって再生されたコンテンツを送信するように構成し、近距離通信部25がコンテンツを受信すれば、インフォテインメントシステム10がコンテンツを再生していることを検知することができる。音声解析部221は、再生装置検知部によりインフォテインメントシステム10がコンテンツを再生していることを検知したとき、音声入力部21に入力された音声信号に特定の特徴成分が含まれているか否かを解析してもよい。
【0025】
音声認識装置20は、近距離通信部25を備えない構成であってもよい。この場合、制御部224は、音声解析部221による解析結果のみに基づいて、音声認識部222または応答指示部223を制御すればよい。
【0026】
音声発生部23及び通信部24は、音声認識部222が認識した音声に応答して動作する応答動作部の例である。音声発生部23は、応答指示部223による指示内容に応じて所定の音声を発生する。音声発生部23は、音声合成器とスピーカとを含む。通信部24は、応答指示部223による指示内容に応じて、図示していない外部のサーバ等と通信する。
【0027】
図2に示すように、コンテンツ信号補正部120は、離散フーリエ変換部121、対数変換部122、離散フーリエ変換部123、畳み込み演算部124を備える。典型的には、離散フーリエ変換部121及び123は、離散フーリエ変換(DFT)を高速で計算することができるアルゴリズムである高速フーリエ変換(FFT)を用いて、入力信号をフーリエ変換する。
【0028】
コンテンツ信号補正部120の動作を図3図7を参照しながら説明する。図3に示すように、コンテンツ信号補正部120に入力されるコンテンツ信号が、時刻の進行に伴って信号強度が変化する音声波形V0であったとする。離散フーリエ変換部121が音声波形V0を離散フーリエ変換すると、図3に示すような周波数と信号強度とで表される波形Vf1及びVf2等の第1の変換信号が得られる。図3においては簡略化のため、2つの時刻における波形Vf1及びVf2のみを示している。
【0029】
対数変換部122は、離散フーリエ変換部121より出力された第1の変換信号を自然対数に変換し、離散フーリエ変換部123は、対数に変換された第1の変換信号をさらに離散フーリエ変換する。すると、各時刻における第1の変換信号は、図4に示すような、信号強度の成分が除去されて、スペクトル包絡のみの第2の変換信号に変換される。図4は、波形Vf1に対応したスペクトル包絡である波形Vf10を示している。
【0030】
離散フーリエ変換部121、対数変換部122、及び離散フーリエ変換部123によってスペクトル包絡を求める処理は、ケプストラム分析と称されている。離散フーリエ変換部121、対数変換部122、及び離散フーリエ変換部123は、音声信号のスペクトル包絡を求めるケプストラム分析部である。
【0031】
図5は、離散フーリエ変換部123より出力された第2の変換信号の各時刻における波形の例を示している。図5に示す波形Vftは、ある1つの周波数における第2の変換信号の変化を示している。畳み込み演算部124における畳み込み演算処理の説明を簡略化するため、1つの周波数における波形Vftを用いて畳み込み演算処理を説明する。
【0032】
図6に示すように、畳み込み演算部124は、波形Vftに所定の畳み込み波形fcを重畳するよう畳み込み演算を実行する。例えば、畳み込み演算部124は、音素に影響を与えないように、所定値よりも短い例えば4msの畳み込み波形fcを波形Vftに畳み込む。図6に示す例では、畳み込み演算部124は、所定値よりも十分に長い16ms経過するごとに、4msの畳み込み波形fcを畳み込む。ここで、16msはあくまで例示であり、他の値であってもよい。
【0033】
畳み込み演算部124が実行する畳み込み演算とは、波形Vftに対する畳み込み波形fcの乗算、加算、減算のいずれであってもよい。図6に示す波形Vftに畳み込み波形fcを畳み込んだ波形Vftcは、波形Vftに畳み込み波形fcを畳み込んだ状態を概念的に示している。
【0034】
このように波形Vftに畳み込み波形fcを畳み込むと、波形Vftは部分的に自然界ではあり得ない状態の人工的な波形となる。コンテンツ信号に重畳される特徴成分は、自然界ではあり得ない人工的に組み込まれた波形成分とするのが好適である。
【0035】
図7は、離散フーリエ変換部123より出力された第2の変換信号の全体的な周波数に畳み込み波形fcを畳み込む状態を概念的に示している。図7に示すように、畳み込み演算部124は、第2の変換信号が16ms経過するごとに、4msの畳み込み波形fcを畳み込む。畳み込み演算部124は、選択された周波数帯域に畳み込み波形fcを畳み込んでもよいし、全周波数帯域に畳み込み波形fcを畳み込んでもよい。
【0036】
このように、コンテンツ信号補正部120は、音声信号の一部または全ての周波数帯域に、所定の時間間隔で特定の特徴成分を重畳する。特徴成分を重畳する時間は、人が音素を認識する時間よりも十分に短い時間とするのがよく、特徴成分を重畳する間隔は、人が音素を認識する時間よりも十分に長い時間とするのがよい。時間間隔は等間隔でなくてもよいが、等間隔とする方がよい。特徴成分が所定の時間間隔で重畳されていれば人が音声信号を聴いたときに不自然に感じにくく、音声解析部221による解析も容易となる。
【0037】
図1において、音声出力部14より出力される音声V14は、図6及び図7に示すように、所定の時間間隔で畳み込み波形fcが畳み込まれて、人工的な波形成分が特徴成分として重畳された音声となる。
【0038】
音声解析部221は、音声入力部21より出力された音声信号を解析して、音声信号に自然界ではあり得ない人工的な波形成分が重畳されていなければ、インフォテインメントシステム10より出力された音声V14であると解析する。
【0039】
ところで、音声認識部222は、隠れマルコフモデルと称される最尤推定の処理を用いて音声入力部21に入力された音声を認識する。上記のように、乗員30は上述した特徴成分が重畳された音声V14を聞いても不自然に感じることはほとんどない。しかしながら、音声認識部222が仮に音声V14を認識したとすると、音声V14を正しく認識するとは限らず、音声V14を正しく認識しないことがある。
【0040】
よって、音声解析部221が音声信号に特徴成分が重畳されていると解析されたときに、制御部224が、音声認識処理を実行させないよう音声認識部222を制御するのがよい。但し、上記のように、音声認識部222が音声認識処理を実行し、制御部224が、認識した音声が示す指示内容に応答しないように応答指示部223を制御してもよい。制御部224は、音声認識部222から供給された指示内容に応答しないように応答指示部223を制御する場合には、一部の言葉のみに応答しないように応答指示部223を制御してもよい。
【0041】
なお、図1において、音声解析部221、音声認識部222、応答指示部223、制御部224を別構成として記載したが、少なくとも音声解析機能、音声認識機能、応答指示機能を有していればよく、これら複数の機能を1つのハードウェアに持たせてもよいし、複数のハードウェアに持たせてもよい。また、音声解析機能、音声認識機能、応答指示機能はソフトウェアプログラムにより実現され得る。
【0042】
制御部224が、一部の言葉のみに応答しないように応答指示部223を制御する場合には、図8に示すように構成すればよい。図8に示すように、CPU22には、応答不可単語が記憶されている記憶部26が接続されている。記憶部26は不揮発性メモリで構成することができる。
【0043】
記憶部26には、例えば、「購入」、「注文」、「発注」、及びその他の通信部24が外部のサーバ等と通信して、第三者に指示する単語が応答不可単語として記憶されている。制御部224が、費用の発生しない指示内容については応答を許可し、費用が発生する指示内容については応答を不許可とするために、費用が発生する可能性の高い指示内容に関連する単語(「購入」、「注文」、「発注」)のみを応答不可単語としてもよい。
【0044】
制御部224は、単に音声発生部23に音声を発生させる指示内容については応答を許可してもよい。音声認識装置20がインフォテインメントシステム10に対して再生するコンテンツを指示できるように構成されている場合、制御部224は、インフォテインメントシステム10にコンテンツを再生するよう指示する指示内容については応答を許可してもよい。
【0045】
図9に示すフローチャートを用いて、インフォテインメントシステム10で実行される処理を説明する。車両100のパワーがオンされると、インフォテインメントシステム10に電力が供給されて、インフォテインメントシステム10が動作を開始する。DSP12は、ステップS1にて、再生対象のコンテンツが選択されたか否かを判定する。コンテンツが選択されなければ(NO)、DSP12はステップS1の処理を繰り返す。
【0046】
ステップS1にてコンテンツが選択されれば、DSP12は、ステップS2にて、選択されたコンテンツは人が発した声を含むコンテンツであるか否かを判定する。DSP12は、テレビジョン放送、ラジオ放送、光ディスクまたは半導体メモリに記録または記憶された楽曲を人の声を含むコンテンツとしてもよい。DSP12は、映像のみによって構成されたコンテンツを人間の声を含むコンテンツから除外してもよい。また、DSP12は、コンテンツの音声データを所定のアルゴリズムにより分析することで、人の音声が含まれるか否かを判定してもよい。
【0047】
ここで、人の声を含むコンテンツとは、実際に人の声を含んでいるか否かを判定してもよいし、人の声を含む可能性があるコンテンツであるか否かを、例えば、光ディスク、テレビジョン放送、ラジオ放送等の人の声を含み得るメディアであることを、メディアの種別から判定してもよい。
【0048】
ステップS2にて選択されたコンテンツが人の声を含むコンテンツであれば(YES)、DSP12は処理をステップS3に移行させる。選択されたコンテンツが人の声を含むコンテンツでなければ(NO)、DSP12は処理をステップS5に移行させる。DSP12は、ステップS3にて、周囲に音声認識装置20があるか否かを判定する。周囲に音声認識装置20があれば(YES)、DSP12は処理をステップS4に移行させる。周囲に音声認識装置20がなければ(NO)、DSP12は処理をステップS5に移行させる。ステップS3の処理は省略可能である。
【0049】
DSP12は、ステップS4にて、コンテンツ信号に特徴成分を重畳して、コンテンツ信号を補正する。コンテンツ再生部13は、ステップS4からステップS5へと移行した場合には、ステップS5にて、特徴成分が重畳されたコンテンツ信号を再生する。コンテンツ再生部13は、ステップS2またはS3からステップS5へと移行した場合には、ステップS5にて、特徴成分が重畳されていないコンテンツ信号を再生する。
【0050】
DSP12は、ステップS6にて、車両100のパワーオフにより、インフォテインメントシステム10への電力の供給が停止されたか否かを判定する。インフォテインメントシステム10への電力の供給が停止されなければ(NO)、DSP12はステップS1~S6の処理を繰り返し、電力の供給が停止されれば(YES)、DSP12は処理を終了させる。
【0051】
図10に示すフローチャートを用いて、音声認識装置20で実行される処理を説明する。車両100のパワーがオンされると、音声認識装置20に電力が供給されて、音声認識装置20が動作を開始する。音声認識装置20にパワースイッチが設けられていて、音声認識装置20のパワースイッチの押下により音声認識装置20が動作を開始してもよい。
【0052】
図10において、CPU22は、ステップS21にて、音声を検出したか否かを判定する。CPU22は、ステップS22にて、周囲にコンテンツ再生装置(インフォテインメントシステム10)があるか否かを判定する。周囲にインフォテインメントシステム10があれば(YES)、CPU22は処理をステップS23に移行させる。周囲にインフォテインメントシステム10がなければ(NO)、CPU22は処理をステップS25に移行させる。ステップS22の処理は省略可能である。
【0053】
また、ステップS22にて、周囲にコンテンツ再生装置があると判定された場合、さらにコンテンツ再生装置が音声信号を含むコンテンツを再生しているか否かを判定し、コンテンツ再生装置が音声信号を含むコンテンツを再生している場合にのみ、CPU22は処理をステップS23に移行させるようにしてもよい。この場合、コンテンツ再生装置は近距離通信部15から音声信号を含むコンテンツを再生している旨を示すデータを送信し、音声認識装置20は、近距離通信部25によりこれを受信することにより、コンテンツ再生装置が音声信号を含むコンテンツを再生していることを判定することが可能である。
【0054】
CPU22は、ステップS23にて、検出された音声信号に特徴成分が含まれているか否かを判定する。音声信号に特徴成分が含まれていれば(YES)、CPU22は、ステップS24にて、音声認識処理を実行させないよう音声認識部222を制御して、処理をステップS26に移行させる。音声信号に特徴成分が含まれていなければ(NO)、CPU22は処理をステップS25に移行させる。CPU22は、ステップS25にて、音声認識処理を実行させるよう音声認識部222を制御して、処理をステップS26に移行させる。
【0055】
なお、ステップS23とステップS24の順番を入れ替えた処理も可能である。つまり、全ての音声信号に対する音声認識処理を実行させた後、音声信号に特徴成分が含まれているか否かを判定し、特徴成分が含まれている音声信号に対する音声認識処理により検出された指示内容は実行しないようにすることも可能である。
【0056】
なお、図10においては、認識した音声に基づく指示内容に応じて応答動作部が動作する処理については図示を省略している。
【0057】
CPU22は、ステップS26にて、車両100のパワーオフまたは音声認識装置20のパワースイッチの押下により、音声認識装置20への電力の供給が停止されたか否かを判定する。音声認識装置20への電力の供給が停止されなければ(NO)、CPU22は、ステップS21~S26の処理を繰り返し、電力の供給が停止されれば(YES)、CPU22は処理を終了させる。
【0058】
図1に示す第1実施形態においては、インフォテインメントシステム10及び音声認識装置20が車両100内に配置されているが、インフォテインメントシステム10及び音声認識装置20が車両100以外の例えば家屋内に配置されていてもよい。また、音声認識装置20はインフォテインメントシステム10の中に含まれるよう構成することも可能である。
【0059】
第1実施形態によれば、インフォテインメントシステム10は、再生するコンテンツ信号に人が発した音声と区別するための特徴成分を重畳することができる。第1実施形態によれば、音声認識装置20は、人が発した音声以外の音声に誤って応答することを防止することができる。
【0060】
<第2実施形態>
図11において、図1と同一部分には同一符号を付し、その説明を省略する。図11において、家屋102内には、コンテンツ再生装置10Bと、音声認識装置20とが配置されている。コンテンツ配信者40は、テレビジョン放送局、ラジオ放送局、または、ストリーミングサーバである。コンテンツ配信者40はコンテンツ信号を送信する送信部である。コンテンツ配信者40は、図1に示すコンテンツ信号補正部120と同様のコンテンツ信号補正部400を備える。
【0061】
コンテンツ再生装置10Bは、コンテンツ入力部11、コンテンツ再生部13、音声出力部14を備える。コンテンツ再生装置10Bは、コンテンツ配信者40によって配信されたコンテンツ信号を受信する受信部である。音声認識装置20は、図1における音声認識装置20と同じ構成である。
【0062】
コンテンツ信号補正部400は、第1実施形態と同様に、コンテンツ信号に自然界ではあり得ない人工的な波形成分よりなる特徴成分を重畳する。コンテンツ再生装置10Bのコンテンツ入力部11は、特徴成分が重畳されたコンテンツ信号を受信する。コンテンツ再生装置10Bの音声出力部14は、特徴成分が重畳された音声V14を出力する。
【0063】
音声認識装置20は、音声入力部21にユーザ31が発した音声V31が入力された場合には、音声認識処理を実行し、認識した指示内容に応答する。音声認識装置20は、音声入力部21にコンテンツ再生装置10Bより出力された音声V14が入力された場合には、音声認識処理を実行しないか、音声認識処理を実行しても指示内容に応答しない。
【0064】
図11において、コンテンツ配信者40及びコンテンツ再生装置10Bは、音声信号に特定の特徴成分を重畳するよう補正したコンテンツ信号を送信する送信部と、コンテンツ信号を受信する受信部とを備えるコンテンツ送受信システムを構成している。
【0065】
図11に示す第2実施形態においては、コンテンツ再生装置10B及び音声認識装置20が家屋102内に配置されているが、コンテンツ再生装置10B及び音声認識装置20が車両内に配置されていてもよい。
【0066】
第2実施形態によれば、コンテンツ配信者40が特徴成分を重畳したコンテンツ信号を送信するので、コンテンツ再生装置10Bがコンテンツ信号補正部120を備える必要がない。第2実施形態によれば、音声認識装置20は、人が発した音声以外の音声に誤って応答することを防止することができる。
【0067】
<第3実施形態>
図12において、図1または図11と同一部分には同一符号を付し、その説明を省略する。コンテンツ再生装置10Cは、光ディスク再生部11c、コンテンツ再生部13、音声出力部14を備える。光ディスク再生部11cはコンテンツ入力部に相当する。コンテンツ再生装置10Cは、図1と同様に車両100内に配置されているか、図11と同様に家屋102内に配置されている。図12においては、音声認識装置20の図示を省略している。
【0068】
なお、図12において、コンテンツ再生装置10Cは、光ディスク媒体の再生を例示したが、これに限られず、半導体メモリ記憶媒体、磁気テープ記憶媒体等、光ディスク媒体以外の記憶媒体に記憶されたコンテンツを再生するコンテンツ再生装置であってもよく、受信部を備え、有線または無線ネットワーク経由で送信された、音声信号を含むコンテンツを再生するコンテンツ再生装置であってもよい。
【0069】
ブルーレイディスク(BD)、DVD、またはコンパクトディスク(CD)等の光ディスク50には、特徴成分が重畳されたコンテンツ信号が記録されている。光ディスク再生部11cは、光ディスク50を再生する。
【0070】
第3実施形態においては、音声認識装置20は、音声入力部21に乗員30が発した音声V30またはユーザ31が発した音声V31が入力された場合には、音声認識処理を実行し、認識した指示内容に応答する。音声認識装置20は、音声入力部21にコンテンツ再生装置10Cがより出力された光ディスク50の再生音である音声V14が入力された場合には、音声認識処理を実行しないか、音声認識処理を実行しても指示内容に応答しない。
【0071】
第3実施形態によれば、光ディスク50に予め特徴成分が重畳されたコンテンツ信号が記録されているから、コンテンツ再生装置10Cがコンテンツ信号補正部120を備える必要がない。第3実施形態においても、音声認識装置20は、人が発した音声以外の音声に誤って応答することを防止することができる。
【0072】
<第4実施形態>
図1に示す第1実施形態において、乗員30が発した音声V30とインフォテインメントシステム10より出力された音声V14とが混在して音声入力部21に入力されることがある。図13に示す第4実施形態においては、音声認識部222に、コンテンツ入力部11より入力されたコンテンツ信号が供給されている。音声認識部222は、音声入力部21が音声V30を収音した音声信号よりコンテンツ信号を除外して音声を認識する。
【0073】
第4実施形態によれば、音声V30と音声V14とが混在して音声入力部21に入力された場合であっても音声V30を正しく認識することができる。音声認識部222にコンテンツ信号を供給する代わりに、インフォテインメントシステム10によって再生されるコンテンツ信号(または音声V14)が存在していることを示すフラグを音声認識部222に供給してもよい。
【0074】
図11に示す第2実施形態、図12に示す第3実施形態においても、音声認識部222にコンテンツ信号またはフラグを音声認識部222に供給してもよい。
【0075】
第4実施形態において、特許文献1に記載されているエコーキャンセラの技術を採用し、音声入力部21に音声V30が入力されるときに、音声V14をエコーキャンセラによって打ち消すように構成してもよい。
【0076】
本発明は以上説明した第1~第4実施形態に限定されず、本発明の要旨を逸脱しない範囲において種々変更可能である。コンテンツ信号補正部120は、DSP12以外のCPU等のプロセッサで構成されていてもよいし、ハードウェアによる回路で構成されていてもよい。ハードウェとソフトウェアとの使い分けは任意である。プロセッサが、非一時的な記憶媒体に記憶されているコンピュータプログラムを実行することによって、コンテンツ信号補正部120として動作してもよい。
【0077】
第1~第4実施形態においては、音声解析部221、音声認識部222、応答指示部223、制御部224をCPU22による機能的な構成として実現しているが、少なくとも一部がハードウェアによる回路で構成されていてもよく、ハードウェとソフトウェアとの使い分けは任意である。プロセッサが、非一時的な記憶媒体に記憶されているコンピュータプログラムを実行することによって、音声解析部221、音声認識部222、応答指示部223、制御部224として動作してもよい。
【0078】
音声V14と音声V30(またはV31)とを特徴成分の有無で区別することに加えて、他の区別方法で区別してもよい。他の区別方法として、音声入力部21に音声V14が入来する方向と音声V30(またはV31)が入来する方向との差に基づいて、両者を区別してもよい。音声入力部21をステレオマイクロホンまたは2つ以上のモノラルマイクロホンとすれば、音が入来する方向を識別することが可能である。他の区別方法として、連続的な波形部分と不連続な波形部分との差を識別してもよい。
【0079】
第1~第4実施形態においては、コンテンツ信号補正部120は、インフォテインメントシステム10が有することとしたが、車両100と通信を行い、車両100に対してコンテンツを配信するコンテンツ配信サーバにコンテンツ信号補正部120を設けてもよい。この場合、例えば、コンテンツ配信サーバにおいて、人の声を含むコンテンツに対して、コンテンツ信号補正部120により、コンテンツの音声信号に特定の特徴成分が重畳され、車両に対してコンテンツが配信される。コンテンツ配信サーバは、テレビジョン放送サーバ、ラジオ放送サーバ等であってもよい。
【符号の説明】
【0080】
10 インフォテインメントシステム
10B,10C コンテンツ再生装置
11 コンテンツ入力部
11c 光ディスク再生部
12 デジタル・シグナル・プロセッサ
13 コンテンツ再生部
14 音声出力部
15,25 近距離通信部
20 音声認識装置
21 音声入力部
22 中央処理装置
23 音声発生部
24 通信部
26 記憶部
30 乗員
31 ユーザ
40 コンテンツ配信者
50 光ディスク
120,400 コンテンツ信号補正部
121,123 離散フーリエ変換部
122 対数変換部
124 畳み込み演算部
221 音声解析部
222 音声認識部
223 応答指示部
224 制御部
V14,V30,V31 音声
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13