(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-26
(45)【発行日】2024-01-10
(54)【発明の名称】音声入出力装置、音声入出力方法、および音声入出力プログラム
(51)【国際特許分類】
G10L 15/20 20060101AFI20231227BHJP
G10L 15/10 20060101ALI20231227BHJP
G10L 15/28 20130101ALI20231227BHJP
【FI】
G10L15/20 370D
G10L15/10 200W
G10L15/28 230Z
(21)【出願番号】P 2020037079
(22)【出願日】2020-03-04
【審査請求日】2022-09-21
(73)【特許権者】
【識別番号】000005049
【氏名又は名称】シャープ株式会社
(74)【代理人】
【識別番号】110000338
【氏名又は名称】弁理士法人 HARAKENZO WORLD PATENT & TRADEMARK
(72)【発明者】
【氏名】関口 裕也
(72)【発明者】
【氏名】小林 涼
(72)【発明者】
【氏名】田中 光憲
【審査官】菊池 智紀
(56)【参考文献】
【文献】特開2012-181374(JP,A)
【文献】特開2001-275176(JP,A)
【文献】特開2019-220145(JP,A)
【文献】国際公開第2007/037208(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-15/34
G06F 3/16
(57)【特許請求の範囲】
【請求項1】
入力信号に含まれる入力信号音声に対して音声調整処理を行う第1音声処理部と、
前記第1音声処理部による音声調整処理が施された入力信号音声を出力する第1音声出力部と、
ユーザからの音声を示す音声信号を取得するユーザ音声取得部と、
前記ユーザ音声取得部が取得した音声信号が示す音声から、前記第1音声処理部による音声調整処理が施された音声成分を取り除く処理を行う音声除去部と、を備え
る音声入出力装置であって、
前記入力信号音声は、
前記ユーザ音声取得部が前記ユーザからの音声入力を取得しない場合に、
前記音声入出力装置とは異なる装置が備えている第2音声出力部から出力され、
前記ユーザ音声取得部が前記ユーザからの音声入力を取得した場合に、前記第1音声処理部による音声調整処理が施された上で前記第1音声出力部から出力される
ことを特徴とする音声入出力装置。
【請求項2】
入力信号に含まれる入力信号音声に対して音声調整処理を行う第1音声処理部と、
前記第1音声処理部による音声調整処理が施された入力信号音声を出力する第1音声出力部と、
ユーザからの音声を示す音声信号を取得するユーザ音声取得部と、
前記ユーザ音声取得部が取得した音声信号が示す音声から、前記第1音声処理部による音声調整処理が施された音声成分を取り除く処理を行う音声除去部と、
前記音声除去部での処理を施した後の音声に基づいて、音声認識処理を行う音声認識部と、を備え
る音声入出力装置であって、
前記入力信号音声は、
前記音声認識部が音声認識処理を開始するトリガーとなるトリガーワードを取得しない場合に、
前記音声入出力装置とは異なる装置が備えている第2音声出力部から出力され、
前記音声認識部が前記トリガーワードを取得した場合に、前記第1音声処理部による音声調整処理が施された上で前記第1音声出力部から出力される
ことを特徴とする音声入出力装置。
【請求項3】
当該音声入出力装置とは異なる前記装置は、
前記入力信号に含まれる入力信号音声に対して前記第1音声処理部とは異なる音声調整処理を行う第2音声処理部を更に備え、
前記第2音声出力部は、
前記第2音声処理部による音声調整処理が施された前記入力信号音声を出力する
ことを特徴とする請求項
1または2に記載の音声入出力装置。
【請求項4】
前記第1音声出力部からの出力と前記第2音声出力部からの出力とが切り替わる場合において、音量に関する設定変更を行わない
ことを特徴とする請求項1から
3までの何れか1項に記載の音声入出力装置。
【請求項5】
当該音声入出力装置の周囲を撮影する撮影部を更に備え、
前記ユーザ音声取得部は、
前記撮影部が撮影した動画像内において、前記ユーザによって行われた所定のジェスチャが検出されたことに応答して、前記ユーザからの音声を示す音声信号を取得する処理を開始する
ことを特徴とする請求項1から
4までの何れか1項に記載の音声入出力装置。
【請求項6】
前記ユーザ音声取得部は、
当該音声入出力装置の操作を行うためのリモートコントローラにおいて、所定の操作が行われたことに応答して、前記ユーザからの音声を示す音声信号を取得する処理を開始する
ことを特徴とする請求項1から
5までの何れか1項に記載の音声入出力装置。
【請求項7】
外部装置に接続された音声入出力装置による、音声入出力方法であって、
入力信号に含まれる入力信号音声に対して音声調整処理を行う第1音声処理ステップと、
前記第1音声処理ステップにおける音声調整処理が施された入力信号音声を
前記音声入出力装置が備える第1音声出力部から出力する第1音声出力ステップと、
ユーザからの音声を示す音声信号を取得するユーザ音声取得ステップと、
前記ユーザ音声取得ステップにおいて取得した音声信号が示す音声から、前記第1音声処理ステップにおける音声調整処理が施された音声成分を取り除く処理を行う音声除去ステップと、を含む音声入出力方法であって、
前記第1音声出力ステップは、前記入力信号音声を、
前記ユーザ音声取得ステップにおいて前記ユーザからの音声入力を取得しない場合に、
前記外部装置が備えている第2音声出力部から出力し、
前記ユーザ音声取得ステップにおいて前記ユーザからの音声入力を取得した場合に、前記音声調整処理が施された上で
前記第1音声出力部から出力するステップである、ことを特徴とする音声入出力方法。
【請求項8】
請求項7に記載の音声入出力方法をコンピュータに実施させるための音声入出力プログラムであって、前記第1音声処理ステップ、前記第1音声出力ステップ、前記ユーザ音声取得ステップ、および前記音声除去ステップをコンピュータに実行させる音声入出力プログラム。
【請求項9】
外部装置に接続された音声入出力装置による、音声入出力方法であって、
入力信号に含まれる入力信号音声に対して音声調整処理を行う第1音声処理ステップと、
前記第1音声処理ステップにおける音声調整処理が施された入力信号音声を前記音声入出力装置が備える第1音声出力部から出力する第1音声出力ステップと、
ユーザからの音声を示す音声信号を取得するユーザ音声取得ステップと、
前記ユーザ音声取得ステップにおいて取得した音声信号が示す音声から、前記第1音声処理ステップにおける音声調整処理が施された音声成分を取り除く処理を行う音声除去ステップと、
前記音声除去ステップでの処理を施した後の音声に基づいて、音声認識処理を行う音声認識ステップと、を含む音声入出力方法であって、
前記第1音声出力ステップは、前記入力信号音声を、
前記音声認識ステップにおいて音声認識処理を開始するトリガーとなるトリガーワードを取得しない場合に、前記外部装置が備えている第2音声出力部から出力し、
前記音声認識ステップにおいて前記トリガーワードを取得した場合に、前記第1音声処理ステップにおける音声調整処理が施された上で前記第1音声出力部から出力するステップである、ことを特徴とする音声入出力方法。
【請求項10】
請求項9に記載の音声入出力方法をコンピュータに実施させるための音声入出力プログラムであって、前記第1音声処理ステップ、前記第1音声出力ステップ、前記ユーザ音声取得ステップ、前記音声除去ステップ、および前記音声認識ステップをコンピュータに実行させる音声入出力プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声入出力装置、音声入出力方法、および音声入出力プログラムに関する。
【背景技術】
【0002】
音声認識で操作するテレビジョン装置、HDマイクロフォン(hand-held digital microphone)等の音声入出力装置が公知である。当該音声入出力装置において、音声認識率を高めるために、音声入出力装置の内部スピーカから発する入力信号音声をキャンセルして、ユーザが発する音声のみを抽出する技術(以下、エコーキャンセル技術とも呼ぶ)が特許文献1に開示されている。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2012-181374公報(2012年9月20日公開)
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、高音質の音声を楽しむために、上記音声入出力装置を外部スピーカに接続して用いる場合がある。この場合には、内部スピーカと外部スピーカとは、配置位置、即ち、スピーカから音声入出力装置のマイクまでの経路が異なる。また、音声入出力装置からの音声信号を、スピーカを駆動する信号に変換する音声調整処理の特性が、外部スピーカと内部スピーカとでは異なる。このため、外部スピーカが発する入力信号音声に対しては、リファレンスとなる周波数成分のデータがないために、エコーキャンセル処理を完全に行うことができない。その結果、音声認識率が上がらないという問題がある。
【0005】
上記の課題に鑑み、本発明の一態様では、外部スピーカに接続された音声入出力装置において、エコーキャンセル処理を充分に行い、音声認識率を高めることのできる技術を提供することを目的とする。
【課題を解決するための手段】
【0006】
上記の課題を解決するために、本発明の一態様に係る音声入出力装置は、入力信号に含まれる入力信号音声に対して音声調整処理を行う第1音声処理部と、前記第1音声処理部による音声調整処理が施された入力信号音声を出力する第1音声出力部と、ユーザからの音声を示す音声信号を取得するユーザ音声取得部と、前記ユーザ音声取得部が取得した音声信号が示す音声から、前記第1音声処理部による音声調整処理が施された音声成分を取り除く処理を行う音声除去部と、を備え、前記入力信号音声は、前記ユーザ音声取得部が前記ユーザからの音声入力を取得しない場合に、前記第1音声出力部とは異なる第2音声出力部から出力され、前記ユーザ音声取得部が前記ユーザからの音声入力を取得した場合に、前記第1音声処理部による音声調整処理が施された上で前記第1音声出力部から出力される。
【0007】
上記の課題を解決するために、本発明の一態様に係る音声入出力装置は、入力信号に含まれる入力信号音声に対して音声調整処理を行う第1音声処理部と、前記第1音声処理部による音声調整処理が施された入力信号音声を出力する第1音声出力部と、ユーザからの音声を示す音声信号を取得するユーザ音声取得部と、前記ユーザ音声取得部が取得した音声信号が示す音声から、前記第1音声処理部による音声調整処理が施された音声成分を取り除く処理を行う音声除去部と、前記音声除去部での処理を施した後の音声に基づいて、音声認識処理を行う音声認識部と、を備え、前記入力信号音声は、前記音声認識部が音声認識処理を開始するトリガーとなるトリガーワードを取得しない場合に、前記第1音声出力部とは異なる第2音声出力部から出力され、前記音声認識部が前記トリガーワードを取得した場合に、前記第1音声処理部による音声調整処理が施された上で前記第1音声出力部から出力される。
【0008】
上記の課題を解決するために、本発明の一態様に係る音声入出力方法は、入力信号に含まれる入力信号音声に対して第1の音声調整処理を行う第1音声処理ステップと、前記第1音声処理が施された入力信号音声を出力する第1音声出力ステップと、ユーザからの音声を示す音声信号を取得するユーザ音声取得ステップと、前記ユーザ音声取得ステップにおいて取得した音声信号が示す音声から、前記第1音声処理が施された音声成分を取り除く処理を行う音声除去ステップと、を含む音声入出力方法であって、前記入力信号音声は、前記ユーザ音声取得ステップにおいて前記ユーザからの音声入力を取得しない場合に、前記第1音声出力ステップとは異なる第2音声出力ステップにおいて出力され、前記ユーザ音声取得ステップにおいて前記ユーザからの音声入力を取得した場合に、前記第1音声処理が施された上で前記第1音声出力ステップにおいて出力される。
【発明の効果】
【0009】
本発明の一態様によれば、音声入出力装置が音声認識処理を行う間は、音声入出力装置の入力信号音声を第2音声出力部(外部スピーカ)から第1音声出力部(内部スピーカ)に切り替えて出力する。このため、音声除去部がエコーキャンセル処理を完全に行うことができ、音声認識率を上げることができる。また、音声入出力装置が音声認識を行っていない間は、ユーザは、第2音声出力部(外部スピーカ)からの音声を楽しむことができる。
【図面の簡単な説明】
【0010】
【
図1】本発明の実施形態1に係る音声入出力装置10を含む音声入出力システム100の要部構成を示すブロック図である。
【
図2】本発明の実施形態1に係る音声入出力システム100における音声処理の流れを示すフローチャートである。
【
図3】本発明の実施形態2に係る音声入出力装置10を含む音声入出力システム100要部構成を示すブロック図である。
【
図4】本発明の実施形態2に係る音声入出力システム100における音声処理の流れを示すフローチャートである。
【発明を実施するための形態】
【0011】
〔実施形態1〕
以下、本発明の一側面に係る実施の形態(以下、「本実施形態」とも表記する)を、図面に基づいて説明する。
図1は実施形態1に係る音声入出力装置(例えば、テレビジョン装置)10および音声入出力装置10に接続される外部スピーカシステム20からなる音声入出力システム100の要部構成を示すブロック図である。実施形態1に係る音声入出力システム100は、音声認識によって操作することができるシステムである。
【0012】
図1に示すように、音声入出力装置(テレビジョン装置)10は、デコード部11、第1音声処理部12、第1音声出力部(内部スピーカ)13、ユーザ音声取得部(マイク)14、音声除去部(エコーキャンセル部)15、および音声認識部16を備える。なお、上記デコード部11、第1音声処理部12、音声除去部15、および音声認識部16を合わせて制御部17とする。
【0013】
音声入出力装置10のデコード部11は、アンテナ(図示せず)で受信した放送用入力信号をデジタル信号に変換する。デジタル信号に変換された入力信号は、第1音声処理部12に供給される。
【0014】
第1音声処理部12は、入力信号に含まれる入力信号音声に対して、音声調整処理を行う。例えば、第1音声処理部12では、第1音声出力部(内部スピーカ)13の特性およびユーザが設定した音声モード(例えば、映画モード、ダイナミックモード等)に合わせて、音声調整処理を行う。例えば、周波数成分ごとに音質を均質化(イコライズ)してもよい。前記第1音声処理部12による音声調整処理が施された入力信号音声は、第1音声出力部13および音声除去部15に供給される。
【0015】
第1音声出力部(内部スピーカ)13は、音声調整処理が施された入力信号音声をアナログ信号に復号して出力する。
【0016】
ユーザ音声取得部(マイクロフォン)14は、ユーザからの音声を示す音声信号を取得する。ユーザ音声取得部14は、また、第2音声出力部(第2スピーカ)22から音声が出力されている場合には、第2音声出力部(第2スピーカ)22からの音声成分をも取得する。
【0017】
音声除去部15は、前記ユーザ音声取得部14が取得した音声信号が示す音声から、前記第1音声処理部12による音声調整処理が施された音声成分を取り除く処理(以下では、エコーキャンセル処理とも呼ぶ)を行う。エコーキャンセル処理が施された音声信号は、音声認識部16に供給される。
【0018】
音声認識部16は、エコーキャンセル処理が施された音声信号に基づいて、音声入出力装置10の制御のための音声認識を行う。例えば、予め特定の音声コマンド(音声認識結果)と対応づけられた操作コマンドを音声入出力装置10の動作制御部(図示せず)に供給する。動作制御部では、音声入出力装置(テレビジョン装置)10のチャンネル切替え、音量の変更、入力の切替え、および画面モードの切替え等の操作を行う。
【0019】
音声入出力装置10は、接続ケーブルを介して外部スピーカシステム20に接続可能に構成されている。
図1に示すように、外部スピーカシステム20は、第2音声処理部21および第2音声出力部22を備える。
【0020】
音声入出力装置10のデコード部11でデジタル信号に変換された音声信号は、接続ケーブルを介して、第2音声処理部21に送信される。第2音声処理部21は、前記入力信号に含まれる入力信号音声に対して前記第1音声処理部12とは異なる音声調整処理を行う。例えば、第2音声処理部21は、第2音声出力部(外部スピーカ)22の特性に合わせた音声調整処理を行う。第2音声出力部22は、第2音声処理部21で音声調整処理を施された入力信号音声を出力する。
【0021】
前記入力信号音声は、ユーザ音声取得部14が前記ユーザからの音声入力を取得しない場合に、第1音声出力部13とは異なる第2音声出力部22から出力される。この場合、ユーザ音声取得部14には、第2音声処理部21による音声調整処理が施された音声成分が入力される。音声入出力装置10では、第2音声処理部21による音声調整処理が施された音声成分に関するデータがないため、音声除去部15では、第2音声処理部21による音声調整処理が施された音声成分のエコーキャンセル処理を充分に行うことができない。しかし、音声認識部16で音声認識処理を行わない場合には、問題は生じない。
【0022】
したがって、ユーザは、音声入出力装置10(音声認識部16)において音声認識が行われていない間、第2音声出力部22から出力される高音質の音声を楽しむことができる。
【0023】
これに対して、ユーザ音声取得部14がユーザからの音声入力を取得した場合は、入力音声は、前記第1音声処理部13による音声調整処理が施された上で、第1音声出力部13から出力される。音声認識部16は音声認識処理を行う。したがって、音声認識率を高めるために、音声除去部15においてエコーキャンセル処理を充分に行う必要がある。この場合、音声出力は、第2音声出力部22から第1音声出力部13に切り替えられるため、音声除去部15には、第1音声処理部12による音声調整処理が施された音声成分が混じったユーザの音声が供給される。したがって、音声除去部15は、ユーザ音声取得部14から供給されたユーザの音声から、第1音声処理部12で音声調整処理が施された音声成分を除去すればよい。第1音声処理部12での周波数成分データは、音声入出力装置10で取得できるため、音声除去部15は、第1音声処理部12で音声調整処理が施された音声成分を充分に除去することができる。その結果、音声認識部16における音声認識率を充分高めることができる。また、第1音声出力部13からの出力と第2音声出力部22からの出力とが切り替わる場合においては、音量に関する設定変更を行わなくてもよい。このため、ユーザは、音声認識が行われている間も、充分な音量で、第1音声出力部13からの音声を聴くことができる。
【0024】
次に、
図2を参照して、本実施形態に係る音声入出力システム100における音声処理の流れを説明する。本実施形態では、入力信号音声は、音声認識部16が音声認識処理を開始するトリガーとなるトリガーワードを取得しない場合に、第1音声出力部13とは異なる第2音声出力部22から出力される。音声認識部16が前記トリガーワードを取得した場合に、入力信号音声は、第1音声処理部12による音声調整処理が施された上で第1音声出力部13から出力されるとともに、音声認識部16が音声認識処理を開始する。例えば、トリガーワードとして予め設定されている「ハロー アクオス」(「アクオス」はシャープ株式会社の登録商標)をユーザ音声取得部14が取得し、音声認識部16が当該ワードを検出することをトリガーとして、音声入出力装置10が音声認識処理を開始する。
【0025】
音声入出力システム100の処理がスタートすると、ステップS10では、音声認識部16が予め設定されたトリガーワードの検出を待つ。音声認識部16は、音声認識開始の合図に用いるトリガーワードを認識するための図示しない記憶部に格納されたデータベース、または図示しないクラウド上のデータベースを参照して、トリガーワードの検出を行う。この時点では、音声入力信号は、外部スピーカシステム20の第2音声出力部22から出力されている。
【0026】
ステップS12では、音声入出力装置10の制御部17が、音声認識部16がトリガーワードを検出したか否かを判定する。音声認識部16は、ユーザ音声取得部14に入力された音声が音声除去部15でエコーキャンセル処理を施された後の音声から、トリガーワードを検出する。音声認識部16がトリガーワードを検出したと判定された場合(ステップS12でYES)、ステップS14以下の処理に進み、音声認識処理を開始する。この場合、入力信号音声は、第1音声処理部12による音声調整処理が施された上で第1音声出力部13から出力される。音声認識部16がトリガーワードを認識したと判定されなかった場合(ステップS12でNO)は、ステップS10に戻り、再び、音声認識部16がトリガーワードの検出を待つ状態となる。この場合、入力信号音声は、第1音声出力部13とは異なる第2音声出力部22から出力される。
【0027】
ステップS14では、制御部17が、音声出力を、第2音声出力部22から第1音声出力部(内部スピーカ)13に切り替えて、ステップS16に進む。
【0028】
ステップS16では、音声認識部16が、ユーザからの音声による質問または指示の待ち受け状態となる。
【0029】
ステップS18では、音声認識部16が、ユーザからの質問または指示を受ける。ここで、音声認識部16は、音声入出力装置10の操作コマンド用の図示しない記憶部に格納されたデータベースを用意しておき、操作コマンド用データベースを参照して、ユーザからの質問または指示の内容を認識する。または、図示しないインターネットを通じて、クラウド上のデータベースにユーザ音声データを送り、ユーザからの質問または指示の内容を認識する。続いて、ステップS20に進む。
【0030】
ステップS20では、音声入出力装置10の音声認識部16が、ユーザからの質問、指示に対する回答結果を図示しない画面に表示するか、またはユーザからの質問、指示に対し応答する。続いて、ステップS22に進む。
【0031】
ステップS22では、制御部17が、音声認識部16がユーザからの音声認識終了を示す質問または指示を検出したか否かを判定する。ステップS22で、音声認識部16が音声認識終了の質問または指示を検出したと判定された場合(ステップS22でYES)、ステップS24に進む。
【0032】
ステップS22で、音声認識部16が音声認識処理の終了を示す質問または指示を認識したと判定されなかった場合(ステップS22でNO)、ステップS16に戻り、再び、ユーザからの質問/指示を待ち受ける状態となる。
【0033】
なお、音声認識部16が音声認識を終了するタイミングとしては、音声認識終了を示す質問または指示を検出していなくても、最後のユーザ音声が入力されてから一定時間経過した場合に、音声認識処理を終了する構成としてもよい。
【0034】
ステップS24では、音声認識部16が音声認識処理を終了したため、制御部17が、音声出力を第1音声出力部13から第2音声出力部22に切り替える。
【0035】
上記実施形態では、音声認識部16が音声認識を行っている間は、入力信号音声は第1音声出力部13から出力され、第2音声出力部22からの音声出力を停止する。このため、音声除去部15には、第1音声処理部12による音声調整処理が施された入力信号音声およびユーザ音声取得部14が取得した音声処理のみが供給される。したがって、音声除去部15においては、ユーザ音声取得部14が取得した音声信号が示す音声から、第1音声処理部12による音声調整処理が施された音声成分を取り除くエコーキャンセル処理を行えばよい。このため、音声除去部15において、エコーキャンセル処理を充分に行うことができ、音声認識部16における音声認識率を高めることができる。また、音声認識部16が音声認識を行っていない間は、入力信号音声は第2音声出力部22から出力される。このため、ユーザは第2音声出力部22から出力される高音質の音声を楽しむことができる。
【0036】
なお、下記表1には、音声入出力装置10を外部スピーカシステム20に接続した場合と、外部スピーカシステム20に接続していない場合の、音声認識部16における音声認識率の実験データを示している。表1から読み取れるように、音声入出力装置10を外部スピーカシステム20に接続せず、第1音声出力部13(内部スピーカ)から音声を出力する場合には、音声認識率は87.7%と非常に高い値を示す。これに対して、音声入出力装置10を外部スピーカシステム20に接続し、第2音声出力部22(外部スピーカ)から音声を出力する場合には、音声認識率は42.3%と大幅に低下することが分かる。
【0037】
【0038】
本願発明においては、音声認識部16が音声認識を行う間は、音声出力を第2音声出力部22(外部スピーカ)から第1音声出力部13(内部スピーカ)に切り替える。このため、音声認識部16において、高い音声認識率で音声認識を行うことができる。
【0039】
〔実施形態2〕
上記実施形態1では、音声認識部16が、ユーザ音声取得部(マイクロフォン)14から入力されるトリガーワードを認識することをトリガーとして音声認識処理を開始する音声入出力装置10の実施形態について説明した。本実施形態では、上記実施形態1の構成に替えて、撮影部(たとえば、カメラ)18がユーザによって行われた所定のジェスチャを検出する、または、リモートコントローラ30に特定の操作がなされたことをトリガーとして、音声認識処理を開始する音声入出力装置10について説明する。
【0040】
まず、
図3を参照して、本実施形態に係る音声入出力装置10および外部スピーカシステム20からなる音声入出力システム100の構成について説明する。
【0041】
図3に示すように、本実施形態の音声入出力システム100は、撮影部18およびリモートコントローラ30を備えている。しかし、それ以外の構成要素については実施形態1に係る音声入出力システム100の構成要素と同じであるため、これらの構成要素については説明を省略する。なお、撮影部18は、音声入出力装置10の内部に備えられてもよいし、音声入出力装置10と別体であってもよい。
【0042】
撮影部18は、音声入出力装置10の周囲を撮影する。
【0043】
ユーザ音声取得部14は、撮影部18が撮影した動画像内において、ユーザによって行われた所定のジェスチャが検出されたことに応答して、ユーザからの音声を示す音声信号を取得する処理を開始してもよい。上記所定のジェスチャは、例えば、ユーザの手の動きまたは唇の動き(リップシンク)等を含んでもよい。
【0044】
また、ユーザ音声取得部14は、当該音声入出力装置10の操作を行うためのリモートコントローラ30において、所定の操作が行われたことに応答して、ユーザからの音声を示す音声信号を取得する処理を開始してもよい。例えば、リモートコントローラ30の音声認識開始用ボタンの押下をトリガーとしてユーザからの音声を示す音声信号を取得する処理を開始してもよい。
【0045】
また、本実施形態に係る音声入出力装置10は、上記撮影部18が撮影したユーザの所定のジェスチャおよびリモートコントローラ30の所定の操作のうち、どちらか一方のみをユーザからの音声を示す音声信号を取得する処理を開始するトリガーとしてもよい。あるいは、上記撮影部18が撮影したユーザの所定のジェスチャおよびリモートコントローラ30の所定の操作の両方をユーザからの音声を示す音声信号を取得する処理のトリガーとしてもよい。いずれの場合にも、ユーザからの音声を示す音声信号を取得する処理が開始されると、制御部17は、第2音声出力部22からの出力から、第1音声出力部13からの出力に切り替える。
【0046】
次に、
図4を参照して、本実施形態における音声入出力システム100における処理の流れについて説明する。
【0047】
音声入出力システム100が起動すると、ステップS110では、音声認識部16が音声認識処理を開始する指示がなされるのを待つ。この時点では、入力信号音声は、外部スピーカシステム20の第2音声出力部22から出力されている。
【0048】
ステップS112では、制御部17が、音声認識処理開始のための指示があったか否かを判定する。音声認識処理開始のための指示には、上述したように、撮影部18で捕捉したユーザによって行われる所定のジェスチャ(たとえば、リップシンク)またはリモートコントローラ30での所定の操作が含まれてもよい。制御部17が、音声認識処理開始のための指示があったと判定した場合(ステップS112でYES)、音声認識部16が音声認識処理を開始し、ステップS114に進む。制御部17が音声認識処理開始のための指示があったと判定しなかった場合(ステップS112でNO)は、ステップS110に戻って、音声認識部16が音声認識処理開始のための指示を待つ。
【0049】
ステップS114では、制御部17が、音声出力を、第2音声出力部22から第1音声出力部13に切り替える。その後、ステップS116に進む。
【0050】
ステップS116では、ユーザ音声取得部14がユーザからの音声を示す音声信号を取得し、音声除去部15がーザ音声取得ステップにおいて取得した音声信号が示す音声から、前記第1音声処理が施された音声成分を取り除く処理を行った後の音声が、音声認識部16に入力される。続いて、ステップS118に進む。
【0051】
ステップS118では、音声認識部16が、予め用意された音声認識用のデータベースに基づいて、入力された音声について音声認識結果(音声認識コマンド)を検出する。続いて、ステップS120に進む。
【0052】
ステップS120では、制御部17が、音声認識処理終了のための指示があったか否かを判定する。ステップS120で、制御部17が音声認識処理終了のための指示があったと判定した場合(ステップS120でYES)は、ステップS122に進む。ステップS120で、制御部17が音声認識終了のための指示があったと認識しなかった場合(ステップS120でNO)、ステップS116に戻り、再び、音声認識部16が音声認識の入力を待ち受ける状態となる。
【0053】
ステップS122では、制御部17が、音声出力を第1音声出力部13から第2音声出力部22に戻す。
【0054】
以上で、一連の処理を終了する。
【0055】
本実施形態では、撮影部18が音声認識を開始するトリガーとなる撮影部18でユーザによって行われる所定のジェスチャを捕捉した時点、またはリモートコントローラ30での所定の操作がなされた時点で、制御部17は、音声出力を、第2音声出力部22から第1音声出力部13に切り替える。したがって、本実施形態の構成によれば、音声認識を開始するためのトリガーが認識される可能性が高い。
【0056】
つまり、上記実施形態1では、トリガーワードを検出する際に、第2音声出力部22から出力音声信号が出力されている。したがって、第2音声出力部22から出力される音声がユーザ音声取得部14に入力されてしまい、音声除去部15においてエコーキャンセル処理を完全に行うことができない。このため、音声認識部16がトリガーワードを認識できず、音声認識処理を開始できない場合がありうる。
【0057】
これに対して、本実施形態では、音声認識を開始するためのトリガーがユーザ音声取得部14で取得されるユーザの音声以外の手段であるため、第2音声出力部22から入力信号音声が出力されている状態であっても、音声認識開始のためのトリガーの認識に失敗する可能性が低い。
【0058】
〔まとめ〕
〔態様1〕
上記の課題を解決するために、本発明の一態様に係る音声入出力装置は、入力信号に含まれる入力信号音声に対して音声調整処理を行う第1音声処理部と、前記第1音声処理部による音声調整処理が施された入力信号音声を出力する第1音声出力部と、ユーザからの音声を示す音声信号を取得するユーザ音声取得部と、前記ユーザ音声取得部が取得した音声信号が示す音声から、前記第1音声処理部による音声調整処理が施された音声成分を取り除く処理を行う音声除去部と、を備え、前記入力信号音声は、前記ユーザ音声取得部が前記ユーザからの音声入力を取得しない場合に、前記第1音声出力部とは異なる第2音声出力部から出力され、前記ユーザ音声取得部が前記ユーザからの音声入力を取得した場合に、前記第1音声処理部による音声調整処理が施された上で前記第1音声出力部から出力される。
【0059】
上記の構成によれば、ユーザ音声取得部がユーザからの音声入力を取得した(音声認識が行われる)場合には、第2音声出力部からの音声出力が停止され、音声除去部には、第1音声処理部による音声調整処理が施された音声成分が混じったユーザからの音声を示す音声信号のみがユーザ音声取得部14から入力される。このため、音声除去部において、第1音声処理部による音声調整処理が施された音声成分を充分に除去することができ、その結果、音声認識部における音声認識率を高めることができる。また、音声入出力装置が音声認識中でも、ユーザは第1音声出力部からの音声を聴くことができる。一方で、ユーザ音声取得部がユーザからの音声入力を取得しない(音声認識が行われない)場合には、ユーザは第2音声出力部からの高音質の音声を楽しむことができる。
【0060】
〔態様2〕
入力信号に含まれる入力信号音声に対して音声調整処理を行う第1音声処理部と、前記第1音声処理部による音声調整処理が施された入力信号音声を出力する第1音声出力部と、ユーザからの音声を示す音声信号を取得するユーザ音声取得部と、前記ユーザ音声取得部が取得した音声信号が示す音声から、前記第1音声処理部による音声調整処理が施された音声成分を取り除く処理を行う音声除去部と、前記音声除去部での処理を施した後の音声に基づいて、音声認識処理を行う音声認識部と、を備え、前記入力信号音声は、前記音声認識部が音声認識処理を開始するトリガーとなるトリガーワードを取得しない場合に、前記第1音声出力部とは異なる第2音声出力部から出力され、前記音声認識部が前記トリガーワードを取得した場合に、前記第1音声処理部による音声調整処理が施された上で前記第1音声出力部から出力される。
【0061】
上記の構成によれば、音声認識部における音声認識処理を開始するための、特別な機構を備えなくとも、音声認識処理を開始することができる。
【0062】
〔態様3〕
上記一態様に係る音声入出力装置において、前記第2音声処理部は、当該音声入出力装置とは異なる装置が備えていてもよい。
【0063】
上記の構成によれば、音声入出力装置を外部スピーカシステムと接続した場合に、音声入出力装置が音声認識を行っていない間、ユーザは、外部スピーカからの高音質の音声を楽しむことができる。
【0064】
〔態様4〕
上記一態様に係る音声入出力装置において、当該音声入出力装置とは異なる前記装置は、前記入力信号に含まれる入力信号音声に対して前記第1音声処理部とは異なる音声調整処理を行う第2音声処理部を更に備え、前記第2音声出力部は、前記第2音声処理部による音声調整処理が施された前記入力信号音声を出力してもよい。
【0065】
上記の構成によれば、音声入出力装置が音声認識を行っていない場合には、ユーザは、音声入出力装置とは別体である第2音声出力部(外部スピーカ)からの音声を楽しむことができる。
【0066】
〔態様5〕
上記一態様に係る音声入出力装置において、前記第1音声出力部からの出力と前記第2音声出力部からの出力とが切り替わる場合において、音量に関する設定変更を行わなくてよい。
【0067】
上記の構成によれば、音声入出力装置が音声認識を行っている間も、ユーザは音声入出力装置の第1音声出力部からの音声を十分な音量で聞くことができる。
【0068】
〔態様6〕
上記一態様に係る音声入出力装置は、当該音声入出力装置の周囲を撮影する撮影部を更に備え、前記ユーザ音声取得部は、前記撮影部が撮影した動画像内において、前記ユーザによって行われた所定のジェスチャが検出されたことに応答して、前記ユーザからの音声を示す音声信号を取得する処理を開始してもよい。
【0069】
上記の構成によれば、ユーザによって行われる所定のジェスチャが検出されたことをトリガーとして、音声認識処理を開始するため、特定のワードを音声認識処理開始のためのトリガーとする場合に比べて、適切に音声認識処理を開始することができる。
【0070】
〔態様7〕
上記一態様に係る音声入出力装置において、前記ユーザ音声取得部は、当該音声入出力装置の操作を行うためのリモートコントローラにおいて、所定の操作が行われたことに応答して、前記ユーザからの音声を示す音声信号を取得する処理を開始してもよい。
【0071】
上記の構成によれば、リモートコントローラの所定の操作をトリガーとして、音声認識処理を開始するため、特定のワードを音声認識処理開始のためのトリガーとする場合に比べて、適切に音声認識処理を開始することができる。
【0072】
〔態様8〕
上記の課題を解決するために、本発明の一態様に係る音声入出力方法は、入力信号に含まれる入力信号音声に対して第1の音声調整処理を行う第1音声処理ステップと、前記第1音声処理が施された入力信号音声を出力する第1音声出力ステップと、ユーザからの音声を示す音声信号を取得するユーザ音声取得ステップと、前記ユーザ音声取得ステップにおいて取得した音声信号が示す音声から、前記第1音声処理が施された音声成分を取り除く処理を行う音声除去ステップと、を含む音声入出力方法であって、前記入力信号音声は、前記ユーザ音声取得ステップにおいて前記ユーザからの音声入力を取得しない場合に、前記第1音声出力ステップとは異なる第2音声出力ステップにおいて出力され、前記ユーザ音声取得ステップにおいて前記ユーザからの音声入力を取得した場合に、前記第1音声処理が施された上で前記第1音声出力ステップにおいて出力される。
【0073】
上記方法によれば、音声入出力装置と同様の効果を奏することができる。
【0074】
〔態様9〕
上記の課題を解決するために、本発明の一態様に係る音声入出力プログラムは、前記音声入出力装置としてコンピュータを機能させるための音声入出力プログラムであって、前記第1音声処理部および前記音声除去部としてコンピュータを機能させるための音声入出力プログラムである。
【0075】
上記プログラムによれば、音声入出力装置と同様の効果を奏することができる。
【0076】
〔ソフトウェアによる実現例〕
音声入出力装置10の制御部17(デコード部11、第1音声処理部12、音声除去部15、および音声認識部16)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、ソフトウェアによって実現してもよい。
【0077】
後者の場合、音声入出力装置10は、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータを備えている。このコンピュータは、例えば1つ以上のプロセッサを備えていると共に、上記プログラムを記憶したコンピュータ読み取り可能な記録媒体を備えている。そして、上記コンピュータにおいて、上記プロセッサが上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記プロセッサとしては、例えばCPU(Central Processing Unit)を用いることができる。上記記録媒体としては、「一時的でない有形の媒体」、例えば、ROM(Read Only Memory)等の他、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムを展開するRAM(Random Access Memory)などをさらに備えていてもよい。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明の一態様は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
【0078】
〔付記事項〕
本発明は上述した実施形態および変形例に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態のそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
【符号の説明】
【0079】
10 音声入出力装置
11 デコード部
12 第1音声処理部
13 第1音声出力部
14 ユーザ音声取得部
15 音声除去部
16 音声認識部
17 制御部
18 撮影部
20 外部スピーカシステム
21 第2音声処理部
22 第2音声出力部
30 リモートコントローラ
100 音声入出力システム