(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-01-17
(45)【発行日】2022-01-26
(54)【発明の名称】音声出力制御装置、電子機器、音声出力制御方法およびプログラム
(51)【国際特許分類】
G10L 15/25 20130101AFI20220119BHJP
H04N 21/439 20110101ALI20220119BHJP
G10L 15/00 20130101ALI20220119BHJP
G10L 15/22 20060101ALI20220119BHJP
G10L 15/28 20130101ALI20220119BHJP
【FI】
G10L15/25
H04N21/439
G10L15/00 200Q
G10L15/22 453
G10L15/28 500
(21)【出願番号】P 2018005739
(22)【出願日】2018-01-17
【審査請求日】2020-10-30
(73)【特許権者】
【識別番号】308036402
【氏名又は名称】株式会社JVCケンウッド
(74)【代理人】
【識別番号】110002147
【氏名又は名称】特許業務法人酒井国際特許事務所
(72)【発明者】
【氏名】照内 拓之
【審査官】中村 天真
(56)【参考文献】
【文献】特開2015-096413(JP,A)
【文献】特開2014-132396(JP,A)
【文献】特開2010-185975(JP,A)
【文献】特開2006-044420(JP,A)
【文献】特開2005-284492(JP,A)
【文献】特開2004-246095(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-15/34
H04N 21/00-21/858
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
発話音声の音声データを取得して音声認識を行う音声認識部と、
少なくとも発話者の口元を撮影した映像データを取得する映像取得部と、
前記映像データから口唇部を検出するとともに、口唇部の動きを検出する口唇検出部と、
前記口唇検出部が検出した口唇部の動きから発話内容を認識する口唇動作認識部と、
少なくとも音声を含むコンテンツの再生を行うコンテンツ再生部と、
発話に対する前記音声認識部または前記口唇動作認識部による少なくともいずれかの認識結果が音量低下指示を示すとともに、前記口唇動作認識部による認識結果に比べて前記音声認識部による認識結果の認識率が低い場合、前記コンテンツ再生部が再生している音声に対し通常の音量低下指示に対する音量低下処理より緩やかに音量低下を行う音声制御部と、
を備える音声出力制御装置。
【請求項2】
前記音声制御部は、発話に対する前記口唇動作認識部による認識結果が音量低下指示を示すとともに、前記音声認識部による音声認識ができなかった場合、通常の音量低下指示に対する音量低下処理より緩やかに音量低下を行う、
請求項1に記載の音声出力制御装置。
【請求項3】
前記音声制御部は、前記口唇動作認識部による認識結果に比べて前記音声認識部による認識結果の認識率が低い場合、前記音声認識部による認識結果の認識率によって音量低下の度合いを変化させる、
請求項1に記載の音声出力制御装置。
【請求項4】
前記映像取得部は、前記発話者の周囲に存在する人物を撮影した映像データをさらに取得し、
前記映像取得部が取得した前記映像データに基づいて動作を認識する認識部と、
前記認識部の認識結果により前記発話者の周囲に存在する人物が寝ているか否かを判断する判断部とをさらに備え、
前記音声制御部は、前記判断部が前記発話者の周囲に存在する人物が寝ていると判断した場合において、発話に対する前記音声認識部または前記口唇動作認識部による少なくともいずれかの認識結果が音量低下指示を示すとともに、前記口唇動作認識部による認識結果に比べて前記音声認識部による認識結果の認識率が低い場合、前記コンテンツ再生部が再生している音声に対し通常の音量低下指示に対する音量低下処理より緩やかに音量低下を行う、
請求項1から3のいずれか一項に記載の音声出力制御装置。
【請求項5】
請求項1から4のいずれか一項に記載の音声出力制御装置と、
音声出力部と、
を備えることを特徴とする電子機器。
【請求項6】
発話音声の音声データを取得して音声認識を行う音声認識ステップと、
少なくとも発話者の口元を撮影した映像データを取得する映像取得ステップと、
前記映像データから口唇部を検出するとともに、口唇部の動きを検出する口唇検出ステップと、
前記口唇検出ステップによって検出した口唇部の動きから発話内容を認識する口唇動作認識ステップと、
少なくとも音声を含むコンテンツの再生を行うコンテンツ再生ステップと、
発話に対する前記音声認識ステップまたは前記口唇動作認識ステップによる少なくともいずれかの認識結果が音量低下指示を示すとともに、前記口唇動作認識ステップによる認識結果に比べて前記音声認識ステップによる認識結果の認識率が低い場合、前記コンテンツ再生ステップによって再生している音声に対し通常の音量低下指示に対する音量低下処理より緩やかに音量低下を行う音声制御ステップと、
を含むことを特徴とする音声出力制御方法。
【請求項7】
発話音声の音声データを取得して音声認識を行う音声認識ステップと、
少なくとも発話者の口元を撮影した映像データを取得する映像取得ステップと、
前記映像データから口唇部を検出するとともに、口唇部の動きを検出する口唇検出ステップと、
前記口唇検出ステップによって検出した口唇部の動きから発話内容を認識する口唇動作認識ステップと、
少なくとも音声を含むコンテンツの再生を行うコンテンツ再生ステップと、
発話に対する前記音声認識ステップまたは前記口唇動作認識ステップによる少なくともいずれかの認識結果が音量低下指示を示すとともに、前記口唇動作認識ステップによる認識結果に比べて前記音声認識ステップによる認識結果の認識率が低い場合、前記コンテンツ再生ステップによって再生している音声に対し通常の音量低下指示に対する音量低下処理より緩やかに音量低下を行う音声制御ステップと、
をコンピュータに実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声出力制御装置、電子機器、音声出力制御方法およびプログラムに関する。
【背景技術】
【0002】
例えば、車載用電子機器を運転者が操作するインターフェースとして音声認識を使用したものが知られている。運転者の視聴状態に応じて、運転者に対する音声の出力を制御する技術が知られている(例えば、特許文献1参照)。オーディオ信号の出力レベルに音声認識の結果を反映させる技術が知られている(例えば、特許文献2参照)。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2012-186622号公報
【文献】特開2011-027757号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
車両の同乗者が寝ている場合、運転者は、車載用電子機器が再生するコンテンツの音量を低下する操作を行うことがある。ところが、音量低下指示を音声操作によって行うと、運転者の発声した音声によって同乗者を起こしてしまうおそれがある。また、コンテンツの音量を急激に変化させると、同乗者を起こしてしまうおそれがある。
【0005】
本発明は、上記に鑑みてなされたものであって、例えば、同乗者を含む近傍の他者の睡眠を阻害しない音量操作を可能にすることを目的とする。
【課題を解決するための手段】
【0006】
上述した課題を解決し、目的を達成するために、本発明に係る表示制御装置は、発話音声の音声データを取得して音声認識を行う音声認識部と、少なくとも発話者の口元を撮影した映像データを取得する映像取得部と、前記映像データから口唇部を検出するとともに、口唇部の動きを検出する口唇検出部と、前記口唇検出部が検出した口唇部の動きから発話内容を認識する口唇動作認識部と、少なくとも音声を含むコンテンツの再生を行うコンテンツ再生部と、発話に対する前記音声認識部または前記口唇動作認識部による少なくともいずれかの認識結果が音量低下指示を示すとともに、前記口唇動作認識部による認識結果に比べて前記音声認識部による認識結果の認識率が低い場合、前記コンテンツ再生部が再生している音声に対し通常の音量低下指示に対する音量低下処理より緩やかに音量低下を行う音声制御部と、を備えることを特徴とする。
【0007】
本発明に係る電子機器は、上記の表示制御装置と、音声出力部と、を備えることを特徴とする。
【0008】
本発明に係る表示制御方法は、発話音声の音声データを取得して音声認識を行う音声認識ステップと、少なくとも発話者の口元を撮影した映像データを取得する映像取得ステップと、前記映像データから口唇部を検出するとともに、口唇部の動きを検出する口唇検出ステップと、前記口唇検出ステップによって検出した口唇部の動きから発話内容を認識する口唇動作認識ステップと、少なくとも音声を含むコンテンツの再生を行うコンテンツ再生ステップと、発話に対する前記音声認識ステップまたは前記口唇動作認識ステップによる少なくともいずれかの認識結果が音量低下指示を示すとともに、前記口唇動作認識ステップによる認識結果に比べて前記音声認識ステップによる認識結果の認識率が低い場合、前記コンテンツ再生ステップによって再生している音声に対し通常の音量低下指示に対する音量低下処理より緩やかに音量低下を行う音声制御ステップと、を含む。
【0009】
本発明に係るプログラムは、発話音声の音声データを取得して音声認識を行う音声認識ステップと、少なくとも発話者の口元を撮影した映像データを取得する映像取得ステップと、前記映像データから口唇部を検出するとともに、口唇部の動きを検出する口唇検出ステップと、前記口唇検出ステップによって検出した口唇部の動きから発話内容を認識する口唇動作認識ステップと、少なくとも音声を含むコンテンツの再生を行うコンテンツ再生ステップと、発話に対する前記音声認識ステップまたは前記口唇動作認識ステップによる少なくともいずれかの認識結果が音量低下指示を示すとともに、前記口唇動作認識ステップによる認識結果に比べて前記音声認識ステップによる認識結果の認識率が低い場合、前記コンテンツ再生ステップによって再生している音声に対し通常の音量低下指示に対する音量低下処理より緩やかに音量低下を行う音声制御ステップと、をコンピュータに実行させる。
【発明の効果】
【0010】
本発明によれば、例えば、同乗者を含む近傍の他者の睡眠を阻害しない音量操作を可能にすることができるという効果を奏する。
【図面の簡単な説明】
【0011】
【
図1】
図1は、第一実施形態に係る音声出力制御装置の構成例を示すブロック図である。
【
図2】
図2は、第一実施形態に係る音声出力制御装置の構成例を示す概略図である。
【
図3】
図3は、口唇部を説明する図であり、口唇を閉じた状態を示す。
【
図4】
図4は、口唇部の動きの一例を説明する図である。
【
図5】
図5は、音声認識処理の処理結果と口唇動作認識処理の処理結果と認識率とを説明する図である。
【
図6】
図6は、音声認識処理の処理結果と口唇動作認識処理の処理結果と認識率とを説明する図である。
【
図7】
図7は、第一実施形態に係る音声出力制御装置による音量低下処理の一例を説明する図である。
【
図8】
図8は、第一実施形態に係る音声出力制御装置における処理の流れを示すフローチャートである。
【
図9】
図9は、第二実施形態に係る音声出力制御装置における処理の流れを示すフローチャートである。
【
図10】
図10は、第三実施形態に係る音声出力制御装置の構成例を示すブロック図である。
【
図11】
図11は、第三実施形態に係る音声出力制御装置における処理の流れを示すフローチャートである。
【発明を実施するための形態】
【0012】
以下に添付図面を参照して、本発明に係る音声出力制御装置、電子機器、音声出力制御方法およびプログラムの実施形態を詳細に説明する。なお、以下の実施形態により本発明が限定されるものではない。
【0013】
[第一実施形態]
図1は、第一実施形態に係る音声出力制御装置の構成例を示すブロック図である。
図2は、第一実施形態に係る音声出力制御装置の構成例を示す概略図である。電子機器1は、例えば、映像または音楽などの音声を含むコンテンツのコンテンツ再生機能を有する。
【0014】
コンテンツは、例えば、メモリ、ディスクを含む記録媒体に記憶されていてもよい。コンテンツは、例えば、ストリーミング配信されたものをダウンロードしてもよいし、放送波から受信してもよい。
【0015】
電子機器1は、音声出力制御装置として機能する制御部100によって、コンテンツ再生時に音量が制御される。電子機器1は、例えば、車載用オーディオ装置またはナビゲーション装置または可搬型の携帯用電子機器である。本実施形態では、電子機器1は、車載用オーディオ装置であるものとして説明する。電子機器1は、カメラ10とマイクロフォン20とスピーカ(音声出力部)30と制御部100とを有する。
【0016】
カメラ10は、少なくとも発話者の口唇部200を含んだ口元を含む映像を撮影する。本実施形態では、発話者が車両の運転者であるものとするが、これに限定されない。発話者は、車両の同乗者であってもよい。本実施形態では、カメラ10は、運転者の顔部の映像を撮影する。カメラ10は、通話時に少なくとも運転者の口唇部200を撮影可能な位置に配置されている。本実施形態では、カメラ10は、ダッシュボード160の運転者の正面に配置されたクラスターパネル170に、運転者に対面して取り付けられている。カメラ10は、ステアリングホイール190に配置されている、図示しない認識操作開始スイッチが押下されると、撮影を開始する。カメラ10は、電子機器1の動作中、または、コンテンツの再生中、常時、撮影を行ってもよい。または、カメラ10は、電子機器1の動作中、または、コンテンツの再生中、撮影待機状態であり、マイクロフォン20が音声を取得すると、撮影を開始してもよい。カメラ10は、撮影した映像データを制御部100の映像取得部101に出力する。
【0017】
マイクロフォン20は、運転者の発話音声の音声信号を取得する。本実施形態では、マイクロフォン20は、ダッシュボード160の運転者の正面に配置されたクラスターパネル170に、運転者に対面して取り付けられている。マイクロフォン20は、ステアリングホイール190に配置されている、認識操作開始スイッチが押下されると、音声信号の取得を開始する。マイクロフォン20は、電子機器1の動作中、または、コンテンツの再生中、常時、音声信号を取得してもよい。または、マイクロフォン20は、電子機器1の動作中、または、コンテンツの再生中、待機状態であり、カメラ10が撮影を開始すると、音声信号の取得を開始してもよい。マイクロフォン20は、取得した音声信号を制御部100の音声取得部102に出力する。
【0018】
スピーカ30は、音声出力制御装置である。スピーカ30は、制御部100の音声出力処理部103から出力された音声信号に基づきコンテンツの音声を出力する。
【0019】
制御部100は、例えば、CPU(Central Processing Unit)などで構成された演算処理装置である。制御部100は、記憶部120に記憶されているプログラムをメモリにロードして、プログラムに含まれる命令を実行する。制御部100は、映像取得部101と音声取得部102と音声出力処理部103と音声認識部104と口唇検出部105と口唇動作認識部106とオーディオ制御部(音声制御部)107とコンテンツ再生部108とを有する。制御部100には図示しない内部メモリが含まれ、内部メモリは制御部100におけるデータの一時記憶などに用いられる。
【0020】
映像取得部101は、少なくとも発話者の口唇部200を含む口元を撮影した映像データを取得する。本実施形態では、映像取得部101は、少なくとも運転者の口唇部200を含む口元をカメラ10が撮影した映像データを取得する。より詳しくは、映像取得部101は、カメラ10が出力した映像信号に符号化処理などを実行して、デジタルデータである映像データを取得する。映像取得部101は、取得した映像データを口唇検出部105に出力する。
【0021】
音声取得部102は、発話者の発話音声の音声データを取得する。より詳しくは、音声取得部102は、マイクロフォン20が出力した音声信号にA/D(Analog/Digital)変換処理を実行して、デジタルデータである音声データを取得する。音声取得部102は、取得した音声データを音声認識部104とオーディオ制御部107とに出力する。
【0022】
音声出力処理部103は、コンテンツ再生部108からの制御信号に基づいて、コンテンツの音声データに復号化処理とD/A(Digital/Analog)変換処理とを実行して、音声信号をスピーカ30に出力する。音声出力処理部103は、オーディオ制御部107からの制御信号に応じて音量を変更可能として音声信号をスピーカ30に出力する。音量の変更とは、音量の低下または上昇である。コンテンツの音声データとは、例えば、オーディオコンテンツのオーディオデータ、ビデオコンテンツのオーディオデータなどである。
【0023】
音声認識部104は、音声取得部102が取得した音声データから音声を認識する音声認識処理を実行する。音声認識処理は、音素ごと、単語ごとなど任意の単位で行えばよい。音声認識処理の方法は、公知のいずれの方法でもよく、限定されない。音声認識部104は、認識結果をオーディオ制御部107に出力する。
【0024】
より詳しくは、音声認識部104は、公知の音声認識処理と単語辞書データを参照した認識結果に基づいて発話内容に含まれる語句を推定する。音声認識部104は、「音量」、「音」、「ボリューム」、「音声」など音量または音声を示す語句と、「下げ」、「小さく」、「低下」など音量低下の指示を示す語句とが連続して認識されたとき、発話内容が音量低下指示であると判断する。
【0025】
口唇検出部105は、映像取得部101が取得した映像データから口唇部200を検出するとともに、口唇部200の動きを検出する。より詳しくは、口唇検出部105は、映像データに顔認識処理を行って、口唇部200を検出する。または、口唇検出部105は、例えば、口唇辞書データを参照しながら画像認識処理を行って、口唇部200を認識する。口唇検出部105は、検出した口唇部200の動きを検出する。口唇検出部105は、検出結果を口唇動作認識部106に出力する。
【0026】
口唇動作認識部106は、口唇検出部105が検出した口唇部200の動きから発話内容を認識する。より詳しくは、口唇動作認識部106は、口唇辞書データを参照しながら画像認識処理を行って、発話内容を認識する。口唇動作認識処理は、音素ごと、単語ごとなど任意の単位で行えばいよい。口唇動作認識部106は、認識結果をオーディオ制御部107に出力する。
【0027】
より詳しくは、口唇動作認識部106は、公知の口唇動作認識処理によって発話内容に含まれる語句を推定する。口唇動作認識部106は、「音量」、「音」、「ボリューム」、「音声」など音量または音声を示す語句と、「下げ」、「小さく」、「低下」など音量低下の指示を示す語句とが連続して認識されたとき、発話内容が音量低下指示であると判断する。
【0028】
図3、
図4を参照して、口唇動作認識処理について説明する。
図3は、口唇部を説明する図であり、口唇を閉じた状態を示す。
図3に示す、口唇を閉じた状態における各部位の位置を基本位置とする。
図4は、口唇部の動きの一例を説明する図である。本実施形態では、口唇動作認識部106は、例えば、口唇部200の部位P1から部位P8の動きを検出することで、口唇部200の動作を検出する。口唇部200の各部位は、これらに限定されず、口唇部200の動きを読み取ることができる部位であればよい。部位P1は、右側の口角である。部位P1の動きをベクトルV1で示す。ベクトルV1は、部位P1の基本位置に対する動きを示す。本実施形態で示す例では、ベクトルV1は、部位P1の動きが小さいため、図示を省略している。各図において、部位P1は、基本位置を図示している。他の部位についても同様である。部位P2は、左側の口角である。部位P2の動きをベクトルV2で示す。本実施形態で示す例では、ベクトルV2は、部位P2の動きが小さいため、図示を省略している。部位P3は、上唇の右側の上端部である。部位P3の動きをベクトルV3で示す。部位P4は、上唇の左側の上端部である。部位P4の動きをベクトルV4で示す。部位P5は、上唇の中央部の下端部である。部位P5の動きをベクトルV5で示す。部位P6は、下唇の右側の下端部である。部位P6の動きをベクトルV6で示す。部位P7は、下唇の左側の下端部である。部位P7の動きをベクトルV7で示す。部位P8は、下唇の中央部の上端部である。部位P8の動きをベクトルV8とする。
【0029】
各ベクトルVは、各部位Pについて、ひとつ前または所定数前のフレームの映像データの口唇部200の各部位Pに対する動きとして示してもよい。
【0030】
各ベクトルVは、各部位Pについて、ある音素から次の音素を発するときの、口唇部200の各部位Pに対する動きとして示してもよい。
【0031】
オーディオ制御部107は、例えば、同乗者が寝ているために、運転者が、コンテンツ再生部108が再生している音声に対する音量低下指示の音声操作を小さい声で行った場合に、急激に音量が低下しないように緩やかに音量を低下する。より詳しくは、オーディオ制御部107は、音量低下指示を行った発話に対する音声認識部104または口唇動作認識部106による少なくともいずれかの認識結果が音量低下指示を示すとともに、口唇動作認識部106による認識結果に比べて音声認識部104による認識結果の認識率が低い場合、コンテンツ再生部108が再生している音声に対し通常の音量低下指示に対する音量低下処理より緩やかに音量低下を行う。オーディオ制御部107は、音量低下を実行する制御信号を音声出力処理部103に出力する。
【0032】
認識率は、発話内容と認識結果とを比較して算出する。認識率は、例えば、発話内容と認識結果とがすべて一致したら100%である。例えば、「おんりょう さげて」と発話したものを、口唇動作認識部106が「おんりょう さげて」と認識し、音声認識部104が「おんりょう さげて」と認識した場合について説明する。認識結果の「おんりょう さげて」の単語は、音量低下指示の単語として成立しているので、口唇動作認識処理と音声認識処理の認識率はいずれも100%である。口唇動作認識処理と音声認識処理の認識率がいずれも100%であるとき、音量低下指示は十分な声量かつ明瞭な発声でなされたことを示す。このとき、同乗者は寝ている状態ではないと推測される。認識率は、発話内容に対して認識結果の文字が不明瞭であったり、誤って挿入、削除、置換されると低く算出される。
【0033】
図5を参照して、認識率について説明する。
図5は、音声認識処理の処理結果と口唇動作認識処理の処理結果と認識率とを説明する図である。例えば、「おんりょう さげて」と発話したものを、口唇動作認識部106が「おんりょう さげて」と認識し、音声認識部104が「?んりょう さ?て」と認識した場合について説明する。「?」は、文字を認識できなかったことを示す。この場合、口唇動作認識処理の認識率は100%である。音声認識処理の認識率は75%である。口唇動作認識処理に対して音声認識処理の認識率が低いとき、音量低下指示は声量が不十分または不明瞭な発声でなされたことを示す。このとき、同乗者は寝ている状態であると推測される。
【0034】
図6を参照して、認識率について説明する。
図6は、音声認識処理の処理結果と口唇動作認識処理の処理結果と認識率とを説明する図である。例えば、「おんりょう さげて」と発話したものを、口唇動作認識部106が「おんりょう さげて」と認識し、音声認識部104が「ほんりょう さげへ」と認識した場合について説明する。この場合、口唇動作認識処理の認識率は100%である。音声認識処理の認識率は75%である。口唇動作認識処理に対して音声認識処理の認識率が低いとき、音量低下指示は声量が不十分または不明瞭な発声でなされたことを示す。このとき、同乗者は寝ている状態であると推測される。
【0035】
また、オーディオ制御部107は、音量低下指示を行った発話に対する音声認識部104または口唇動作認識部106による少なくともいずれかの認識結果が音量低下指示を示すとともに、音声認識部104による音声認識ができなかった場合、通常の音量低下指示に対する音量低下処理より緩やかに音量低下を行うようにしてもよい。さらにまた、オーディオ制御部107は、音量低下指示を行った発話に対する音声認識部104または口唇動作認識部106による少なくともいずれかの認識結果が音量低下指示を示すとともに、音声認識部104による認識結果の認識率が閾値以下である場合、通常の音量低下指示に対する音量低下処理より緩やかに音量低下を行うようにしてもよい。
【0036】
音声認識処理の認識率が閾値以下であるとき、または、音声認識部104によって発話内容を認識できなかったとき、音量低下指示は非常に小さい声での指示、または、発声を伴わない口唇の動作のみでなされたことを示す。例えば、閾値は、50%とする。このときも、同乗者は寝ている状態であると推測される。
【0037】
図7を参照して、オーディオ制御部107が行う音量低下処理について説明する。
図7は、第一実施形態に係る音声出力制御装置による音量低下処理の一例を説明する図である。破線は、通常の音量低下指示による音量の変化を示す。実線は、口唇動作認識部106による認識結果に比べて音声認識部104による認識結果の認識率が低いと判定された場合の、音量低下指示による音量の変化を示す。破線で示す通常の音量低下処理では、時刻T1において音量低下指示が検出されると、時刻T1から時刻T2までの時間Δt1の間に、音量をΔv低下する。実線で示す音量低下処理では、時刻T1において音量低下指示が検出されると、時刻T1から時刻T3までの時間Δt2(>Δt1)の間に、音量をΔv低下する。実線で示す音量低下処理は、破線で示す通常の音量低下処理に比べて、緩やかに音量が低下する。
【0038】
音量の低下量は、運転者の指示に応じて設定してもよい。音量の低下量は、音量低下指示時のボリューム位置が示していた値から、例えば、6dBなど所定量としてもよい。音量の低下量は、音量低下指示時のボリューム位置が示していた値から、例えば、25%など所定率としてもよい。
【0039】
コンテンツ再生部108は、少なくとも音声を含むコンテンツの再生を行う。コンテンツ再生部108は、コンテンツの音声を再生する制御信号を音声出力処理部103に出力する。
【0040】
図1に戻って、記憶部120は、電子機器1におけるデータの一時記憶などに用いられる。記憶部120は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ(Flash Memory)などの半導体メモリ素子、または、ハードディスク、光ディスクなどの記憶装置である。または、図示しない音声出力制御装置を介して無線接続される外部記憶装置であってもよい。記憶部120は、口唇辞書データを記憶している。
【0041】
次に、
図8を用いて、電子機器1の制御部100における処理の流れについて説明する。
図8は、第一実施形態に係る音声出力制御装置における処理の流れを示すフローチャートである。電子機器1がコンテンツを再生しているものとする。運転者が認識操作開始スイッチを押下すると、ステップS11以降の処理が実行される。
【0042】
制御部100は、運転者の発話音声および運転者の顔部の映像を取得する(ステップS11)。より詳しくは、制御部100は、音声取得部102によって運転者の発話音声の音声データを取得する。制御部100は、映像取得部101によって運転者の顔部の映像データを取得する。制御部100は、ステップS12に進む。
【0043】
制御部100は、口唇検出処理を実行する(ステップS12)。より詳しくは、制御部100は、口唇検出部105によって、映像取得部101が取得した映像データから口唇部200を検出するとともに、口唇部200の動きを検出する。制御部100は、ステップS13に進む。
【0044】
制御部100は、口唇動作認識処理を実行する(ステップS13)。より詳しくは、制御部100は、口唇動作認識部106によって、口唇検出部105が検出した口唇部200の動きから発話内容を認識する。制御部100は、ステップS14に進む。
【0045】
制御部100は、音声認識処理を実行する(ステップS14)。より詳しくは、制御部100は、音声認識部104によって、音声取得部102が取得した音声データから音声を認識する音声認識処理を実行する。制御部100は、ステップS15に進む。
【0046】
制御部100は、音量低下指示があるか否かを判定する(ステップS15)。より詳しくは、制御部100は、オーディオ制御部107によって、音量低下指示を行った発話に対する音声認識部104または口唇動作認識部106による少なくともいずれかの認識結果が音量低下指示を示すか否かを判定する。制御部100は、オーディオ制御部107によって、音声認識処理と口唇動作認識処理との少なくともいずれかの認識結果が音量低下指示であると判定した場合(ステップS15でYes)、ステップS16に進む。制御部100は、オーディオ制御部107によって、音声認識処理と口唇動作認識処理との認識結果がどちらも音量低下指示ではないと判定した場合(ステップS15でNo)、処理を終了する。
【0047】
制御部100は、口唇動作認識率が音声認識率より高いか否かを判定する(ステップS16)。より詳しくは、制御部100は、オーディオ制御部107によって、口唇動作認識部106の認識結果の認識率が音声認識部104の認識結果の認識率より高いと判定した場合(ステップS16でYes)、ステップS17に進む。ステップS16でYesと判定されるとき、同乗者が寝ているため、運転者が小さい声で音量低下指示を発声している可能性がある。制御部100は、口唇動作認識部106の認識結果の認識率が音声認識部104の認識結果の認識率より高くないと判定した場合(ステップS16でNo)、ステップS18に進む。
【0048】
口唇動作認識処理の認識率が音声認識処理の認識率より高いと判定された場合(ステップS16でYes)、制御部100は、通常より緩やかに音量低下処理を実行する(ステップS17)。より詳しくは、制御部100は、音声出力処理部103によって、コンテンツ再生部108が再生している音声に対し通常の音量低下指示に対する音量低下処理より緩やかに音量低下を行う。制御部100は、例えば、
図7に実線で示す音量低下処理を実行する。制御部100は、処理を終了する。
【0049】
口唇動作認識処理の認識率が音声認識処理の認識率より高くないと判定された場合(ステップS16でNo)、制御部100は、通常の音量低下処理を実行する(ステップS18)。より詳しくは、制御部100は、音声出力処理部103によって、コンテンツ再生部108が再生している音声に対し通常の音量低下指示に対する音量低下処理を実行する。制御部100は、例えば、
図7に破線で示す音量低下処理を実行する。制御部100は、処理を終了する。ステップS18で実行される音量低下処理の音量低下度合が例えば2dB/secである場合、ステップS17で実行される音量低下処理の音量低下度合を例えば毎秒6dB/secとする。
【0050】
このようにして、音声認識処理または口唇動作認識処理による少なくともいずれかの認識結果が音量低下指示を示すとともに、口唇動作認識処理に比べて音声認識処理の認識率が低い場合、コンテンツ再生部108が再生している音声に対し通常の音量低下指示に対する音量低下処理より緩やかに音量低下を行う。
【0051】
上述したように、本実施形態は、音声認識処理または口唇動作認識処理の少なくともいずれかの認識結果が音量低下指示であり、口唇動作認識処理の認識率が音声認識処理の認識率より高いと判定された場合、急激に音量が低下しないように緩やかに音量を低下する。本実施形態は、例えば、同乗者が寝ているために運転者が小さな声で音声低下指示をした場合、急激に音量が低下しないように緩やかに音量を低下する。本実施形態によれば、同乗者が寝ている場合、運転者が大きな声で音声操作することによって、同乗者を起こしてしまうおそれを低減することができる。また、本実施形態は、急激に音量を変化させて、同乗者を起こしてしまうおそれを低減することができる。このように、本実施形態は、同乗者を含む近傍の他者の睡眠を阻害しない音量操作をすることができる。
【0052】
[第二実施形態]
図9を参照しながら、本実施形態に係る電子機器1について説明する。
図9は、第二実施形態に係る音声出力制御装置における処理の流れを示すフローチャートである。電子機器1は、基本的な構成は第一実施形態の電子機器1と同様である。以下の説明においては、電子機器1と同様の構成要素には、同一の符号または対応する符号を付し、その詳細な説明は省略する。電子機器1は、制御部100のオーディオ制御部107における処理が第一実施形態の電子機器1と異なる。
【0053】
オーディオ制御部107は、口唇動作認識部106による認識結果に比べて音声認識部104による認識結果の認識率が低い場合、音声認識部104による認識結果の認識率によって音量低下の度合いを変化させる制御信号を音声出力処理部103に出力する。オーディオ制御部107は、音声認識処理の認識率が低いほど、音量低下度合を小さくして、より緩やかに音量を低下する。言い換えると、オーディオ制御部107は、音声低下指示の声量が小さいほど、音量低下度合を小さくして、より緩やかに音量を低下する。このようにするのは、音声低下指示の声量が小さいほど、同乗者が寝ている状態である可能性が高いと推測されるためである。または、音声低下指示の声量が小さいほど、運転者が同乗者の睡眠をより阻害したくないと考えていると推測されるためである。
【0054】
例えば、オーディオ制御部107は、音声認識処理の認識率が90%以上である場合、音量低下度合を6dB/secとする。例えば、オーディオ制御部107は、音声認識処理の認識率が50%以上90%未満である場合、音量低下度合を4dB/secとする。例えば、オーディオ制御部107は、音声認識処理の認識率が50%未満である場合、音量低下度合を2dB/secとする。
【0055】
次に、
図9を用いて、電子機器1における処理の流れについて説明する。
図9に示すフローチャートのステップS21ないしステップS26、ステップS28の処理は、
図8に示すフローチャートのステップS11ないしステップS16、ステップS18の処理と同様の処理を行う。
【0056】
制御部100は、音声認識率に応じて、通常より緩やかに音量低下処理を実行する(ステップS27)。より詳しくは、制御部100は、音声出力処理部103によって、音声認識部104による認識結果の認識率によって音量低下の度合いを変化させて、通常の音量低下指示に対する音量低下処理より緩やかに音量低下を行う。制御部100は、処理を終了する。
【0057】
上述したように、本実施形態は、音声認識処理の認識率が低いほど、音量低下度合を小さくして、より緩やかに音量を低下する。本実施形態によれば、同乗者が眠っている状態である可能性が高いほど、より緩やかに音量を低下することができる。
【0058】
[第三実施形態]
図10、
図11を参照しながら、本実施形態に係る電子機器1について説明する。
図10は、第三実施形態に係る音声出力制御装置の構成例を示すブロック図である。
図11は、第三実施形態に係る音声出力制御装置における処理の流れを示すフローチャートである。電子機器1Aは、基本的な構成は第一実施形態の電子機器1と同様である。電子機器1Aは、制御部100Aの映像取得部101Aとオーディオ制御部107Aとにおける処理と、認識部109Aと判断部110Aとを備える点が電子機器1と異なる。
【0059】
映像取得部101Aは、運転者の周囲に存在する人物である同乗者を撮影した映像データをさらに取得する。より詳しくは、映像取得部101Aは、例えば、リヤビューミラー180の近傍に配置された図示しないカメラが撮影した車内の映像データを取得する。
【0060】
認識部109Aは、映像取得部101Aが取得した車内の映像データに基づいて、車内の同乗者の動作を認識する。認識部109Aは、車内の映像データの画像処理を行って、同乗者を認識して、認識した同乗者の動作を認識する。より詳しくは、車内の映像データの画像処理を行って、例えば、同乗者の目元を含む顔部、姿勢、または、寝ているか否かを判断可能な動作を認識する。
【0061】
判断部110Aは、認識部109Aの認識結果により、同乗者が寝ているか否かを判断する。例えば、判断部110Aは、認識部109Aの認識結果により、同乗者の瞼の開度が所定開度以下である状態が所定時間継続しているとき、同乗者が寝ていると判断する。例えば、判断部110Aは、認識部109Aの認識結果により、同乗者がシートに横になったり窓にもたれた状態が所定時間継続しているとき、同乗者が寝ていると判断する。所定時間は、例えば、1分程度とする。
【0062】
オーディオ制御部107Aは、判断部110Aが同乗者が寝ていると判断した場合において、音量低下指示を行った発話に対する音声認識部104または口唇動作認識部106による少なくともいずれかの認識結果が音量低下指示を示すとともに、口唇動作認識部106による認識結果に比べて音声認識部104による認識結果の認識率が低い場合、コンテンツ再生部108が再生している音声に対し通常の音量低下指示に対する音量低下処理より緩やかに音量低下を行う。
【0063】
オーディオ制御部107Aは、判断部110Aが同乗者が寝ていないと判断した場合において、音量低下指示を行った発話に対する音声認識部104または口唇動作認識部106による少なくともいずれかの認識結果が音量低下指示を示すとともに、口唇動作認識部106による認識結果に比べて音声認識部104による認識結果の認識率が低い場合、コンテンツ再生部108が再生している音声に対し通常の音量低下指示と同等、または、通常の音量低下処理より急激に音量低下を行ってもよい。例えば、同乗者が通話しているときのように、運転者が急いで音量を低下したいと考えていると推測されるためである。
【0064】
次に、
図11を用いて、電子機器1における処理の流れについて説明する。
図11に示すフローチャートのステップS31ないしステップS34、ステップS37ないしステップS40、ステップS41、ステップS42の処理は、
図8に示すフローチャートのステップS11ないしステップS14、ステップS15ないしステップS18、ステップS15、ステップS16の処理と同様の処理を行う。
【0065】
制御部100Aは、動作認識処理を実行する(ステップS35)。より詳しくは、制御部100Aは、認識部109Aによって、車内の同乗者の動作を認識する。制御部100Aは、ステップS36に進む。
【0066】
制御部100Aは、同乗者が寝ているか否かを判定する(ステップS36)。より詳しくは、制御部100Aは、判断部110Aによって、認識部109Aの認識結果により、同乗者が寝ていると判定した場合(ステップS36でYes)、ステップS37に進む。制御部100Aは、判断部110Aによって、認識部109Aの認識結果により、同乗者が寝ていないと判定した場合(ステップS36でNo)、ステップS41に進む。
【0067】
同乗者が寝ていないと判定され(ステップS36でNo)、音声認識処理と口唇動作認識処理との少なくともいずれかの認識結果が音量低下指示であると判定され(ステップS41でYes)、口唇動作認識部106の認識結果の認識率が音声認識部104の認識結果の認識率より高いと判定した場合(ステップS42でYes)、制御部100Aは、通常より急激に音量低下処理を実行する(ステップS43)。より詳しくは、制御部100Aは、音声出力処理部103によって、コンテンツ再生部108が再生している音声に対し通常の音量低下指示に対する音量低下処理より急激な音量低下を行う。制御部100Aは、処理を終了する。
【0068】
上述したように、本実施形態は、車内の映像によって、同乗者が寝ていることを判定する。これにより、本実施形態は、同乗者が寝ているときに限って、コンテンツ再生部108が再生している音声に対し通常の音量低下指示に対する音量低下処理より緩やかに音量低下を行うことができる。
【0069】
本実施形態は、同乗者が寝ていないときに、口唇動作認識処理の認識率が音声認識処理の認識率より高いと判定されると、コンテンツ再生部108が再生している音声に対し通常の音量低下指示に対する音量低下処理より急激に音量低下を行う。これにより、本実施形態は、例えば、同乗者が電話で通話している場合などに、運転者が小さい声で音量低下指示を行うと、急激に音量低下を行うことができる。本実施形態は、車内の同乗者の状態に応じて、適切に音量低下を行うことができる。
【0070】
さて、これまで本発明に係る電子機器1について説明したが、上述した実施形態以外にも種々の異なる形態にて実施されてよいものである。
【0071】
図示した電子機器1の各構成要素は、機能概念的なものであり、必ずしも物理的に図示の如く構成されていなくてもよい。すなわち、各装置の具体的形態は、図示のものに限られず、各装置の処理負担や使用状況などに応じて、その全部または一部を任意の単位で機能的または物理的に分散または統合してもよい。
【0072】
電子機器1の構成は、例えば、ソフトウェアとして、メモリにロードされたプログラムなどによって実現される。上記実施形態では、これらのハードウェアまたはソフトウェアの連携によって実現される機能ブロックとして説明した。すなわち、これらの機能ブロックについては、ハードウェアのみ、ソフトウェアのみ、または、それらの組み合わせによって種々の形で実現できる。
【0073】
上記した構成要素には、当業者が容易に想定できるもの、実質的に同一のものを含む。さらに、上記した構成は適宜組み合わせが可能である。また、本発明の要旨を逸脱しない範囲において構成の種々の省略、置換または変更が可能である。
【0074】
上記では、電子機器1が車載用オーディオ装置であるものとして説明したが、これに限定されない。電子機器1は、運転者が車内に持ち込んだ携帯用電子機器であってもよい。携帯用電子機器は、例えば、カメラとマイクロフォンとが運転者を向いた状態でダッシュボード160に固定される。
【0075】
上記では、音声出力制御装置として説明したが、他の装置にも適用可能である。例えば、ユーザの近傍者が眠っている状態で、照明装置に対して、ユーザが照明光量低下指示の音声操作を行った場合、急激に光量が低下しないように緩やかに光量を低下する投光制御装置に適用してもよい。この投光制御装置は、発話音声の音声データを取得して音声認識を行う音声認識部と、少なくとも発話者の口元を撮影した映像データを取得する映像取得部と、前記映像データから口唇部を検出するとともに、口唇部の動きを検出する口唇検出部と、前記口唇検出部が検出した口唇部の動きから発話内容を認識する口唇動作認識部と、照明光を投光する投光部と、音量低下指示を行った発話に対する前記音声認識部または前記口唇動作認識部による少なくともいずれかの認識結果が光量低下指示を示すとともに、前記口唇動作認識部による認識結果に比べて前記音声認識部による認識結果の認識率が低い場合、前記投光部が投光している照明光の光量を通常の光量低下指示に対する光量低下処理より緩やかに光量低下を行う光量制御部と、を備える。これにより、ユーザの近傍の他者の睡眠を阻害しない光量操作を可能にすることができる。
【符号の説明】
【0076】
1 電子機器
10 カメラ
20 マイクロフォン
30 スピーカ(音声出力部)
100 制御部(音声出力制御装置)
101 映像取得部
102 音声取得部
103 音声出力処理部
104 音声認識部
105 口唇検出部
106 口唇動作認識部
107 オーディオ制御部(音声制御部)
108 コンテンツ再生部