特許7010012 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ＪＶＣケンウッドの特許一覧

特許7010012音声出力制御装置、電子機器、音声出力制御方法およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-01-17

(45)【発行日】2022-01-26

(54)【発明の名称】音声出力制御装置、電子機器、音声出力制御方法およびプログラム

(51)【国際特許分類】

G10L 15/25 20130101AFI20220119BHJP

H04N 21/439 20110101ALI20220119BHJP

G10L 15/00 20130101ALI20220119BHJP

G10L 15/22 20060101ALI20220119BHJP

G10L 15/28 20130101ALI20220119BHJP

【ＦＩ】

G10L15/25

H04N21/439

G10L15/00 200Q

G10L15/22 453

G10L15/28 500

【請求項の数】 7

(21)【出願番号】P 2018005739

(22)【出願日】2018-01-17

(65)【公開番号】P2019124838

(43)【公開日】2019-07-25

【審査請求日】2020-10-30

(73)【特許権者】

【識別番号】308036402

【氏名又は名称】株式会社ＪＶＣケンウッド

(74)【代理人】

【識別番号】110002147

【氏名又は名称】特許業務法人酒井国際特許事務所

(72)【発明者】

【氏名】照内拓之

【審査官】中村天真

(56)【参考文献】

【文献】特開２０１５－０９６４１３（ＪＰ，Ａ）

【文献】特開２０１４－１３２３９６（ＪＰ，Ａ）

【文献】特開２０１０－１８５９７５（ＪＰ，Ａ）

【文献】特開２００６－０４４４２０（ＪＰ，Ａ）

【文献】特開２００５－２８４４９２（ＪＰ，Ａ）

【文献】特開２００４－２４６０９５（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１５／００－１５／３４

Ｈ０４Ｎ２１／００－２１／８５８

ＩＥＥＥＸｐｌｏｒｅ

(57)【特許請求の範囲】

【請求項1】

発話音声の音声データを取得して音声認識を行う音声認識部と、
少なくとも発話者の口元を撮影した映像データを取得する映像取得部と、
前記映像データから口唇部を検出するとともに、口唇部の動きを検出する口唇検出部と、
前記口唇検出部が検出した口唇部の動きから発話内容を認識する口唇動作認識部と、
少なくとも音声を含むコンテンツの再生を行うコンテンツ再生部と、
発話に対する前記音声認識部または前記口唇動作認識部による少なくともいずれかの認識結果が音量低下指示を示すとともに、前記口唇動作認識部による認識結果に比べて前記音声認識部による認識結果の認識率が低い場合、前記コンテンツ再生部が再生している音声に対し通常の音量低下指示に対する音量低下処理より緩やかに音量低下を行う音声制御部と、
を備える音声出力制御装置。

【請求項2】

前記音声制御部は、発話に対する前記口唇動作認識部による認識結果が音量低下指示を示すとともに、前記音声認識部による音声認識ができなかった場合、通常の音量低下指示に対する音量低下処理より緩やかに音量低下を行う、
請求項１に記載の音声出力制御装置。

【請求項3】

前記音声制御部は、前記口唇動作認識部による認識結果に比べて前記音声認識部による認識結果の認識率が低い場合、前記音声認識部による認識結果の認識率によって音量低下の度合いを変化させる、
請求項１に記載の音声出力制御装置。

【請求項4】

前記映像取得部は、前記発話者の周囲に存在する人物を撮影した映像データをさらに取得し、
前記映像取得部が取得した前記映像データに基づいて動作を認識する認識部と、
前記認識部の認識結果により前記発話者の周囲に存在する人物が寝ているか否かを判断する判断部とをさらに備え、
前記音声制御部は、前記判断部が前記発話者の周囲に存在する人物が寝ていると判断した場合において、発話に対する前記音声認識部または前記口唇動作認識部による少なくともいずれかの認識結果が音量低下指示を示すとともに、前記口唇動作認識部による認識結果に比べて前記音声認識部による認識結果の認識率が低い場合、前記コンテンツ再生部が再生している音声に対し通常の音量低下指示に対する音量低下処理より緩やかに音量低下を行う、
請求項１から３のいずれか一項に記載の音声出力制御装置。

【請求項5】

請求項１から４のいずれか一項に記載の音声出力制御装置と、
音声出力部と、
を備えることを特徴とする電子機器。

【請求項6】

発話音声の音声データを取得して音声認識を行う音声認識ステップと、
少なくとも発話者の口元を撮影した映像データを取得する映像取得ステップと、
前記映像データから口唇部を検出するとともに、口唇部の動きを検出する口唇検出ステップと、
前記口唇検出ステップによって検出した口唇部の動きから発話内容を認識する口唇動作認識ステップと、
少なくとも音声を含むコンテンツの再生を行うコンテンツ再生ステップと、
発話に対する前記音声認識ステップまたは前記口唇動作認識ステップによる少なくともいずれかの認識結果が音量低下指示を示すとともに、前記口唇動作認識ステップによる認識結果に比べて前記音声認識ステップによる認識結果の認識率が低い場合、前記コンテンツ再生ステップによって再生している音声に対し通常の音量低下指示に対する音量低下処理より緩やかに音量低下を行う音声制御ステップと、
を含むことを特徴とする音声出力制御方法。

【請求項7】

発話音声の音声データを取得して音声認識を行う音声認識ステップと、
少なくとも発話者の口元を撮影した映像データを取得する映像取得ステップと、
前記映像データから口唇部を検出するとともに、口唇部の動きを検出する口唇検出ステップと、
前記口唇検出ステップによって検出した口唇部の動きから発話内容を認識する口唇動作認識ステップと、
少なくとも音声を含むコンテンツの再生を行うコンテンツ再生ステップと、
発話に対する前記音声認識ステップまたは前記口唇動作認識ステップによる少なくともいずれかの認識結果が音量低下指示を示すとともに、前記口唇動作認識ステップによる認識結果に比べて前記音声認識ステップによる認識結果の認識率が低い場合、前記コンテンツ再生ステップによって再生している音声に対し通常の音量低下指示に対する音量低下処理より緩やかに音量低下を行う音声制御ステップと、
をコンピュータに実行させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音声出力制御装置、電子機器、音声出力制御方法およびプログラムに関する。

【背景技術】

【0002】

例えば、車載用電子機器を運転者が操作するインターフェースとして音声認識を使用したものが知られている。運転者の視聴状態に応じて、運転者に対する音声の出力を制御する技術が知られている（例えば、特許文献１参照）。オーディオ信号の出力レベルに音声認識の結果を反映させる技術が知られている（例えば、特許文献２参照）。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１２－１８６６２２号公報

【文献】特開２０１１－０２７７５７号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

車両の同乗者が寝ている場合、運転者は、車載用電子機器が再生するコンテンツの音量を低下する操作を行うことがある。ところが、音量低下指示を音声操作によって行うと、運転者の発声した音声によって同乗者を起こしてしまうおそれがある。また、コンテンツの音量を急激に変化させると、同乗者を起こしてしまうおそれがある。

【0005】

本発明は、上記に鑑みてなされたものであって、例えば、同乗者を含む近傍の他者の睡眠を阻害しない音量操作を可能にすることを目的とする。

【課題を解決するための手段】

【0006】

上述した課題を解決し、目的を達成するために、本発明に係る表示制御装置は、発話音声の音声データを取得して音声認識を行う音声認識部と、少なくとも発話者の口元を撮影した映像データを取得する映像取得部と、前記映像データから口唇部を検出するとともに、口唇部の動きを検出する口唇検出部と、前記口唇検出部が検出した口唇部の動きから発話内容を認識する口唇動作認識部と、少なくとも音声を含むコンテンツの再生を行うコンテンツ再生部と、発話に対する前記音声認識部または前記口唇動作認識部による少なくともいずれかの認識結果が音量低下指示を示すとともに、前記口唇動作認識部による認識結果に比べて前記音声認識部による認識結果の認識率が低い場合、前記コンテンツ再生部が再生している音声に対し通常の音量低下指示に対する音量低下処理より緩やかに音量低下を行う音声制御部と、を備えることを特徴とする。

【0007】

本発明に係る電子機器は、上記の表示制御装置と、音声出力部と、を備えることを特徴とする。

【0008】

本発明に係る表示制御方法は、発話音声の音声データを取得して音声認識を行う音声認識ステップと、少なくとも発話者の口元を撮影した映像データを取得する映像取得ステップと、前記映像データから口唇部を検出するとともに、口唇部の動きを検出する口唇検出ステップと、前記口唇検出ステップによって検出した口唇部の動きから発話内容を認識する口唇動作認識ステップと、少なくとも音声を含むコンテンツの再生を行うコンテンツ再生ステップと、発話に対する前記音声認識ステップまたは前記口唇動作認識ステップによる少なくともいずれかの認識結果が音量低下指示を示すとともに、前記口唇動作認識ステップによる認識結果に比べて前記音声認識ステップによる認識結果の認識率が低い場合、前記コンテンツ再生ステップによって再生している音声に対し通常の音量低下指示に対する音量低下処理より緩やかに音量低下を行う音声制御ステップと、を含む。

【0009】

本発明に係るプログラムは、発話音声の音声データを取得して音声認識を行う音声認識ステップと、少なくとも発話者の口元を撮影した映像データを取得する映像取得ステップと、前記映像データから口唇部を検出するとともに、口唇部の動きを検出する口唇検出ステップと、前記口唇検出ステップによって検出した口唇部の動きから発話内容を認識する口唇動作認識ステップと、少なくとも音声を含むコンテンツの再生を行うコンテンツ再生ステップと、発話に対する前記音声認識ステップまたは前記口唇動作認識ステップによる少なくともいずれかの認識結果が音量低下指示を示すとともに、前記口唇動作認識ステップによる認識結果に比べて前記音声認識ステップによる認識結果の認識率が低い場合、前記コンテンツ再生ステップによって再生している音声に対し通常の音量低下指示に対する音量低下処理より緩やかに音量低下を行う音声制御ステップと、をコンピュータに実行させる。

【発明の効果】

【0010】

本発明によれば、例えば、同乗者を含む近傍の他者の睡眠を阻害しない音量操作を可能にすることができるという効果を奏する。

【図面の簡単な説明】

【0011】

【図1】図１は、第一実施形態に係る音声出力制御装置の構成例を示すブロック図である。

【図2】図２は、第一実施形態に係る音声出力制御装置の構成例を示す概略図である。

【図3】図３は、口唇部を説明する図であり、口唇を閉じた状態を示す。

【図4】図４は、口唇部の動きの一例を説明する図である。

【図5】図５は、音声認識処理の処理結果と口唇動作認識処理の処理結果と認識率とを説明する図である。

【図6】図６は、音声認識処理の処理結果と口唇動作認識処理の処理結果と認識率とを説明する図である。

【図7】図７は、第一実施形態に係る音声出力制御装置による音量低下処理の一例を説明する図である。

【図8】図８は、第一実施形態に係る音声出力制御装置における処理の流れを示すフローチャートである。

【図9】図９は、第二実施形態に係る音声出力制御装置における処理の流れを示すフローチャートである。

【図10】図１０は、第三実施形態に係る音声出力制御装置の構成例を示すブロック図である。

【図11】図１１は、第三実施形態に係る音声出力制御装置における処理の流れを示すフローチャートである。

【発明を実施するための形態】

【0012】

以下に添付図面を参照して、本発明に係る音声出力制御装置、電子機器、音声出力制御方法およびプログラムの実施形態を詳細に説明する。なお、以下の実施形態により本発明が限定されるものではない。

【0013】

［第一実施形態］
図１は、第一実施形態に係る音声出力制御装置の構成例を示すブロック図である。図２は、第一実施形態に係る音声出力制御装置の構成例を示す概略図である。電子機器１は、例えば、映像または音楽などの音声を含むコンテンツのコンテンツ再生機能を有する。

【0014】

コンテンツは、例えば、メモリ、ディスクを含む記録媒体に記憶されていてもよい。コンテンツは、例えば、ストリーミング配信されたものをダウンロードしてもよいし、放送波から受信してもよい。

【0015】

電子機器１は、音声出力制御装置として機能する制御部１００によって、コンテンツ再生時に音量が制御される。電子機器１は、例えば、車載用オーディオ装置またはナビゲーション装置または可搬型の携帯用電子機器である。本実施形態では、電子機器１は、車載用オーディオ装置であるものとして説明する。電子機器１は、カメラ１０とマイクロフォン２０とスピーカ（音声出力部）３０と制御部１００とを有する。

【0016】

カメラ１０は、少なくとも発話者の口唇部２００を含んだ口元を含む映像を撮影する。本実施形態では、発話者が車両の運転者であるものとするが、これに限定されない。発話者は、車両の同乗者であってもよい。本実施形態では、カメラ１０は、運転者の顔部の映像を撮影する。カメラ１０は、通話時に少なくとも運転者の口唇部２００を撮影可能な位置に配置されている。本実施形態では、カメラ１０は、ダッシュボード１６０の運転者の正面に配置されたクラスターパネル１７０に、運転者に対面して取り付けられている。カメラ１０は、ステアリングホイール１９０に配置されている、図示しない認識操作開始スイッチが押下されると、撮影を開始する。カメラ１０は、電子機器１の動作中、または、コンテンツの再生中、常時、撮影を行ってもよい。または、カメラ１０は、電子機器１の動作中、または、コンテンツの再生中、撮影待機状態であり、マイクロフォン２０が音声を取得すると、撮影を開始してもよい。カメラ１０は、撮影した映像データを制御部１００の映像取得部１０１に出力する。

【0017】

マイクロフォン２０は、運転者の発話音声の音声信号を取得する。本実施形態では、マイクロフォン２０は、ダッシュボード１６０の運転者の正面に配置されたクラスターパネル１７０に、運転者に対面して取り付けられている。マイクロフォン２０は、ステアリングホイール１９０に配置されている、認識操作開始スイッチが押下されると、音声信号の取得を開始する。マイクロフォン２０は、電子機器１の動作中、または、コンテンツの再生中、常時、音声信号を取得してもよい。または、マイクロフォン２０は、電子機器１の動作中、または、コンテンツの再生中、待機状態であり、カメラ１０が撮影を開始すると、音声信号の取得を開始してもよい。マイクロフォン２０は、取得した音声信号を制御部１００の音声取得部１０２に出力する。

【0018】

スピーカ３０は、音声出力制御装置である。スピーカ３０は、制御部１００の音声出力処理部１０３から出力された音声信号に基づきコンテンツの音声を出力する。

【0019】

制御部１００は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などで構成された演算処理装置である。制御部１００は、記憶部１２０に記憶されているプログラムをメモリにロードして、プログラムに含まれる命令を実行する。制御部１００は、映像取得部１０１と音声取得部１０２と音声出力処理部１０３と音声認識部１０４と口唇検出部１０５と口唇動作認識部１０６とオーディオ制御部（音声制御部）１０７とコンテンツ再生部１０８とを有する。制御部１００には図示しない内部メモリが含まれ、内部メモリは制御部１００におけるデータの一時記憶などに用いられる。

【0020】

映像取得部１０１は、少なくとも発話者の口唇部２００を含む口元を撮影した映像データを取得する。本実施形態では、映像取得部１０１は、少なくとも運転者の口唇部２００を含む口元をカメラ１０が撮影した映像データを取得する。より詳しくは、映像取得部１０１は、カメラ１０が出力した映像信号に符号化処理などを実行して、デジタルデータである映像データを取得する。映像取得部１０１は、取得した映像データを口唇検出部１０５に出力する。

【0021】

音声取得部１０２は、発話者の発話音声の音声データを取得する。より詳しくは、音声取得部１０２は、マイクロフォン２０が出力した音声信号にＡ／Ｄ（Ａｎａｌｏｇ／Ｄｉｇｉｔａｌ）変換処理を実行して、デジタルデータである音声データを取得する。音声取得部１０２は、取得した音声データを音声認識部１０４とオーディオ制御部１０７とに出力する。

【0022】

音声出力処理部１０３は、コンテンツ再生部１０８からの制御信号に基づいて、コンテンツの音声データに復号化処理とＤ／Ａ（Ｄｉｇｉｔａｌ／Ａｎａｌｏｇ）変換処理とを実行して、音声信号をスピーカ３０に出力する。音声出力処理部１０３は、オーディオ制御部１０７からの制御信号に応じて音量を変更可能として音声信号をスピーカ３０に出力する。音量の変更とは、音量の低下または上昇である。コンテンツの音声データとは、例えば、オーディオコンテンツのオーディオデータ、ビデオコンテンツのオーディオデータなどである。

【0023】

音声認識部１０４は、音声取得部１０２が取得した音声データから音声を認識する音声認識処理を実行する。音声認識処理は、音素ごと、単語ごとなど任意の単位で行えばよい。音声認識処理の方法は、公知のいずれの方法でもよく、限定されない。音声認識部１０４は、認識結果をオーディオ制御部１０７に出力する。

【0024】

より詳しくは、音声認識部１０４は、公知の音声認識処理と単語辞書データを参照した認識結果に基づいて発話内容に含まれる語句を推定する。音声認識部１０４は、「音量」、「音」、「ボリューム」、「音声」など音量または音声を示す語句と、「下げ」、「小さく」、「低下」など音量低下の指示を示す語句とが連続して認識されたとき、発話内容が音量低下指示であると判断する。

【0025】

口唇検出部１０５は、映像取得部１０１が取得した映像データから口唇部２００を検出するとともに、口唇部２００の動きを検出する。より詳しくは、口唇検出部１０５は、映像データに顔認識処理を行って、口唇部２００を検出する。または、口唇検出部１０５は、例えば、口唇辞書データを参照しながら画像認識処理を行って、口唇部２００を認識する。口唇検出部１０５は、検出した口唇部２００の動きを検出する。口唇検出部１０５は、検出結果を口唇動作認識部１０６に出力する。

【0026】

口唇動作認識部１０６は、口唇検出部１０５が検出した口唇部２００の動きから発話内容を認識する。より詳しくは、口唇動作認識部１０６は、口唇辞書データを参照しながら画像認識処理を行って、発話内容を認識する。口唇動作認識処理は、音素ごと、単語ごとなど任意の単位で行えばいよい。口唇動作認識部１０６は、認識結果をオーディオ制御部１０７に出力する。

【0027】

より詳しくは、口唇動作認識部１０６は、公知の口唇動作認識処理によって発話内容に含まれる語句を推定する。口唇動作認識部１０６は、「音量」、「音」、「ボリューム」、「音声」など音量または音声を示す語句と、「下げ」、「小さく」、「低下」など音量低下の指示を示す語句とが連続して認識されたとき、発話内容が音量低下指示であると判断する。

【0028】

図３、図４を参照して、口唇動作認識処理について説明する。図３は、口唇部を説明する図であり、口唇を閉じた状態を示す。図３に示す、口唇を閉じた状態における各部位の位置を基本位置とする。図４は、口唇部の動きの一例を説明する図である。本実施形態では、口唇動作認識部１０６は、例えば、口唇部２００の部位Ｐ１から部位Ｐ８の動きを検出することで、口唇部２００の動作を検出する。口唇部２００の各部位は、これらに限定されず、口唇部２００の動きを読み取ることができる部位であればよい。部位Ｐ１は、右側の口角である。部位Ｐ１の動きをベクトルＶ１で示す。ベクトルＶ１は、部位Ｐ１の基本位置に対する動きを示す。本実施形態で示す例では、ベクトルＶ１は、部位Ｐ１の動きが小さいため、図示を省略している。各図において、部位Ｐ１は、基本位置を図示している。他の部位についても同様である。部位Ｐ２は、左側の口角である。部位Ｐ２の動きをベクトルＶ２で示す。本実施形態で示す例では、ベクトルＶ２は、部位Ｐ２の動きが小さいため、図示を省略している。部位Ｐ３は、上唇の右側の上端部である。部位Ｐ３の動きをベクトルＶ３で示す。部位Ｐ４は、上唇の左側の上端部である。部位Ｐ４の動きをベクトルＶ４で示す。部位Ｐ５は、上唇の中央部の下端部である。部位Ｐ５の動きをベクトルＶ５で示す。部位Ｐ６は、下唇の右側の下端部である。部位Ｐ６の動きをベクトルＶ６で示す。部位Ｐ７は、下唇の左側の下端部である。部位Ｐ７の動きをベクトルＶ７で示す。部位Ｐ８は、下唇の中央部の上端部である。部位Ｐ８の動きをベクトルＶ８とする。

【0029】

各ベクトルＶは、各部位Ｐについて、ひとつ前または所定数前のフレームの映像データの口唇部２００の各部位Ｐに対する動きとして示してもよい。

【0030】

各ベクトルＶは、各部位Ｐについて、ある音素から次の音素を発するときの、口唇部２００の各部位Ｐに対する動きとして示してもよい。

【0031】

オーディオ制御部１０７は、例えば、同乗者が寝ているために、運転者が、コンテンツ再生部１０８が再生している音声に対する音量低下指示の音声操作を小さい声で行った場合に、急激に音量が低下しないように緩やかに音量を低下する。より詳しくは、オーディオ制御部１０７は、音量低下指示を行った発話に対する音声認識部１０４または口唇動作認識部１０６による少なくともいずれかの認識結果が音量低下指示を示すとともに、口唇動作認識部１０６による認識結果に比べて音声認識部１０４による認識結果の認識率が低い場合、コンテンツ再生部１０８が再生している音声に対し通常の音量低下指示に対する音量低下処理より緩やかに音量低下を行う。オーディオ制御部１０７は、音量低下を実行する制御信号を音声出力処理部１０３に出力する。

【0032】

認識率は、発話内容と認識結果とを比較して算出する。認識率は、例えば、発話内容と認識結果とがすべて一致したら１００％である。例えば、「おんりょうさげて」と発話したものを、口唇動作認識部１０６が「おんりょうさげて」と認識し、音声認識部１０４が「おんりょうさげて」と認識した場合について説明する。認識結果の「おんりょうさげて」の単語は、音量低下指示の単語として成立しているので、口唇動作認識処理と音声認識処理の認識率はいずれも１００％である。口唇動作認識処理と音声認識処理の認識率がいずれも１００％であるとき、音量低下指示は十分な声量かつ明瞭な発声でなされたことを示す。このとき、同乗者は寝ている状態ではないと推測される。認識率は、発話内容に対して認識結果の文字が不明瞭であったり、誤って挿入、削除、置換されると低く算出される。

【0033】

図５を参照して、認識率について説明する。図５は、音声認識処理の処理結果と口唇動作認識処理の処理結果と認識率とを説明する図である。例えば、「おんりょうさげて」と発話したものを、口唇動作認識部１０６が「おんりょうさげて」と認識し、音声認識部１０４が「？んりょうさ？て」と認識した場合について説明する。「？」は、文字を認識できなかったことを示す。この場合、口唇動作認識処理の認識率は１００％である。音声認識処理の認識率は７５％である。口唇動作認識処理に対して音声認識処理の認識率が低いとき、音量低下指示は声量が不十分または不明瞭な発声でなされたことを示す。このとき、同乗者は寝ている状態であると推測される。

【0034】

図６を参照して、認識率について説明する。図６は、音声認識処理の処理結果と口唇動作認識処理の処理結果と認識率とを説明する図である。例えば、「おんりょうさげて」と発話したものを、口唇動作認識部１０６が「おんりょうさげて」と認識し、音声認識部１０４が「ほんりょうさげへ」と認識した場合について説明する。この場合、口唇動作認識処理の認識率は１００％である。音声認識処理の認識率は７５％である。口唇動作認識処理に対して音声認識処理の認識率が低いとき、音量低下指示は声量が不十分または不明瞭な発声でなされたことを示す。このとき、同乗者は寝ている状態であると推測される。

【0035】

また、オーディオ制御部１０７は、音量低下指示を行った発話に対する音声認識部１０４または口唇動作認識部１０６による少なくともいずれかの認識結果が音量低下指示を示すとともに、音声認識部１０４による音声認識ができなかった場合、通常の音量低下指示に対する音量低下処理より緩やかに音量低下を行うようにしてもよい。さらにまた、オーディオ制御部１０７は、音量低下指示を行った発話に対する音声認識部１０４または口唇動作認識部１０６による少なくともいずれかの認識結果が音量低下指示を示すとともに、音声認識部１０４による認識結果の認識率が閾値以下である場合、通常の音量低下指示に対する音量低下処理より緩やかに音量低下を行うようにしてもよい。

【0036】

音声認識処理の認識率が閾値以下であるとき、または、音声認識部１０４によって発話内容を認識できなかったとき、音量低下指示は非常に小さい声での指示、または、発声を伴わない口唇の動作のみでなされたことを示す。例えば、閾値は、５０％とする。このときも、同乗者は寝ている状態であると推測される。

【0037】

図７を参照して、オーディオ制御部１０７が行う音量低下処理について説明する。図７は、第一実施形態に係る音声出力制御装置による音量低下処理の一例を説明する図である。破線は、通常の音量低下指示による音量の変化を示す。実線は、口唇動作認識部１０６による認識結果に比べて音声認識部１０４による認識結果の認識率が低いと判定された場合の、音量低下指示による音量の変化を示す。破線で示す通常の音量低下処理では、時刻Ｔ１において音量低下指示が検出されると、時刻Ｔ１から時刻Ｔ２までの時間Δｔ１の間に、音量をΔｖ低下する。実線で示す音量低下処理では、時刻Ｔ１において音量低下指示が検出されると、時刻Ｔ１から時刻Ｔ３までの時間Δｔ２（＞Δｔ１）の間に、音量をΔｖ低下する。実線で示す音量低下処理は、破線で示す通常の音量低下処理に比べて、緩やかに音量が低下する。

【0038】

音量の低下量は、運転者の指示に応じて設定してもよい。音量の低下量は、音量低下指示時のボリューム位置が示していた値から、例えば、６ｄＢなど所定量としてもよい。音量の低下量は、音量低下指示時のボリューム位置が示していた値から、例えば、２５％など所定率としてもよい。

【0039】

コンテンツ再生部１０８は、少なくとも音声を含むコンテンツの再生を行う。コンテンツ再生部１０８は、コンテンツの音声を再生する制御信号を音声出力処理部１０３に出力する。

【0040】

図１に戻って、記憶部１２０は、電子機器１におけるデータの一時記憶などに用いられる。記憶部１２０は、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フラッシュメモリ（ＦｌａｓｈＭｅｍｏｒｙ）などの半導体メモリ素子、または、ハードディスク、光ディスクなどの記憶装置である。または、図示しない音声出力制御装置を介して無線接続される外部記憶装置であってもよい。記憶部１２０は、口唇辞書データを記憶している。

【0041】

次に、図８を用いて、電子機器１の制御部１００における処理の流れについて説明する。図８は、第一実施形態に係る音声出力制御装置における処理の流れを示すフローチャートである。電子機器１がコンテンツを再生しているものとする。運転者が認識操作開始スイッチを押下すると、ステップＳ１１以降の処理が実行される。

【0042】

制御部１００は、運転者の発話音声および運転者の顔部の映像を取得する（ステップＳ１１）。より詳しくは、制御部１００は、音声取得部１０２によって運転者の発話音声の音声データを取得する。制御部１００は、映像取得部１０１によって運転者の顔部の映像データを取得する。制御部１００は、ステップＳ１２に進む。

【0043】

制御部１００は、口唇検出処理を実行する（ステップＳ１２）。より詳しくは、制御部１００は、口唇検出部１０５によって、映像取得部１０１が取得した映像データから口唇部２００を検出するとともに、口唇部２００の動きを検出する。制御部１００は、ステップＳ１３に進む。

【0044】

制御部１００は、口唇動作認識処理を実行する（ステップＳ１３）。より詳しくは、制御部１００は、口唇動作認識部１０６によって、口唇検出部１０５が検出した口唇部２００の動きから発話内容を認識する。制御部１００は、ステップＳ１４に進む。

【0045】

制御部１００は、音声認識処理を実行する（ステップＳ１４）。より詳しくは、制御部１００は、音声認識部１０４によって、音声取得部１０２が取得した音声データから音声を認識する音声認識処理を実行する。制御部１００は、ステップＳ１５に進む。

【0046】

制御部１００は、音量低下指示があるか否かを判定する（ステップＳ１５）。より詳しくは、制御部１００は、オーディオ制御部１０７によって、音量低下指示を行った発話に対する音声認識部１０４または口唇動作認識部１０６による少なくともいずれかの認識結果が音量低下指示を示すか否かを判定する。制御部１００は、オーディオ制御部１０７によって、音声認識処理と口唇動作認識処理との少なくともいずれかの認識結果が音量低下指示であると判定した場合（ステップＳ１５でＹｅｓ）、ステップＳ１６に進む。制御部１００は、オーディオ制御部１０７によって、音声認識処理と口唇動作認識処理との認識結果がどちらも音量低下指示ではないと判定した場合（ステップＳ１５でＮｏ）、処理を終了する。

【0047】

制御部１００は、口唇動作認識率が音声認識率より高いか否かを判定する（ステップＳ１６）。より詳しくは、制御部１００は、オーディオ制御部１０７によって、口唇動作認識部１０６の認識結果の認識率が音声認識部１０４の認識結果の認識率より高いと判定した場合（ステップＳ１６でＹｅｓ）、ステップＳ１７に進む。ステップＳ１６でＹｅｓと判定されるとき、同乗者が寝ているため、運転者が小さい声で音量低下指示を発声している可能性がある。制御部１００は、口唇動作認識部１０６の認識結果の認識率が音声認識部１０４の認識結果の認識率より高くないと判定した場合（ステップＳ１６でＮｏ）、ステップＳ１８に進む。

【0048】

口唇動作認識処理の認識率が音声認識処理の認識率より高いと判定された場合（ステップＳ１６でＹｅｓ）、制御部１００は、通常より緩やかに音量低下処理を実行する（ステップＳ１７）。より詳しくは、制御部１００は、音声出力処理部１０３によって、コンテンツ再生部１０８が再生している音声に対し通常の音量低下指示に対する音量低下処理より緩やかに音量低下を行う。制御部１００は、例えば、図７に実線で示す音量低下処理を実行する。制御部１００は、処理を終了する。

【0049】

口唇動作認識処理の認識率が音声認識処理の認識率より高くないと判定された場合（ステップＳ１６でＮｏ）、制御部１００は、通常の音量低下処理を実行する（ステップＳ１８）。より詳しくは、制御部１００は、音声出力処理部１０３によって、コンテンツ再生部１０８が再生している音声に対し通常の音量低下指示に対する音量低下処理を実行する。制御部１００は、例えば、図７に破線で示す音量低下処理を実行する。制御部１００は、処理を終了する。ステップＳ１８で実行される音量低下処理の音量低下度合が例えば２ｄＢ／ｓｅｃである場合、ステップＳ１７で実行される音量低下処理の音量低下度合を例えば毎秒６ｄＢ／ｓｅｃとする。

【0050】

このようにして、音声認識処理または口唇動作認識処理による少なくともいずれかの認識結果が音量低下指示を示すとともに、口唇動作認識処理に比べて音声認識処理の認識率が低い場合、コンテンツ再生部１０８が再生している音声に対し通常の音量低下指示に対する音量低下処理より緩やかに音量低下を行う。

【0051】

上述したように、本実施形態は、音声認識処理または口唇動作認識処理の少なくともいずれかの認識結果が音量低下指示であり、口唇動作認識処理の認識率が音声認識処理の認識率より高いと判定された場合、急激に音量が低下しないように緩やかに音量を低下する。本実施形態は、例えば、同乗者が寝ているために運転者が小さな声で音声低下指示をした場合、急激に音量が低下しないように緩やかに音量を低下する。本実施形態によれば、同乗者が寝ている場合、運転者が大きな声で音声操作することによって、同乗者を起こしてしまうおそれを低減することができる。また、本実施形態は、急激に音量を変化させて、同乗者を起こしてしまうおそれを低減することができる。このように、本実施形態は、同乗者を含む近傍の他者の睡眠を阻害しない音量操作をすることができる。

【0052】

［第二実施形態］
図９を参照しながら、本実施形態に係る電子機器１について説明する。図９は、第二実施形態に係る音声出力制御装置における処理の流れを示すフローチャートである。電子機器１は、基本的な構成は第一実施形態の電子機器１と同様である。以下の説明においては、電子機器１と同様の構成要素には、同一の符号または対応する符号を付し、その詳細な説明は省略する。電子機器１は、制御部１００のオーディオ制御部１０７における処理が第一実施形態の電子機器１と異なる。

【0053】

オーディオ制御部１０７は、口唇動作認識部１０６による認識結果に比べて音声認識部１０４による認識結果の認識率が低い場合、音声認識部１０４による認識結果の認識率によって音量低下の度合いを変化させる制御信号を音声出力処理部１０３に出力する。オーディオ制御部１０７は、音声認識処理の認識率が低いほど、音量低下度合を小さくして、より緩やかに音量を低下する。言い換えると、オーディオ制御部１０７は、音声低下指示の声量が小さいほど、音量低下度合を小さくして、より緩やかに音量を低下する。このようにするのは、音声低下指示の声量が小さいほど、同乗者が寝ている状態である可能性が高いと推測されるためである。または、音声低下指示の声量が小さいほど、運転者が同乗者の睡眠をより阻害したくないと考えていると推測されるためである。

【0054】

例えば、オーディオ制御部１０７は、音声認識処理の認識率が９０％以上である場合、音量低下度合を６ｄＢ／ｓｅｃとする。例えば、オーディオ制御部１０７は、音声認識処理の認識率が５０％以上９０％未満である場合、音量低下度合を４ｄＢ／ｓｅｃとする。例えば、オーディオ制御部１０７は、音声認識処理の認識率が５０％未満である場合、音量低下度合を２ｄＢ／ｓｅｃとする。

【0055】

次に、図９を用いて、電子機器１における処理の流れについて説明する。図９に示すフローチャートのステップＳ２１ないしステップＳ２６、ステップＳ２８の処理は、図８に示すフローチャートのステップＳ１１ないしステップＳ１６、ステップＳ１８の処理と同様の処理を行う。

【0056】

制御部１００は、音声認識率に応じて、通常より緩やかに音量低下処理を実行する（ステップＳ２７）。より詳しくは、制御部１００は、音声出力処理部１０３によって、音声認識部１０４による認識結果の認識率によって音量低下の度合いを変化させて、通常の音量低下指示に対する音量低下処理より緩やかに音量低下を行う。制御部１００は、処理を終了する。

【0057】

上述したように、本実施形態は、音声認識処理の認識率が低いほど、音量低下度合を小さくして、より緩やかに音量を低下する。本実施形態によれば、同乗者が眠っている状態である可能性が高いほど、より緩やかに音量を低下することができる。

【0058】

［第三実施形態］
図１０、図１１を参照しながら、本実施形態に係る電子機器１について説明する。図１０は、第三実施形態に係る音声出力制御装置の構成例を示すブロック図である。図１１は、第三実施形態に係る音声出力制御装置における処理の流れを示すフローチャートである。電子機器１Ａは、基本的な構成は第一実施形態の電子機器１と同様である。電子機器１Ａは、制御部１００Ａの映像取得部１０１Ａとオーディオ制御部１０７Ａとにおける処理と、認識部１０９Ａと判断部１１０Ａとを備える点が電子機器１と異なる。

【0059】

映像取得部１０１Ａは、運転者の周囲に存在する人物である同乗者を撮影した映像データをさらに取得する。より詳しくは、映像取得部１０１Ａは、例えば、リヤビューミラー１８０の近傍に配置された図示しないカメラが撮影した車内の映像データを取得する。

【0060】

認識部１０９Ａは、映像取得部１０１Ａが取得した車内の映像データに基づいて、車内の同乗者の動作を認識する。認識部１０９Ａは、車内の映像データの画像処理を行って、同乗者を認識して、認識した同乗者の動作を認識する。より詳しくは、車内の映像データの画像処理を行って、例えば、同乗者の目元を含む顔部、姿勢、または、寝ているか否かを判断可能な動作を認識する。

【0061】

判断部１１０Ａは、認識部１０９Ａの認識結果により、同乗者が寝ているか否かを判断する。例えば、判断部１１０Ａは、認識部１０９Ａの認識結果により、同乗者の瞼の開度が所定開度以下である状態が所定時間継続しているとき、同乗者が寝ていると判断する。例えば、判断部１１０Ａは、認識部１０９Ａの認識結果により、同乗者がシートに横になったり窓にもたれた状態が所定時間継続しているとき、同乗者が寝ていると判断する。所定時間は、例えば、１分程度とする。

【0062】

オーディオ制御部１０７Ａは、判断部１１０Ａが同乗者が寝ていると判断した場合において、音量低下指示を行った発話に対する音声認識部１０４または口唇動作認識部１０６による少なくともいずれかの認識結果が音量低下指示を示すとともに、口唇動作認識部１０６による認識結果に比べて音声認識部１０４による認識結果の認識率が低い場合、コンテンツ再生部１０８が再生している音声に対し通常の音量低下指示に対する音量低下処理より緩やかに音量低下を行う。

【0063】

オーディオ制御部１０７Ａは、判断部１１０Ａが同乗者が寝ていないと判断した場合において、音量低下指示を行った発話に対する音声認識部１０４または口唇動作認識部１０６による少なくともいずれかの認識結果が音量低下指示を示すとともに、口唇動作認識部１０６による認識結果に比べて音声認識部１０４による認識結果の認識率が低い場合、コンテンツ再生部１０８が再生している音声に対し通常の音量低下指示と同等、または、通常の音量低下処理より急激に音量低下を行ってもよい。例えば、同乗者が通話しているときのように、運転者が急いで音量を低下したいと考えていると推測されるためである。

【0064】

次に、図１１を用いて、電子機器１における処理の流れについて説明する。図１１に示すフローチャートのステップＳ３１ないしステップＳ３４、ステップＳ３７ないしステップＳ４０、ステップＳ４１、ステップＳ４２の処理は、図８に示すフローチャートのステップＳ１１ないしステップＳ１４、ステップＳ１５ないしステップＳ１８、ステップＳ１５、ステップＳ１６の処理と同様の処理を行う。

【0065】

制御部１００Ａは、動作認識処理を実行する（ステップＳ３５）。より詳しくは、制御部１００Ａは、認識部１０９Ａによって、車内の同乗者の動作を認識する。制御部１００Ａは、ステップＳ３６に進む。

【0066】

制御部１００Ａは、同乗者が寝ているか否かを判定する（ステップＳ３６）。より詳しくは、制御部１００Ａは、判断部１１０Ａによって、認識部１０９Ａの認識結果により、同乗者が寝ていると判定した場合（ステップＳ３６でＹｅｓ）、ステップＳ３７に進む。制御部１００Ａは、判断部１１０Ａによって、認識部１０９Ａの認識結果により、同乗者が寝ていないと判定した場合（ステップＳ３６でＮｏ）、ステップＳ４１に進む。

【0067】

同乗者が寝ていないと判定され（ステップＳ３６でＮｏ）、音声認識処理と口唇動作認識処理との少なくともいずれかの認識結果が音量低下指示であると判定され（ステップＳ４１でＹｅｓ）、口唇動作認識部１０６の認識結果の認識率が音声認識部１０４の認識結果の認識率より高いと判定した場合（ステップＳ４２でＹｅｓ）、制御部１００Ａは、通常より急激に音量低下処理を実行する（ステップＳ４３）。より詳しくは、制御部１００Ａは、音声出力処理部１０３によって、コンテンツ再生部１０８が再生している音声に対し通常の音量低下指示に対する音量低下処理より急激な音量低下を行う。制御部１００Ａは、処理を終了する。

【0068】

上述したように、本実施形態は、車内の映像によって、同乗者が寝ていることを判定する。これにより、本実施形態は、同乗者が寝ているときに限って、コンテンツ再生部１０８が再生している音声に対し通常の音量低下指示に対する音量低下処理より緩やかに音量低下を行うことができる。

【0069】

本実施形態は、同乗者が寝ていないときに、口唇動作認識処理の認識率が音声認識処理の認識率より高いと判定されると、コンテンツ再生部１０８が再生している音声に対し通常の音量低下指示に対する音量低下処理より急激に音量低下を行う。これにより、本実施形態は、例えば、同乗者が電話で通話している場合などに、運転者が小さい声で音量低下指示を行うと、急激に音量低下を行うことができる。本実施形態は、車内の同乗者の状態に応じて、適切に音量低下を行うことができる。

【0070】

さて、これまで本発明に係る電子機器１について説明したが、上述した実施形態以外にも種々の異なる形態にて実施されてよいものである。

【0071】

図示した電子機器１の各構成要素は、機能概念的なものであり、必ずしも物理的に図示の如く構成されていなくてもよい。すなわち、各装置の具体的形態は、図示のものに限られず、各装置の処理負担や使用状況などに応じて、その全部または一部を任意の単位で機能的または物理的に分散または統合してもよい。

【0072】

電子機器１の構成は、例えば、ソフトウェアとして、メモリにロードされたプログラムなどによって実現される。上記実施形態では、これらのハードウェアまたはソフトウェアの連携によって実現される機能ブロックとして説明した。すなわち、これらの機能ブロックについては、ハードウェアのみ、ソフトウェアのみ、または、それらの組み合わせによって種々の形で実現できる。

【0073】

上記した構成要素には、当業者が容易に想定できるもの、実質的に同一のものを含む。さらに、上記した構成は適宜組み合わせが可能である。また、本発明の要旨を逸脱しない範囲において構成の種々の省略、置換または変更が可能である。

【0074】

上記では、電子機器１が車載用オーディオ装置であるものとして説明したが、これに限定されない。電子機器１は、運転者が車内に持ち込んだ携帯用電子機器であってもよい。携帯用電子機器は、例えば、カメラとマイクロフォンとが運転者を向いた状態でダッシュボード１６０に固定される。

【0075】

上記では、音声出力制御装置として説明したが、他の装置にも適用可能である。例えば、ユーザの近傍者が眠っている状態で、照明装置に対して、ユーザが照明光量低下指示の音声操作を行った場合、急激に光量が低下しないように緩やかに光量を低下する投光制御装置に適用してもよい。この投光制御装置は、発話音声の音声データを取得して音声認識を行う音声認識部と、少なくとも発話者の口元を撮影した映像データを取得する映像取得部と、前記映像データから口唇部を検出するとともに、口唇部の動きを検出する口唇検出部と、前記口唇検出部が検出した口唇部の動きから発話内容を認識する口唇動作認識部と、照明光を投光する投光部と、音量低下指示を行った発話に対する前記音声認識部または前記口唇動作認識部による少なくともいずれかの認識結果が光量低下指示を示すとともに、前記口唇動作認識部による認識結果に比べて前記音声認識部による認識結果の認識率が低い場合、前記投光部が投光している照明光の光量を通常の光量低下指示に対する光量低下処理より緩やかに光量低下を行う光量制御部と、を備える。これにより、ユーザの近傍の他者の睡眠を阻害しない光量操作を可能にすることができる。

【符号の説明】

【0076】

１電子機器
１０カメラ
２０マイクロフォン
３０スピーカ（音声出力部）
１００制御部（音声出力制御装置）
１０１映像取得部
１０２音声取得部
１０３音声出力処理部
１０４音声認識部
１０５口唇検出部
１０６口唇動作認識部
１０７オーディオ制御部（音声制御部）
１０８コンテンツ再生部

【図1】