(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024134675
(43)【公開日】2024-10-04
(54)【発明の名称】音声出力制御装置及び音声出力制御方法
(51)【国際特許分類】
H04R 3/00 20060101AFI20240927BHJP
B60R 1/23 20220101ALI20240927BHJP
G06T 7/00 20170101ALI20240927BHJP
G06T 7/20 20170101ALI20240927BHJP
G06V 10/70 20220101ALI20240927BHJP
G06V 20/58 20220101ALI20240927BHJP
G06V 40/16 20220101ALI20240927BHJP
G06V 20/59 20220101ALI20240927BHJP
【FI】
H04R3/00 310
B60R1/23
G06T7/00 350B
G06T7/00 660A
G06T7/00 650B
G06T7/20 300B
G06V10/70
G06V20/58
G06V40/16 B
G06V20/59
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2023044991
(22)【出願日】2023-03-22
(71)【出願人】
【識別番号】308036402
【氏名又は名称】株式会社JVCケンウッド
(74)【代理人】
【識別番号】100103894
【弁理士】
【氏名又は名称】家入 健
(72)【発明者】
【氏名】田替藤 哲雄
(72)【発明者】
【氏名】奥田 知之
(72)【発明者】
【氏名】加納 尚幸
(72)【発明者】
【氏名】岡庭 勘一
(72)【発明者】
【氏名】新内 悟
【テーマコード(参考)】
5D220
5L096
【Fターム(参考)】
5D220AA01
5D220AB08
5L096BA04
5L096CA05
5L096DA02
5L096FA52
5L096FA67
5L096GA51
5L096HA02
5L096HA13
5L096KA04
(57)【要約】
【課題】周囲の人物がどう感じているかを考慮して出力音声の音量を制御できる音声出力制御装置及び音声出力制御方法を提供すること。
【解決手段】本開示の音声出力制御装置1は、画像取得部11、視線検出部12、注視判定部13、音量設定部14及び音声出力制御部15を備える。画像取得部11は、対象の周囲を撮像した画像を取得する。視線検出部12は、画像に含まれる周囲の人物の視線を検出する。注視判定部13は、視線に基づいて、周囲の人物が前記対象を注視しているか否かを判定する。音量設定部14は、周囲の人物が対象を注視していると判定された場合、注視している時間に基づいて音量を設定する。音声出力制御部15は、設定された音量で音声を出力するよう制御する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
対象の周囲を撮像した画像を取得する画像取得部と、
前記画像に含まれる前記周囲の人物の視線を検出する視線検出部と、
前記視線に基づいて、前記周囲の人物が前記対象を注視しているか否かを判定する注視判定部と、
前記周囲の人物が前記対象を注視していると判定された場合、前記対象を注視している時間に基づいて音量を設定する音量設定部と、
前記設定された音量で音声を出力するよう制御する音声出力制御部と、を備える
音声出力制御装置。
【請求項2】
前記画像に含まれる前記周囲の人物の感情の種別を推定する感情推定部をさらに備え、
前記音量設定部は、
前記周囲の人物が前記対象を注視していると判定された場合、前記感情の種別に基づいて音量を設定する
請求項1に記載の音声出力制御装置。
【請求項3】
前記感情の種別ごとに前記感情のレベルを推定する感情レベル推定部をさらに備え、
前記音量設定部は、前記周囲の人物が前記対象を注視していると判定された場合、前記感情のレベルに基づいて音量を設定する
請求項2に記載の音声出力制御装置。
【請求項4】
前記対象は、移動体であり、
前記対象に搭乗する人物と前記対象の周囲の人物との視線の一致度合いを検出する視線一致検出部をさらに備え、
前記音量設定部は、
前記周囲の人物が前記対象を前記注視していると判定された場合、前記視線の一致度合いに基づいて音量を設定する
請求項1に記載の音声出力制御装置。
【請求項5】
対象の周囲を撮像した画像を取得し、
前記画像に含まれる前記周囲の人物の視線を検出し
前記視線に基づいて、前記周囲の人物が前記対象を注視しているか否かを判定し、
前記周囲の人物が前記対象を注視していると判定された場合、前記対象を注視している時間に基づいて音量を設定し、
前記設定された音量で音声を出力するよう制御する
音声出力制御方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声出力制御装置及び音声出力制御方法に関する。
【背景技術】
【0002】
特許文献1では、車室内から車両の外への漏れ音量、及び、車両の周囲で発生する周囲音の音量を推定し、これらの比率が予め定められた値となるように、車室内の音量の推奨値を算出する。そして、車両の窓の開閉状態、速度、振動、気象情報、日時、現在位置、人の存在などを反映させる点が開示される。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1に係る技術では、車室内音声の音量が、周囲騒音と一定の比率を保つよう制御される。周囲騒音が小さい静かな環境で車室内音声を抑制するが、周囲騒音がある場合には音量も大きくなる。このような場合に、車両の外部の人物、つまり周囲の人物がどう感じているかを考慮して出力音声の音量を制御できないという課題があった。
【0005】
本開示は、そのような課題を鑑みることによって、周囲の人物がどう感じているかを考慮して出力音声の音量を制御できる音声出力制御装置及び音声出力制御方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
本開示の音声出力制御装置は、
対象の周囲を撮像した画像を取得する画像取得部と、
前記画像に含まれる周囲の人物の視線を検出する視線検出部と、
前記視線に基づいて、前記周囲の人物が前記対象を注視しているか否かを判定する注視判定部と、
前記周囲の人物が前記対象を注視していると判定された場合、前記対象を注視している時間に基づいて音量を設定する音量設定部と、
前記設定された音量で音声を出力するよう制御する音声出力制御部と、を備える。
【0007】
本開示の音声出力制御方法は、
対象の周囲を撮像した画像を取得し、
前記画像に含まれる周囲の人物の視線を検出し
前記視線に基づいて、前記周囲の人物が前記対象を注視しているか否かを判定し、
前記周囲の人物が前記対象を注視していると判定された場合、前記対象を注視している時間に基づいて音量を設定し、
前記設定された音量で音声を出力するよう制御する。
【発明の効果】
【0008】
本開示によって、周囲の人物がどう感じているかを考慮して出力音声の音量を制御できる音声出力制御装置及び音声出力制御方法を提供できる。
【図面の簡単な説明】
【0009】
【
図1】第1の実施形態に係る音声出力制御装置の構成の一例を示す図である。
【
図2】第1の実施形態に係る音声出力制御装置が車両に設置された一例を示す図である。
【
図3】第1の実施形態に係る音声出力制御装置の動作の一例を示すフローチャートである。
【
図4】第2の実施形態に係る音声出力制御装置の構成の一例を示す図である。
【
図5】第2の実施形態に係る音声出力制御装置の動作の一例を示すフローチャートである。
【
図6】第3の実施形態に係る音声出力制御装置の構成の一例を示す図である。
【
図7】第3の実施形態に係る音声出力制御装置の動作の一例を示すフローチャートである。
【
図8】第4の実施形態に係る音声出力制御装置の構成の一例を示す図である。
【
図9】第4の実施形態に係る音声出力制御装置が車両に設置された一例を示す図である。
【
図10】第4の実施形態に係る音声出力制御装置の動作の一例を示すフローチャートである。
【発明を実施するための形態】
【0010】
以下では、本開示の実施形態について、図面を参照しながら詳細に説明する。各図面において、同一又は対応する要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明は省略される。
【0011】
(第1の実施形態)
まず、
図1及び
図2を用いて、第1の実施形態に係る音声出力制御装置1の構成を説明する。
図1は、第1の実施形態に係る音声出力制御装置1の構成の一例を示すブロック図である。
【0012】
図1に示すように、音声出力制御装置1は、対象に設置、装着又は持ち込まれて使用される。以下の実施形態(第1の実施形態から第4の実施形態)では、音声出力制御装置1は、対象として車両に設置されるとする。例えば、音声出力制御装置1は、車両に設置された車載のオーディオ機器である。この他に音声出力制御装置1は、車両に搭乗する人物が用いる携帯端末などの音声出力装置であってもよい。音声出力制御装置1は、車載のオーディオ機器や車両に搭乗する人物が用いる携帯端末などの音声出力装置に制御信号を送信するコントローラであってもよい。
【0013】
図2は、第1の実施形態に係る音声出力制御装置1が車両に設置された一例を示す図である。
図2に示すように、音声出力制御装置1は、第1のカメラ20及び車内スピーカ30と、無線又は有線で通信する。第1のカメラ20は、車両に搭載され、車両の外部、つまり車両の周囲を撮像するカメラである。第1のカメラ20は、車両の周囲の人物(例えば
図2の歩行者A又は歩行者B)が撮影範囲に入るように車両に設置される。第1のカメラ20は車両前後等に複数台搭載され、音声出力制御装置1は複数の第1のカメラ20と通信してもよい。第1のカメラ20は、ウェアラブルカメラのほか、カメラ機能を有する携帯端末であってもよい。車内スピーカ30は、車両に搭載され、車両の内部に音声を出力するスピーカである。車内スピーカ30は車両に複数台搭載され、音声出力制御装置1は複数の車内スピーカ30と通信してもよい。車内スピーカ30は、車両に搭乗する人物が用いる携帯端末やオーディオ機器でもよい。
【0014】
図1の説明に戻る。音声出力制御装置1は、画像取得部11、視線検出部12、注視判定部13、音量設定部14及び音声出力制御部15を備える。
【0015】
画像取得部11は、第1のカメラ20から音声出力制御装置1が設置される車両の周囲を撮像した画像を取得する。
【0016】
視線検出部12は、画像に含まれる周囲の人物の視線を検出する。視線が検出される周囲の人物は複数人でもよい。具体的には、視線検出部12は、画像認識技術を用いて撮影範囲内で人物を検出し、さらに人物の眼を認識して、目頭と光彩の位置関係に基づく視線検出や、角膜反射と瞳孔の位置関係に基づく視線検出など任意の手法によって、周囲の人物の視線の方向を検出する。また、視線検出部12は、撮影範囲内で検出した人物の人数を把握する。視線検出部12は、例えば、両眼における視線の角度の範囲を指定することで同一人物を認識できる。また、視線検出部12は、目の数が1つ、または奇数個の場合も、それぞれの角度の範囲から、人数を推定することができる。例えば、視線検出部12は、眼と眼の角度が1度以内の場合は同一人物、1度を超える場合は他の人物とカウントする。
【0017】
注視判定部13は、周囲の人物の視線に基づいて、周囲の人物が車両を注視しているか否かを判定する。具体的には、注視判定部13は、周囲の人物の視線の方向が車両と一致した時間(以下、注視時間)を計測する。注視判定部13は、周囲の人物の視線の方向が車両が存在する方向と所定時間(例えば2秒)以上一致した場合、周囲の人物が車両を注視していると判定する。このとき、周囲の人物の視線の方向が車両が存在する方向と一致したとは、車両の周囲を撮像した画像上において、周囲の人物の視線が予め定めた領域内を向いていると判定された場合である。第1のカメラ20が設置される位置や撮像する方向によって、車両が存在する方向となる画像上の領域を、前もって定めておくことができる。
【0018】
なお、注視判定部13は、周囲の人物が複数人いる場合、複数の周囲の人物のそれぞれの注視時間を計測してもよい。その場合、注視判定部13は、複数の周囲の人物のいずれかの視線の方向が車両が存在する方向と所定時間以上一致した場合、周囲の人物が車両を注視していると判定する。所定時間とは、例えば、3秒などに設定されてよい。
【0019】
音量設定部14は、周囲の人物が車両を注視していると判定された場合、注視している時間に基づいて車内スピーカ30の出力音声の音量を設定する。具体的には、音量設定部14は、周囲の人物が車両を注視していると判定された場合、車内スピーカ30の出力音声の現在の音量より低い音量に車内スピーカ30の出力音声の音量を設定する。なぜなら、周囲の人物が車両を注視している場合、車内スピーカ30の出力音声の車両外部への音漏れ等によって、周囲の人物が車内スピーカ30の出力音声に対して悪い感情を抱いている可能性が高いことが予想されるためである。ここで、前述の設定される低い音量とは、3dB低い音量、機器の音量ボリュームで1段階低い音量など、任意の値低い音量である。また、音量設定部14は、車内スピーカ30の出力音声の現在の音量を常に把握していてもよいし、車室内マイク、車両に搭載されるマイクやウェアラブルマイクによって車内スピーカ30の出力音声の現在の音量を検出してもよい。そして、音量設定部14は、注視時間が長い程、より低い音量に車内スピーカ30の出力音声の音量を設定する。なぜなら、注視時間が長い程、周囲の人物が車内スピーカ30の出力音声に対してより悪い感情を抱いている可能性が高いことが予想されるためである。
【0020】
なお、音量設定部14は、周囲の人物が複数人いる場合、一番長く注視している人物の注視時間に基づいて車内スピーカ30の出力音声の音量を設定してもよい。また、音量設定部14は、周囲の人物が複数人いる場合、次の方法を採用することもできる。音量設定部14は、周囲の人物の平均注視時間に基づいて車内スピーカ30の出力音声の音量を設定する。例えば音量設定部14は、周囲の人物の平均注視時間が長い程、より低い音量に車内スピーカ30の出力音声の音量を設定する。また、音量設定部14は、周囲の人物の注視時間の合計に基づいて車内スピーカ30の出力音声の音量を設定する。周囲の人物の注視時間の合計が長い程、より低い音量に車内スピーカ30の出力音声の音量を設定する。また、音量設定部14は、周囲の人物の数に基づいて車内スピーカ30の出力音声の音量を設定する。例えば、音量設定部14は、周囲の人物の数が多い程、より低い音量に車内スピーカ30の出力音声の音量を設定する。また、音量設定部14は、注視時間が所定の閾値以上の人物の数に基づいて車内スピーカ30の出力音声の音量を設定する。例えば、音量設定部14は、注視時間が所定の閾値以上の人物の数が多い程、より低い音量に車内スピーカ30の出力音声の音量を設定する。
【0021】
音声出力制御部15は、音量設定部14で設定された音量で車内スピーカ30から音声を出力するよう、図示しない音声出力部または図示しない音声出力装置を制御する。音声出力制御部15は、音声を出力するアンプなどの、音声出力部を含んで構成されてもよく、外部機器である音声出力装置、例えば車載のオーディオ機器に、出力音量を制御する制御信号を送信する形態であってもよい。
【0022】
続いて、
図3を用いて、第1の実施形態に係る音声出力制御装置1の動作を説明する。
図3は、第1の実施形態に係る音声出力制御装置1の動作の一例を示すフローチャートである。
【0023】
まず、画像取得部11は、第1のカメラ20から音声出力制御装置1が搭載された車両の周囲を撮像した画像を取得する(ステップS101)。次に、視線検出部12は、画像に含まれる周囲の人物の視線を検出する(ステップS102)。
【0024】
次に、注視判定部13は、周囲の人物の視線に基づいて、周囲の人物が車両を注視しているか否かを判定する(ステップS103)。周囲の人物が対象を注視していないと判定された場合(ステップS103のNO)、処理はステップS101に戻る。一方、音量設定部14は、周囲の人物が対象を注視していると判定された場合(ステップS103のYES)、注視時間に基づいて車内スピーカ30の出力音声の音量を設定する(ステップS104)。次に、音声出力制御部15は、音量設定部14で設定された音量で車内スピーカ30から音声を出力するよう制御する(ステップS105)。
【0025】
上述したように、第1の実施形態に係る音声出力制御装置1は、第1のカメラ20の画像に含まれる車両の周囲の人物の車両への注視時間に基づいて、車内スピーカ30からの出力音声の音量を制御する。車両の周囲の人物が車両を注視している場合には、車内スピーカ30からの出力音声の車両外部への音漏れによって、車両の周囲の人物が車内スピーカ30の出力音声に対して悪い感情を抱いている可能性が高い。音声出力制御装置1は、悪い感情の車両の周囲の人物がいた場合に、車両に搭乗する人物が気付かなくても自動で車内スピーカ30の出力音声の音量を下げることができる。したがって、音声出力制御装置1は、周囲の人物がどう感じているかを考慮して出力音声の音量を制御できる。
【0026】
また、音声出力制御装置1は、周囲の人物がどう感じているかを考慮して出力音声の音量を制御できる。このため、バスや送迎車、ライドシェア車両などで、例えばウィルス感染予防のための換気のために窓を開けて走行するケースなどに用いることができる。音声出力制御装置1は、周囲の人物がどう感じているかを考慮して出力音声の音量を制御できるため、車両の窓が開いていることに車両に搭乗する人物が気付いていないケースや、窓を開けた乗客が出力音声の音量を変更しづらいケースなどでも有効である。
【0027】
(第2の実施形態)
続いて、
図4を用いて、第2の実施形態に係る音声出力制御装置2の構成について説明する。
図4は、第2の実施形態に係る音声出力制御装置2の構成の一例を示すブロック図である。
【0028】
音声出力制御装置2は、第1の実施形態に係る音声出力制御装置1の構成に加え、感情推定部16を備える。本実施形態の説明では、上述した音声出力制御装置1の構成の説明は省略する。
【0029】
感情推定部16は、第1のカメラ20によって撮像された画像に含まれる周囲の人物の感情の種別を推定する。感情の種別は、例えば「嫌悪」及び「怒り」等の悪い感情、「喜び」などの良い感情である。例えば、感情推定部16は、感情の種別ごとに分類されて学習された認識辞書を用いた機械学習やディープラーニング等の画像認識処理などによって画像に含まれる周囲の人物の感情の種別を推定する。
なお、感情推定部16は、画像に含まれる周囲の人物が複数人の場合、複数の周囲の人物の感情の種別を推定してもよい。
【0030】
音量設定部14は、周囲の人物の感情の種別に基づいて出力音声の音量を設定する。例えば、音量設定部14は、感情の種別が悪い感情であると推定された場合、車内スピーカ30の出力音声の音量を現在の音量よりも低く設定する。なぜなら、感情の種別が悪い感情であると推定された場合、車内スピーカ30の出力音声の車両外部への音漏れによって、車両の周囲の人物が車内スピーカ30の出力音声に対して悪い感情を抱いている可能性が高いからである。一方、音量設定部14は、感情の種別が良い感情であると推定された場合、車内スピーカ30の出力音声の音量を現在の音量と同じに維持するか、現在の音量よりも高く設定する。なぜなら、感情の種別が良い感情であると推定された場合、車内スピーカ30の出力音声の車両外部への音漏れによって、車両の周囲の人物が車内スピーカ30の出力音声に対して良い感情を抱いている可能性があるからである。
【0031】
なお、音量設定部14は、車両の周囲の人物が複数人いる場合、次のように出力音声の音量を設定する。音量設定部14は、複数の周囲の人物の中に感情の種別が悪い感情である人物が1人でもいる場合、複数の周囲の人物が悪い感情であるとし、車内スピーカ30の出力音声の音量を現在の音量よりも低く設定する。なお、音量設定部14は、複数の周囲の人物の中で最も多い感情の種別を、複数の周囲の人物の感情の種別とし、周囲の人物の感情の種別に基づいて出力音声の音量を設定してもよい。音量設定部14は、複数の周囲の人物の中で、感情の種別が悪い感情である人物が所定値以上の比率を占めた場合に、複数の周囲の人物が悪い感情であるとし、車内スピーカ30の出力音声の音量を現在の音量よりも低く設定してもよい。
【0032】
続いて、
図5を用いて、第2の実施形態に係る音声出力制御装置2の動作について説明する。
図5は、第2の実施形態に係る音声出力制御装置2の動作の一例を示すフローチャートである。ステップS101からステップS103、ステップS105の処理は、第1の実施形態に係る音声出力制御装置1の処理と同様である。
【0033】
図5に示すように、まず、画像取得部11は、第1のカメラ20から音声出力制御装置2が搭載された車両の周囲を撮像した画像を取得する(ステップS101)。次に、視線検出部12は、画像に含まれる周囲の人物の視線を検出する(ステップS102)。
【0034】
次に、注視判定部13は、周囲の人物の視線に基づいて、周囲の人物が車両を注視しているか否かを判定する(ステップS103)。周囲の人物が対象を注視していないと判定された場合(ステップS103のNO)、処理はステップS101に戻る。一方、音量設定部14は、周囲の人物が対象を注視していると判定された場合(ステップS103のYES)、処理はステップS201に進む。
【0035】
ステップS201では、感情推定部16は、画像に含まれる周囲の人物の感情の種別を推定する。次に、音量設定部14は、周囲の人物の感情の種別に基づいて車内スピーカ30の出力音声の音量を設定する(ステップS202)。
【0036】
次に、音声出力制御部15は、音量設定部14で設定された音量で車内スピーカ30から音声を出力するよう制御する(ステップS105)。
【0037】
上述したように、第2の実施形態に係る音声出力制御装置2は、音声出力制御装置1の処理に加え、車両の周囲の人物の感情の種別に基づいて車両の内部への出力音声の音量を制御する。音声出力制御装置2は、悪い感情の車両の周囲の人物がいた場合に、車両に搭乗する人物が気付かなくても自動で車内スピーカ30の出力音声の音量を下げることができる。したがって、音声出力制御装置2は、周囲の人物がどう感じているかをより考慮して出力音声の音量を制御できる。
【0038】
(第3の実施形態)
続いて、
図6を用いて、第3の実施形態に係る音声出力制御装置3の構成について説明する。
図6は、第3の実施形態に係る音声出力制御装置3の構成の一例を示すブロック図である。
【0039】
図6に示すように、音声出力制御装置3は、第2の実施形態に係る音声出力制御装置2の構成に加え、感情レベル推定部17を備える。本実施形態の説明では、上述した音声出力制御装置2の構成の説明は省略する。
【0040】
感情レベル推定部17は、感情推定部16によって推定された車両の周囲の人物の感情のレベルを推定する。具体的には、感情レベル推定部17は、周囲の人物の感情の種別を推定するとともに、周囲の人物の悪い感情の強さを示すレベルが例えば5段階の内のどの段階にあるのかを推定する。感情レベル推定部17は、例えば、感情のレベル別に分類されて学習された認識辞書を用いた機械学習やディープラーニング等の画像認識処理などによって、画像に含まれる周囲の人物の感情のレベルを推定する。感情レベル推定部17は、眉の角度の大きさや目の見開き方などに基づいて、嫌悪の感情のレベルを推定してもよい。以下では、周囲の人物の感情の種別が悪い感情であり、感情のレベルが高い程、悪い感情が強く、感情のレベルが低い程、悪い感情が弱いとする。
【0041】
音量設定部14は、感情の種別及び感情のレベルに基づいて、車内スピーカ30の出力音声の音量を設定する。具体的には、音量設定部14は、感情の種別が悪い感情であり、感情のレベルが所定の閾値以上である場合、車内スピーカ30の出力音声の音量を現在の音量よりもより低く設定する。そして、音量設定部14は、感情の種別が悪い感情であって、さらに感情のレベルが高い、すなわち悪い感情が強い場合、車内スピーカ30の出力音声の音量を現在の音量よりもより低く設定する。この処理によって、出力音声の音量の制御が周囲の人物の感情の種別及び感情のレベルに合わせてより精度よく行われる。
【0042】
続いて、
図7を用いて、第3の実施形態に係る音声出力制御装置3の動作について説明する。
図7は、第3の実施形態に係る音声出力制御装置3の動作の一例を示すフローチャートである。ステップS101からステップS103、ステップS105、ステップS201の処理は、第2の実施形態に係る音声出力制御装置2の処理と同様である。
【0043】
図7に示すように、まず、画像取得部11は、第1のカメラ20から音声出力制御装置3が搭載された車両の周囲を撮像した画像を取得する(ステップS101)。次に、視線検出部12は、画像に含まれる周囲の人物の視線を検出する(ステップS102)。
【0044】
次に、注視判定部13は、周囲の人物の視線に基づいて、周囲の人物が車両を注視しているか否かを判定する(ステップS103)。周囲の人物が対象を注視していないと判定された場合(ステップS103のNO)、処理はステップS101に戻る。一方、音量設定部14は、周囲の人物が対象を注視していると判定された場合(ステップS103のYES)、感情推定部16は、画像に含まれる周囲の人物の感情の種別を推定する(ステップS201)。
【0045】
次に、感情レベル推定部17は、周囲の人物の感情のレベルを推定する(ステップS301)。次に、音量設定部14は、感情のレベルに基づいて、車内スピーカ30の出力音声の音量を設定する(ステップS302)。
次に、音声出力制御部15は、音量設定部14で設定された音量で車内スピーカ30から音声を出力するよう制御する(ステップS105)。
【0046】
上述したように、第3の実施形態に係る音声出力制御装置3は、音声出力制御装置2の処理に加え、車両の周囲の人物の感情のレベルに基づいて車両の内部への出力音声の音量を制御する。音声出力制御装置3は、悪い感情の車両の周囲の人物がいた場合に、車両に搭乗する人物が気付かなくても悪い感情のレベルに応じて自動で車内スピーカ30の出力音声の音量を下げることができる。したがって、音声出力制御装置3は、周囲の人物がどう感じているかをより考慮して出力音声の音量を制御できる。
【0047】
(第4の実施形態)
続いて、
図8及び
図9を用いて、第4の実施形態に係る音声出力制御装置4の構成について説明する。
図8は、第4の実施形態に係る音声出力制御装置4の構成の一例を示すブロック図である。
図9は、第4の実施形態に係る音声出力制御装置4が車両に設置された一例を示す図である。
【0048】
図8及び
図9に示すように、音声出力制御装置4は、第1の実施形態に係る音声出力制御装置1の構成に加え、第2のカメラ21と無線又は有線で通信する。第2のカメラ21は、車両に搭載され、車両の内部を撮像するカメラである。第2のカメラ21は、例えば車両の運転者が撮影範囲に入るように車両に設置される。また、音声出力制御装置4は、音声出力制御装置1の構成に加え、視線一致検出部18を備える。本実施形態の説明では、上述した音声出力制御装置1の構成の説明は省略する。なお第2のカメラ21は、例えば360°などの広い撮像画角を有する、第1のカメラ20と同一のカメラであってもよい。
【0049】
画像取得部11は、第1のカメラ20及び第2のカメラ21から、車両の周囲、及び、車両の内部を撮像した画像(以下、車内画像)を取得する。
視線検出部12は、車両の周囲画像に含まれる周囲の人物の視線、及び、車内画像に含まれる車両に搭乗する人物、例えば車両の運転者の視線を検出する。
【0050】
視線一致検出部18は、車両に搭乗する人物の視線と車両の周囲の人物の視線との一致を検出する。視線が検出される車両に搭乗する人物は、運転者のほかに、同乗者など複数人であってもよい。具体的には、視線一致検出部18は、車両に搭乗する人物の視線と車両の周囲の人物の視線との一致度合いを算出する。視線一致検出部18は、両者の人物の視線との一致度合いが所定の閾値以上の場合、両者の人物の視線とが一致したと判定する。視線一致検出部18は、両者の人物の視線との一致度合いが所定の閾値より低い場合、両者の人物の視線とが一致していないと判定する。
【0051】
視線一致検出部18は、周囲の人物の視線の方向が車両に搭乗する人物が存在する方向であり、かつ、車両に搭乗する人物の視線の方向が周囲の人物が存在する方向である場合、車両に搭乗する人物の視線と車両の周囲の人物の視線とが一致したと判定する。視線一致検出部18は、さらに、視線の一致度合いを算出することが好ましい。視線検出部12が車両の周囲画像に含まれる周囲の人物の視線、及び、車内画像に含まれる車両に搭乗する人物の視線を精度高く検出し、車両に搭乗する人物が存在する方向、及び、周囲の人物が存在する方向と精密に比較することで、視線の一致度合いを算出することができる。この場合、例えば、周囲の人物の視線が車両に搭乗する人物が存在する方向と一致している場合に、視線の一致度合いを高いと判定し、周囲の人物の視線が車両に搭乗する人物の近傍となる方向と一致している場合に、視線の一致度合いを中程度と判定し、周囲の人物の視線が車両に搭乗する人物が存在する方向と相違している場合に、視線の一致度合いを低いと判定する。
【0052】
音量設定部14は、車両に搭乗する人物の視線と車両の周囲の人物の視線とが一致したと判定された場合、両者の視線の一致度合いに基づいて車内スピーカ30の出力音声の音量を設定する。具体的には、音量設定部14は、両者の視線の一致度合いが高い程、車内スピーカ30の出力音声の音量を現在の音量よりも低く設定する。なぜなら、両者の視線の一致度合いが高い程、周囲の人物が、車両に搭乗する人物から見られているにも関わらず車両に搭乗する人物を注視していることを示しており、車内スピーカ30の出力音声に対して悪い感情を抱いている可能性が高いことが予想されるためである。例えば、音量設定部14は、車内スピーカ30の出力音声の現在の音量から、両者の視線の一致度合いを現在の音量に乗算した値を、減算した値を車内スピーカ30の出力音声の音量として設定する。
【0053】
なお、音量設定部14は、車両に搭乗する人物の視線と車両の周囲の人物の視線との一致時間に基づいて車内スピーカ30の出力音声の音量を設定してもよい。この場合、音量設定部14は、両者の視線の一致時間が長い程、車内スピーカ30の出力音声の音量を低く設定する。
【0054】
図10は、第4の実施形態に係る音声出力制御装置4の動作の一例を示すフローチャートである。ステップS101からステップS103、ステップS105の処理は、第1の実施形態に係る音声出力制御装置1の処理と同様である。
【0055】
図10に示すように、まず、画像取得部11は、第1のカメラ20から音声出力制御装置4が搭載された車両の周囲を撮像した画像を取得する(ステップS101)。次に、視線検出部12は、画像に含まれる周囲の人物の視線を検出する(ステップS102)。
【0056】
次に、注視判定部13は、周囲の人物の視線に基づいて、周囲の人物が車両を注視しているか否かを判定する(ステップS103)。周囲の人物が対象を注視していないと判定された場合(ステップS103のNO)、処理はステップS101に戻る。一方、音量設定部14は、周囲の人物が対象を注視していると判定された場合(ステップS103のYES)、処理はステップS401に進む。
【0057】
次に、ステップS401の処理では、画像取得部11は、第2のカメラ21から車両の内部を撮像した車内画像を取得する。
次に、視線検出部12は、車内画像に含まれる車両に搭乗する人物、例えば車両の運転者の視線を検出する(ステップS402)。
【0058】
次に、視線一致検出部18は、車両の周囲の人物と車両に搭乗する人物との視線が一致しているか否かを判定する(ステップS403)。車両の周囲の人物と車両に搭乗する人物との視線が一致していないと判定された場合(ステップS403のNO)、処理はステップS101に戻る。一方、車両の周囲の人物と車両に搭乗する人物との視線が一致していると判定された場合(ステップS403のYES)、音量設定部14は、車両の周囲の人物と車両に搭乗する人物との視線の一致度合いに基づいて出力音声の音量を設定する。
【0059】
次に、音声出力制御部15は、音量設定部14で設定された音量で車内スピーカ30から音声を出力するよう制御する(ステップS105)。
【0060】
上述したように、第4の実施形態に係る音声出力制御装置4は、音声出力制御装置1の処理に加え、車両に搭乗する人物と車両の周囲の人物との視線の一致度合いに基づいて車両の内部への出力音声の音量を制御する。例えば、車両に搭乗する人物と車両の周囲の人物との視線の一致度合いが高い場合には車両の周囲の人物が車両の内部の出力音声に対して悪い感情を抱いている可能性が高い。音声出力制御装置4は、悪い感情の車両の周囲の人物がいた場合に、車両に搭乗する人物が気付かなくても自動で車内スピーカ30の出力音声の音量を下げることができる。したがって、音声出力制御装置4は、周囲の人物がどう感じているかをより考慮して出力音声の音量を制御できる。
【0061】
<ハードウェア構成>
上述の実施形態における各構成は、ハードウェア又はソフトウェア、もしくはその両方によって構成され、1つのハードウェア又はソフトウェアから構成してもよいし、複数のハードウェア又はソフトウェアから構成してもよい。各装置及び各機能(処理)を、CPU(Central Processing Unit)等のプロセッサ及び記憶装置であるメモリを有するコンピュータにより実現してもよい。例えば、メモリに実施形態における方法を行うためのプログラムを格納し、各機能を、メモリに格納されたプログラムをプロセッサで実行することにより実現してもよい。
【0062】
これらのプログラムは、コンピュータに読み込まれた場合に、実施形態で説明された1又はそれ以上の機能をコンピュータに行わせるための命令群(又はソフトウェアコード)を含む。プログラムは、非一時的なコンピュータ可読媒体又は実体のある記憶媒体に格納されてもよい。限定ではなく例として、コンピュータ可読媒体又は実体のある記憶媒体は、random-access memory(RAM)、read-only memory(ROM)、フラッシュメモリ、solid-state drive(SSD)又はその他のメモリ技術、CD-ROM、digital versatile disc(DVD)、Blu-ray(登録商標)ディスク又はその他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又はその他の磁気ストレージデバイスを含む。プログラムは、一時的なコンピュータ可読媒体又は通信媒体上で送信されてもよい。限定ではなく例として、一時的なコンピュータ可読媒体又は通信媒体は、電気的、光学的、音響的、またはその他の形式の伝搬信号を含む。
【0063】
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、第2の実施形態に係る音声出力制御装置2の構成又は第3の実施形態に係る音声出力制御装置3の構成に第4の実施形態に係る音声出力制御装置4の構成を組み合わせてもよい。
【0064】
また、第1の実施形態に係る音声出力制御装置1から第4の実施形態に係る音声出力制御装置4が設置される対象は、車両に限定されず、船舶、飛行体、キックスクーター、車椅子などの移動体であってもよい。
【0065】
また、第1の実施形態に係る音声出力制御装置1から第3の実施形態に係る音声出力制御装置3は、対象となる人物に装着されてもよい。例えば音声出力制御装置1は携帯機器等のオーディオ機器として実現される。車内スピーカ30は、対象の人物に装着されるイヤホン等のスピーカ30として実現される。第1のカメラ20は、対象の人物が装着する、周囲の画像を撮像するウェアラブル端末等の携帯端末やARグラスに搭載されるカメラ20として実現される。
【0066】
その場合、第1の実施形態に係る音声出力制御装置1では、画像取得部11は、イヤホンのスピーカ30を装着する対象の人物の周囲を撮像した画像をカメラ20から取得する。視線検出部12は、画像に含まれる周囲の人物の視線を検出する。注視判定部13は、視線に基づいて、周囲の人物が対象の人物を注視しているか否かを判定する。音量設定部14は、周囲の人物が対象の人物を注視していると判定された場合、注視している時間に基づいて音量を設定する。音声出力制御部15は、設定された音量で音声をスピーカ30に出力する。
【0067】
さらに、第2の実施形態に係る音声出力制御装置2では、画像取得部11は、イヤホンのスピーカ30を装着する対象の人物の周囲を撮像した画像をカメラ20から取得する。視線検出部12は、画像に含まれる周囲の人物の視線を検出する。注視判定部13は、視線に基づいて、周囲の人物が対象の人物を注視しているか否かを判定する。感情推定部16は、画像に含まれる周囲の人物の感情の種別を推定する。音量設定部14は、周囲の人物が対象の人物を注視していると判定された場合、周囲の人物の感情の種別に基づいて音量を設定する。音声出力制御部15は、設定された音量で音声をスピーカ30に出力する。
【0068】
さらに、第3の実施形態に係る音声出力制御装置3では、画像取得部11は、イヤホンのスピーカ30を装着する対象の人物の周囲を撮像した画像をカメラ20から取得する。視線検出部12は、画像に含まれる周囲の人物の視線を検出する。注視判定部13は、視線に基づいて、周囲の人物が対象の人物を注視しているか否かを判定する。感情レベル推定部17は、周囲の人物の感情の種別ごとに周囲の人物の感情のレベルを推定する。音量設定部14は、周囲の人物が対象の人物を注視していると判定された場合、周囲の人物の感情のレベルに基づいて音量を設定する。音声出力制御部15は、設定された音量で音声をスピーカ30に出力する。
【0069】
第1の実施形態に係る音声出力制御装置1から第3の実施形態に係る音声出力制御装置3は、対象の人物に装着される場合でも、対象の人物の周囲の人物がどう感じているかを考慮して対象の人物への出力音声の音量を制御できる。
【0070】
また、第1の実施形態に係る音声出力制御装置1から第4の実施形態に係る音声出力制御装置4は、車内スピーカ30の出力音声の音量を下げる場合に、音声案内やモニタ等への表示などで「音量を制御する」旨の提示があることが好ましい。
【0071】
また、第1の実施形態に係る音声出力制御装置1から第4の実施形態に係る音声出力制御装置4は、車両の個体差(例えば車両の防音度合いの個体差)や車両の窓の開度に基づいて、車内スピーカ30の出力音声の音量を設定してもよい。また、第1の実施形態に係る音声出力制御装置1から第4の実施形態に係る音声出力制御装置4は、夜間か否か、車両が走行する道路が幹線道路か細街路かスクールゾーンか、などに基づいて、車内スピーカ30の出力音声の音量が設定されてもよい。
【符号の説明】
【0072】
1、2、3、4 音声出力制御装置
11 画像取得部
12 視線検出部
13 注視判定部
14 音量設定部
15 音声出力制御部
16 感情推定部
17 感情レベル推定部
18 視線一致検出部
20 第1のカメラ(カメラ)
21 第2のカメラ
30 車内スピーカ(スピーカ)