特開2024-134675 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ＪＶＣケンウッドの特許一覧

特開2024-134675音声出力制御装置及び音声出力制御方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024134675

(43)【公開日】2024-10-04

(54)【発明の名称】音声出力制御装置及び音声出力制御方法

(51)【国際特許分類】

H04R 3/00 20060101AFI20240927BHJP

B60R 1/23 20220101ALI20240927BHJP

G06T 7/00 20170101ALI20240927BHJP

G06T 7/20 20170101ALI20240927BHJP

G06V 10/70 20220101ALI20240927BHJP

G06V 20/58 20220101ALI20240927BHJP

G06V 40/16 20220101ALI20240927BHJP

G06V 20/59 20220101ALI20240927BHJP

【ＦＩ】

H04R3/00 310

B60R1/23

G06T7/00 350B

G06T7/00 660A

G06T7/00 650B

G06T7/20 300B

G06V10/70

G06V20/58

G06V40/16 B

G06V20/59

【審査請求】未請求

【請求項の数】5

【出願形態】ＯＬ

(21)【出願番号】P 2023044991

(22)【出願日】2023-03-22

(71)【出願人】

【識別番号】308036402

【氏名又は名称】株式会社ＪＶＣケンウッド

(74)【代理人】

【識別番号】100103894

【弁理士】

【氏名又は名称】家入健

(72)【発明者】

【氏名】田替藤哲雄

(72)【発明者】

【氏名】奥田知之

(72)【発明者】

【氏名】加納尚幸

(72)【発明者】

【氏名】岡庭勘一

(72)【発明者】

【氏名】新内悟

【テーマコード（参考）】

5D220

5L096

【Ｆターム（参考）】

5D220AA01

5D220AB08

5L096BA04

5L096CA05

5L096DA02

5L096FA52

5L096FA67

5L096GA51

5L096HA02

5L096HA13

5L096KA04

(57)【要約】

【課題】周囲の人物がどう感じているかを考慮して出力音声の音量を制御できる音声出力制御装置及び音声出力制御方法を提供すること。
【解決手段】本開示の音声出力制御装置１は、画像取得部１１、視線検出部１２、注視判定部１３、音量設定部１４及び音声出力制御部１５を備える。画像取得部１１は、対象の周囲を撮像した画像を取得する。視線検出部１２は、画像に含まれる周囲の人物の視線を検出する。注視判定部１３は、視線に基づいて、周囲の人物が前記対象を注視しているか否かを判定する。音量設定部１４は、周囲の人物が対象を注視していると判定された場合、注視している時間に基づいて音量を設定する。音声出力制御部１５は、設定された音量で音声を出力するよう制御する。
【選択図】図１

【特許請求の範囲】

【請求項1】

対象の周囲を撮像した画像を取得する画像取得部と、
前記画像に含まれる前記周囲の人物の視線を検出する視線検出部と、
前記視線に基づいて、前記周囲の人物が前記対象を注視しているか否かを判定する注視判定部と、
前記周囲の人物が前記対象を注視していると判定された場合、前記対象を注視している時間に基づいて音量を設定する音量設定部と、
前記設定された音量で音声を出力するよう制御する音声出力制御部と、を備える
音声出力制御装置。

【請求項2】

前記画像に含まれる前記周囲の人物の感情の種別を推定する感情推定部をさらに備え、
前記音量設定部は、
前記周囲の人物が前記対象を注視していると判定された場合、前記感情の種別に基づいて音量を設定する
請求項１に記載の音声出力制御装置。

【請求項3】

前記感情の種別ごとに前記感情のレベルを推定する感情レベル推定部をさらに備え、
前記音量設定部は、前記周囲の人物が前記対象を注視していると判定された場合、前記感情のレベルに基づいて音量を設定する
請求項２に記載の音声出力制御装置。

【請求項4】

前記対象は、移動体であり、
前記対象に搭乗する人物と前記対象の周囲の人物との視線の一致度合いを検出する視線一致検出部をさらに備え、
前記音量設定部は、
前記周囲の人物が前記対象を前記注視していると判定された場合、前記視線の一致度合いに基づいて音量を設定する
請求項１に記載の音声出力制御装置。

【請求項5】

対象の周囲を撮像した画像を取得し、
前記画像に含まれる前記周囲の人物の視線を検出し
前記視線に基づいて、前記周囲の人物が前記対象を注視しているか否かを判定し、
前記周囲の人物が前記対象を注視していると判定された場合、前記対象を注視している時間に基づいて音量を設定し、
前記設定された音量で音声を出力するよう制御する
音声出力制御方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音声出力制御装置及び音声出力制御方法に関する。

【背景技術】

【0002】

特許文献１では、車室内から車両の外への漏れ音量、及び、車両の周囲で発生する周囲音の音量を推定し、これらの比率が予め定められた値となるように、車室内の音量の推奨値を算出する。そして、車両の窓の開閉状態、速度、振動、気象情報、日時、現在位置、人の存在などを反映させる点が開示される。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０１５－６３１５６号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

特許文献１に係る技術では、車室内音声の音量が、周囲騒音と一定の比率を保つよう制御される。周囲騒音が小さい静かな環境で車室内音声を抑制するが、周囲騒音がある場合には音量も大きくなる。このような場合に、車両の外部の人物、つまり周囲の人物がどう感じているかを考慮して出力音声の音量を制御できないという課題があった。

【0005】

本開示は、そのような課題を鑑みることによって、周囲の人物がどう感じているかを考慮して出力音声の音量を制御できる音声出力制御装置及び音声出力制御方法を提供することを目的とする。

【課題を解決するための手段】

【0006】

本開示の音声出力制御装置は、
対象の周囲を撮像した画像を取得する画像取得部と、
前記画像に含まれる周囲の人物の視線を検出する視線検出部と、
前記視線に基づいて、前記周囲の人物が前記対象を注視しているか否かを判定する注視判定部と、
前記周囲の人物が前記対象を注視していると判定された場合、前記対象を注視している時間に基づいて音量を設定する音量設定部と、
前記設定された音量で音声を出力するよう制御する音声出力制御部と、を備える。

【0007】

本開示の音声出力制御方法は、
対象の周囲を撮像した画像を取得し、
前記画像に含まれる周囲の人物の視線を検出し
前記視線に基づいて、前記周囲の人物が前記対象を注視しているか否かを判定し、
前記周囲の人物が前記対象を注視していると判定された場合、前記対象を注視している時間に基づいて音量を設定し、
前記設定された音量で音声を出力するよう制御する。

【発明の効果】

【0008】

本開示によって、周囲の人物がどう感じているかを考慮して出力音声の音量を制御できる音声出力制御装置及び音声出力制御方法を提供できる。

【図面の簡単な説明】

【0009】

【図1】第１の実施形態に係る音声出力制御装置の構成の一例を示す図である。

【図2】第１の実施形態に係る音声出力制御装置が車両に設置された一例を示す図である。

【図3】第１の実施形態に係る音声出力制御装置の動作の一例を示すフローチャートである。

【図4】第２の実施形態に係る音声出力制御装置の構成の一例を示す図である。

【図5】第２の実施形態に係る音声出力制御装置の動作の一例を示すフローチャートである。

【図6】第３の実施形態に係る音声出力制御装置の構成の一例を示す図である。

【図7】第３の実施形態に係る音声出力制御装置の動作の一例を示すフローチャートである。

【図8】第４の実施形態に係る音声出力制御装置の構成の一例を示す図である。

【図9】第４の実施形態に係る音声出力制御装置が車両に設置された一例を示す図である。

【図10】第４の実施形態に係る音声出力制御装置の動作の一例を示すフローチャートである。

【発明を実施するための形態】

【0010】

以下では、本開示の実施形態について、図面を参照しながら詳細に説明する。各図面において、同一又は対応する要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明は省略される。

【0011】

（第１の実施形態）
まず、図１及び図２を用いて、第１の実施形態に係る音声出力制御装置１の構成を説明する。図１は、第１の実施形態に係る音声出力制御装置１の構成の一例を示すブロック図である。

【0012】

図１に示すように、音声出力制御装置１は、対象に設置、装着又は持ち込まれて使用される。以下の実施形態（第１の実施形態から第４の実施形態）では、音声出力制御装置１は、対象として車両に設置されるとする。例えば、音声出力制御装置１は、車両に設置された車載のオーディオ機器である。この他に音声出力制御装置１は、車両に搭乗する人物が用いる携帯端末などの音声出力装置であってもよい。音声出力制御装置１は、車載のオーディオ機器や車両に搭乗する人物が用いる携帯端末などの音声出力装置に制御信号を送信するコントローラであってもよい。

【0013】

図２は、第１の実施形態に係る音声出力制御装置１が車両に設置された一例を示す図である。図２に示すように、音声出力制御装置１は、第１のカメラ２０及び車内スピーカ３０と、無線又は有線で通信する。第１のカメラ２０は、車両に搭載され、車両の外部、つまり車両の周囲を撮像するカメラである。第１のカメラ２０は、車両の周囲の人物（例えば図２の歩行者Ａ又は歩行者Ｂ）が撮影範囲に入るように車両に設置される。第１のカメラ２０は車両前後等に複数台搭載され、音声出力制御装置１は複数の第１のカメラ２０と通信してもよい。第１のカメラ２０は、ウェアラブルカメラのほか、カメラ機能を有する携帯端末であってもよい。車内スピーカ３０は、車両に搭載され、車両の内部に音声を出力するスピーカである。車内スピーカ３０は車両に複数台搭載され、音声出力制御装置１は複数の車内スピーカ３０と通信してもよい。車内スピーカ３０は、車両に搭乗する人物が用いる携帯端末やオーディオ機器でもよい。

【0014】

図１の説明に戻る。音声出力制御装置１は、画像取得部１１、視線検出部１２、注視判定部１３、音量設定部１４及び音声出力制御部１５を備える。

【0015】

画像取得部１１は、第１のカメラ２０から音声出力制御装置１が設置される車両の周囲を撮像した画像を取得する。

【0016】

視線検出部１２は、画像に含まれる周囲の人物の視線を検出する。視線が検出される周囲の人物は複数人でもよい。具体的には、視線検出部１２は、画像認識技術を用いて撮影範囲内で人物を検出し、さらに人物の眼を認識して、目頭と光彩の位置関係に基づく視線検出や、角膜反射と瞳孔の位置関係に基づく視線検出など任意の手法によって、周囲の人物の視線の方向を検出する。また、視線検出部１２は、撮影範囲内で検出した人物の人数を把握する。視線検出部１２は、例えば、両眼における視線の角度の範囲を指定することで同一人物を認識できる。また、視線検出部１２は、目の数が１つ、または奇数個の場合も、それぞれの角度の範囲から、人数を推定することができる。例えば、視線検出部１２は、眼と眼の角度が１度以内の場合は同一人物、１度を超える場合は他の人物とカウントする。

【0017】

注視判定部１３は、周囲の人物の視線に基づいて、周囲の人物が車両を注視しているか否かを判定する。具体的には、注視判定部１３は、周囲の人物の視線の方向が車両と一致した時間（以下、注視時間）を計測する。注視判定部１３は、周囲の人物の視線の方向が車両が存在する方向と所定時間（例えば２秒）以上一致した場合、周囲の人物が車両を注視していると判定する。このとき、周囲の人物の視線の方向が車両が存在する方向と一致したとは、車両の周囲を撮像した画像上において、周囲の人物の視線が予め定めた領域内を向いていると判定された場合である。第１のカメラ２０が設置される位置や撮像する方向によって、車両が存在する方向となる画像上の領域を、前もって定めておくことができる。

【0018】

なお、注視判定部１３は、周囲の人物が複数人いる場合、複数の周囲の人物のそれぞれの注視時間を計測してもよい。その場合、注視判定部１３は、複数の周囲の人物のいずれかの視線の方向が車両が存在する方向と所定時間以上一致した場合、周囲の人物が車両を注視していると判定する。所定時間とは、例えば、３秒などに設定されてよい。

【0019】

音量設定部１４は、周囲の人物が車両を注視していると判定された場合、注視している時間に基づいて車内スピーカ３０の出力音声の音量を設定する。具体的には、音量設定部１４は、周囲の人物が車両を注視していると判定された場合、車内スピーカ３０の出力音声の現在の音量より低い音量に車内スピーカ３０の出力音声の音量を設定する。なぜなら、周囲の人物が車両を注視している場合、車内スピーカ３０の出力音声の車両外部への音漏れ等によって、周囲の人物が車内スピーカ３０の出力音声に対して悪い感情を抱いている可能性が高いことが予想されるためである。ここで、前述の設定される低い音量とは、３ｄＢ低い音量、機器の音量ボリュームで１段階低い音量など、任意の値低い音量である。また、音量設定部１４は、車内スピーカ３０の出力音声の現在の音量を常に把握していてもよいし、車室内マイク、車両に搭載されるマイクやウェアラブルマイクによって車内スピーカ３０の出力音声の現在の音量を検出してもよい。そして、音量設定部１４は、注視時間が長い程、より低い音量に車内スピーカ３０の出力音声の音量を設定する。なぜなら、注視時間が長い程、周囲の人物が車内スピーカ３０の出力音声に対してより悪い感情を抱いている可能性が高いことが予想されるためである。

【0020】

なお、音量設定部１４は、周囲の人物が複数人いる場合、一番長く注視している人物の注視時間に基づいて車内スピーカ３０の出力音声の音量を設定してもよい。また、音量設定部１４は、周囲の人物が複数人いる場合、次の方法を採用することもできる。音量設定部１４は、周囲の人物の平均注視時間に基づいて車内スピーカ３０の出力音声の音量を設定する。例えば音量設定部１４は、周囲の人物の平均注視時間が長い程、より低い音量に車内スピーカ３０の出力音声の音量を設定する。また、音量設定部１４は、周囲の人物の注視時間の合計に基づいて車内スピーカ３０の出力音声の音量を設定する。周囲の人物の注視時間の合計が長い程、より低い音量に車内スピーカ３０の出力音声の音量を設定する。また、音量設定部１４は、周囲の人物の数に基づいて車内スピーカ３０の出力音声の音量を設定する。例えば、音量設定部１４は、周囲の人物の数が多い程、より低い音量に車内スピーカ３０の出力音声の音量を設定する。また、音量設定部１４は、注視時間が所定の閾値以上の人物の数に基づいて車内スピーカ３０の出力音声の音量を設定する。例えば、音量設定部１４は、注視時間が所定の閾値以上の人物の数が多い程、より低い音量に車内スピーカ３０の出力音声の音量を設定する。

【0021】

音声出力制御部１５は、音量設定部１４で設定された音量で車内スピーカ３０から音声を出力するよう、図示しない音声出力部または図示しない音声出力装置を制御する。音声出力制御部１５は、音声を出力するアンプなどの、音声出力部を含んで構成されてもよく、外部機器である音声出力装置、例えば車載のオーディオ機器に、出力音量を制御する制御信号を送信する形態であってもよい。

【0022】

続いて、図３を用いて、第１の実施形態に係る音声出力制御装置１の動作を説明する。図３は、第１の実施形態に係る音声出力制御装置１の動作の一例を示すフローチャートである。

【0023】

まず、画像取得部１１は、第１のカメラ２０から音声出力制御装置１が搭載された車両の周囲を撮像した画像を取得する（ステップＳ１０１）。次に、視線検出部１２は、画像に含まれる周囲の人物の視線を検出する（ステップＳ１０２）。

【0024】

次に、注視判定部１３は、周囲の人物の視線に基づいて、周囲の人物が車両を注視しているか否かを判定する（ステップＳ１０３）。周囲の人物が対象を注視していないと判定された場合（ステップＳ１０３のＮＯ）、処理はステップＳ１０１に戻る。一方、音量設定部１４は、周囲の人物が対象を注視していると判定された場合（ステップＳ１０３のＹＥＳ）、注視時間に基づいて車内スピーカ３０の出力音声の音量を設定する（ステップＳ１０４）。次に、音声出力制御部１５は、音量設定部１４で設定された音量で車内スピーカ３０から音声を出力するよう制御する（ステップＳ１０５）。

【0025】

上述したように、第１の実施形態に係る音声出力制御装置１は、第１のカメラ２０の画像に含まれる車両の周囲の人物の車両への注視時間に基づいて、車内スピーカ３０からの出力音声の音量を制御する。車両の周囲の人物が車両を注視している場合には、車内スピーカ３０からの出力音声の車両外部への音漏れによって、車両の周囲の人物が車内スピーカ３０の出力音声に対して悪い感情を抱いている可能性が高い。音声出力制御装置１は、悪い感情の車両の周囲の人物がいた場合に、車両に搭乗する人物が気付かなくても自動で車内スピーカ３０の出力音声の音量を下げることができる。したがって、音声出力制御装置１は、周囲の人物がどう感じているかを考慮して出力音声の音量を制御できる。

【0026】

また、音声出力制御装置１は、周囲の人物がどう感じているかを考慮して出力音声の音量を制御できる。このため、バスや送迎車、ライドシェア車両などで、例えばウィルス感染予防のための換気のために窓を開けて走行するケースなどに用いることができる。音声出力制御装置１は、周囲の人物がどう感じているかを考慮して出力音声の音量を制御できるため、車両の窓が開いていることに車両に搭乗する人物が気付いていないケースや、窓を開けた乗客が出力音声の音量を変更しづらいケースなどでも有効である。

【0027】

（第２の実施形態）
続いて、図４を用いて、第２の実施形態に係る音声出力制御装置２の構成について説明する。図４は、第２の実施形態に係る音声出力制御装置２の構成の一例を示すブロック図である。

【0028】

音声出力制御装置２は、第１の実施形態に係る音声出力制御装置１の構成に加え、感情推定部１６を備える。本実施形態の説明では、上述した音声出力制御装置１の構成の説明は省略する。

【0029】

感情推定部１６は、第１のカメラ２０によって撮像された画像に含まれる周囲の人物の感情の種別を推定する。感情の種別は、例えば「嫌悪」及び「怒り」等の悪い感情、「喜び」などの良い感情である。例えば、感情推定部１６は、感情の種別ごとに分類されて学習された認識辞書を用いた機械学習やディープラーニング等の画像認識処理などによって画像に含まれる周囲の人物の感情の種別を推定する。
なお、感情推定部１６は、画像に含まれる周囲の人物が複数人の場合、複数の周囲の人物の感情の種別を推定してもよい。

【0030】

音量設定部１４は、周囲の人物の感情の種別に基づいて出力音声の音量を設定する。例えば、音量設定部１４は、感情の種別が悪い感情であると推定された場合、車内スピーカ３０の出力音声の音量を現在の音量よりも低く設定する。なぜなら、感情の種別が悪い感情であると推定された場合、車内スピーカ３０の出力音声の車両外部への音漏れによって、車両の周囲の人物が車内スピーカ３０の出力音声に対して悪い感情を抱いている可能性が高いからである。一方、音量設定部１４は、感情の種別が良い感情であると推定された場合、車内スピーカ３０の出力音声の音量を現在の音量と同じに維持するか、現在の音量よりも高く設定する。なぜなら、感情の種別が良い感情であると推定された場合、車内スピーカ３０の出力音声の車両外部への音漏れによって、車両の周囲の人物が車内スピーカ３０の出力音声に対して良い感情を抱いている可能性があるからである。

【0031】

なお、音量設定部１４は、車両の周囲の人物が複数人いる場合、次のように出力音声の音量を設定する。音量設定部１４は、複数の周囲の人物の中に感情の種別が悪い感情である人物が１人でもいる場合、複数の周囲の人物が悪い感情であるとし、車内スピーカ３０の出力音声の音量を現在の音量よりも低く設定する。なお、音量設定部１４は、複数の周囲の人物の中で最も多い感情の種別を、複数の周囲の人物の感情の種別とし、周囲の人物の感情の種別に基づいて出力音声の音量を設定してもよい。音量設定部１４は、複数の周囲の人物の中で、感情の種別が悪い感情である人物が所定値以上の比率を占めた場合に、複数の周囲の人物が悪い感情であるとし、車内スピーカ３０の出力音声の音量を現在の音量よりも低く設定してもよい。

【0032】

続いて、図５を用いて、第２の実施形態に係る音声出力制御装置２の動作について説明する。図５は、第２の実施形態に係る音声出力制御装置２の動作の一例を示すフローチャートである。ステップＳ１０１からステップＳ１０３、ステップＳ１０５の処理は、第１の実施形態に係る音声出力制御装置１の処理と同様である。

【0033】

図５に示すように、まず、画像取得部１１は、第１のカメラ２０から音声出力制御装置２が搭載された車両の周囲を撮像した画像を取得する（ステップＳ１０１）。次に、視線検出部１２は、画像に含まれる周囲の人物の視線を検出する（ステップＳ１０２）。

【0034】

【0035】

ステップＳ２０１では、感情推定部１６は、画像に含まれる周囲の人物の感情の種別を推定する。次に、音量設定部１４は、周囲の人物の感情の種別に基づいて車内スピーカ３０の出力音声の音量を設定する（ステップＳ２０２）。

【0036】

次に、音声出力制御部１５は、音量設定部１４で設定された音量で車内スピーカ３０から音声を出力するよう制御する（ステップＳ１０５）。

【0037】

上述したように、第２の実施形態に係る音声出力制御装置２は、音声出力制御装置１の処理に加え、車両の周囲の人物の感情の種別に基づいて車両の内部への出力音声の音量を制御する。音声出力制御装置２は、悪い感情の車両の周囲の人物がいた場合に、車両に搭乗する人物が気付かなくても自動で車内スピーカ３０の出力音声の音量を下げることができる。したがって、音声出力制御装置２は、周囲の人物がどう感じているかをより考慮して出力音声の音量を制御できる。

【0038】

（第３の実施形態）
続いて、図６を用いて、第３の実施形態に係る音声出力制御装置３の構成について説明する。図６は、第３の実施形態に係る音声出力制御装置３の構成の一例を示すブロック図である。

【0039】

図６に示すように、音声出力制御装置３は、第２の実施形態に係る音声出力制御装置２の構成に加え、感情レベル推定部１７を備える。本実施形態の説明では、上述した音声出力制御装置２の構成の説明は省略する。

【0040】

感情レベル推定部１７は、感情推定部１６によって推定された車両の周囲の人物の感情のレベルを推定する。具体的には、感情レベル推定部１７は、周囲の人物の感情の種別を推定するとともに、周囲の人物の悪い感情の強さを示すレベルが例えば５段階の内のどの段階にあるのかを推定する。感情レベル推定部１７は、例えば、感情のレベル別に分類されて学習された認識辞書を用いた機械学習やディープラーニング等の画像認識処理などによって、画像に含まれる周囲の人物の感情のレベルを推定する。感情レベル推定部１７は、眉の角度の大きさや目の見開き方などに基づいて、嫌悪の感情のレベルを推定してもよい。以下では、周囲の人物の感情の種別が悪い感情であり、感情のレベルが高い程、悪い感情が強く、感情のレベルが低い程、悪い感情が弱いとする。

【0041】

音量設定部１４は、感情の種別及び感情のレベルに基づいて、車内スピーカ３０の出力音声の音量を設定する。具体的には、音量設定部１４は、感情の種別が悪い感情であり、感情のレベルが所定の閾値以上である場合、車内スピーカ３０の出力音声の音量を現在の音量よりもより低く設定する。そして、音量設定部１４は、感情の種別が悪い感情であって、さらに感情のレベルが高い、すなわち悪い感情が強い場合、車内スピーカ３０の出力音声の音量を現在の音量よりもより低く設定する。この処理によって、出力音声の音量の制御が周囲の人物の感情の種別及び感情のレベルに合わせてより精度よく行われる。

【0042】

続いて、図７を用いて、第３の実施形態に係る音声出力制御装置３の動作について説明する。図７は、第３の実施形態に係る音声出力制御装置３の動作の一例を示すフローチャートである。ステップＳ１０１からステップＳ１０３、ステップＳ１０５、ステップＳ２０１の処理は、第２の実施形態に係る音声出力制御装置２の処理と同様である。

【0043】

図７に示すように、まず、画像取得部１１は、第１のカメラ２０から音声出力制御装置３が搭載された車両の周囲を撮像した画像を取得する（ステップＳ１０１）。次に、視線検出部１２は、画像に含まれる周囲の人物の視線を検出する（ステップＳ１０２）。

【0044】

次に、注視判定部１３は、周囲の人物の視線に基づいて、周囲の人物が車両を注視しているか否かを判定する（ステップＳ１０３）。周囲の人物が対象を注視していないと判定された場合（ステップＳ１０３のＮＯ）、処理はステップＳ１０１に戻る。一方、音量設定部１４は、周囲の人物が対象を注視していると判定された場合（ステップＳ１０３のＹＥＳ）、感情推定部１６は、画像に含まれる周囲の人物の感情の種別を推定する（ステップＳ２０１）。

【0045】

次に、感情レベル推定部１７は、周囲の人物の感情のレベルを推定する（ステップＳ３０１）。次に、音量設定部１４は、感情のレベルに基づいて、車内スピーカ３０の出力音声の音量を設定する（ステップＳ３０２）。
次に、音声出力制御部１５は、音量設定部１４で設定された音量で車内スピーカ３０から音声を出力するよう制御する（ステップＳ１０５）。

【0046】

上述したように、第３の実施形態に係る音声出力制御装置３は、音声出力制御装置２の処理に加え、車両の周囲の人物の感情のレベルに基づいて車両の内部への出力音声の音量を制御する。音声出力制御装置３は、悪い感情の車両の周囲の人物がいた場合に、車両に搭乗する人物が気付かなくても悪い感情のレベルに応じて自動で車内スピーカ３０の出力音声の音量を下げることができる。したがって、音声出力制御装置３は、周囲の人物がどう感じているかをより考慮して出力音声の音量を制御できる。

【0047】

（第４の実施形態）
続いて、図８及び図９を用いて、第４の実施形態に係る音声出力制御装置４の構成について説明する。図８は、第４の実施形態に係る音声出力制御装置４の構成の一例を示すブロック図である。図９は、第４の実施形態に係る音声出力制御装置４が車両に設置された一例を示す図である。

【0048】

図８及び図９に示すように、音声出力制御装置４は、第１の実施形態に係る音声出力制御装置１の構成に加え、第２のカメラ２１と無線又は有線で通信する。第２のカメラ２１は、車両に搭載され、車両の内部を撮像するカメラである。第２のカメラ２１は、例えば車両の運転者が撮影範囲に入るように車両に設置される。また、音声出力制御装置４は、音声出力制御装置１の構成に加え、視線一致検出部１８を備える。本実施形態の説明では、上述した音声出力制御装置１の構成の説明は省略する。なお第２のカメラ２１は、例えば３６０°などの広い撮像画角を有する、第１のカメラ２０と同一のカメラであってもよい。

【0049】

画像取得部１１は、第１のカメラ２０及び第２のカメラ２１から、車両の周囲、及び、車両の内部を撮像した画像（以下、車内画像）を取得する。
視線検出部１２は、車両の周囲画像に含まれる周囲の人物の視線、及び、車内画像に含まれる車両に搭乗する人物、例えば車両の運転者の視線を検出する。

【0050】

視線一致検出部１８は、車両に搭乗する人物の視線と車両の周囲の人物の視線との一致を検出する。視線が検出される車両に搭乗する人物は、運転者のほかに、同乗者など複数人であってもよい。具体的には、視線一致検出部１８は、車両に搭乗する人物の視線と車両の周囲の人物の視線との一致度合いを算出する。視線一致検出部１８は、両者の人物の視線との一致度合いが所定の閾値以上の場合、両者の人物の視線とが一致したと判定する。視線一致検出部１８は、両者の人物の視線との一致度合いが所定の閾値より低い場合、両者の人物の視線とが一致していないと判定する。

【0051】

視線一致検出部１８は、周囲の人物の視線の方向が車両に搭乗する人物が存在する方向であり、かつ、車両に搭乗する人物の視線の方向が周囲の人物が存在する方向である場合、車両に搭乗する人物の視線と車両の周囲の人物の視線とが一致したと判定する。視線一致検出部１８は、さらに、視線の一致度合いを算出することが好ましい。視線検出部１２が車両の周囲画像に含まれる周囲の人物の視線、及び、車内画像に含まれる車両に搭乗する人物の視線を精度高く検出し、車両に搭乗する人物が存在する方向、及び、周囲の人物が存在する方向と精密に比較することで、視線の一致度合いを算出することができる。この場合、例えば、周囲の人物の視線が車両に搭乗する人物が存在する方向と一致している場合に、視線の一致度合いを高いと判定し、周囲の人物の視線が車両に搭乗する人物の近傍となる方向と一致している場合に、視線の一致度合いを中程度と判定し、周囲の人物の視線が車両に搭乗する人物が存在する方向と相違している場合に、視線の一致度合いを低いと判定する。

【0052】

音量設定部１４は、車両に搭乗する人物の視線と車両の周囲の人物の視線とが一致したと判定された場合、両者の視線の一致度合いに基づいて車内スピーカ３０の出力音声の音量を設定する。具体的には、音量設定部１４は、両者の視線の一致度合いが高い程、車内スピーカ３０の出力音声の音量を現在の音量よりも低く設定する。なぜなら、両者の視線の一致度合いが高い程、周囲の人物が、車両に搭乗する人物から見られているにも関わらず車両に搭乗する人物を注視していることを示しており、車内スピーカ３０の出力音声に対して悪い感情を抱いている可能性が高いことが予想されるためである。例えば、音量設定部１４は、車内スピーカ３０の出力音声の現在の音量から、両者の視線の一致度合いを現在の音量に乗算した値を、減算した値を車内スピーカ３０の出力音声の音量として設定する。

【0053】

なお、音量設定部１４は、車両に搭乗する人物の視線と車両の周囲の人物の視線との一致時間に基づいて車内スピーカ３０の出力音声の音量を設定してもよい。この場合、音量設定部１４は、両者の視線の一致時間が長い程、車内スピーカ３０の出力音声の音量を低く設定する。

【0054】

図１０は、第４の実施形態に係る音声出力制御装置４の動作の一例を示すフローチャートである。ステップＳ１０１からステップＳ１０３、ステップＳ１０５の処理は、第１の実施形態に係る音声出力制御装置１の処理と同様である。

【0055】

図１０に示すように、まず、画像取得部１１は、第１のカメラ２０から音声出力制御装置４が搭載された車両の周囲を撮像した画像を取得する（ステップＳ１０１）。次に、視線検出部１２は、画像に含まれる周囲の人物の視線を検出する（ステップＳ１０２）。

【0056】

【0057】

次に、ステップＳ４０１の処理では、画像取得部１１は、第２のカメラ２１から車両の内部を撮像した車内画像を取得する。
次に、視線検出部１２は、車内画像に含まれる車両に搭乗する人物、例えば車両の運転者の視線を検出する（ステップＳ４０２）。

【0058】

次に、視線一致検出部１８は、車両の周囲の人物と車両に搭乗する人物との視線が一致しているか否かを判定する（ステップＳ４０３）。車両の周囲の人物と車両に搭乗する人物との視線が一致していないと判定された場合（ステップＳ４０３のＮＯ）、処理はステップＳ１０１に戻る。一方、車両の周囲の人物と車両に搭乗する人物との視線が一致していると判定された場合（ステップＳ４０３のＹＥＳ）、音量設定部１４は、車両の周囲の人物と車両に搭乗する人物との視線の一致度合いに基づいて出力音声の音量を設定する。

【0059】

次に、音声出力制御部１５は、音量設定部１４で設定された音量で車内スピーカ３０から音声を出力するよう制御する（ステップＳ１０５）。

【0060】

上述したように、第４の実施形態に係る音声出力制御装置４は、音声出力制御装置１の処理に加え、車両に搭乗する人物と車両の周囲の人物との視線の一致度合いに基づいて車両の内部への出力音声の音量を制御する。例えば、車両に搭乗する人物と車両の周囲の人物との視線の一致度合いが高い場合には車両の周囲の人物が車両の内部の出力音声に対して悪い感情を抱いている可能性が高い。音声出力制御装置４は、悪い感情の車両の周囲の人物がいた場合に、車両に搭乗する人物が気付かなくても自動で車内スピーカ３０の出力音声の音量を下げることができる。したがって、音声出力制御装置４は、周囲の人物がどう感じているかをより考慮して出力音声の音量を制御できる。

【0061】

＜ハードウェア構成＞
上述の実施形態における各構成は、ハードウェア又はソフトウェア、もしくはその両方によって構成され、１つのハードウェア又はソフトウェアから構成してもよいし、複数のハードウェア又はソフトウェアから構成してもよい。各装置及び各機能（処理）を、ＣＰＵ（Central Processing Unit）等のプロセッサ及び記憶装置であるメモリを有するコンピュータにより実現してもよい。例えば、メモリに実施形態における方法を行うためのプログラムを格納し、各機能を、メモリに格納されたプログラムをプロセッサで実行することにより実現してもよい。

【0062】

これらのプログラムは、コンピュータに読み込まれた場合に、実施形態で説明された１又はそれ以上の機能をコンピュータに行わせるための命令群（又はソフトウェアコード）を含む。プログラムは、非一時的なコンピュータ可読媒体又は実体のある記憶媒体に格納されてもよい。限定ではなく例として、コンピュータ可読媒体又は実体のある記憶媒体は、random-access memory（RAM）、read-only memory（ROM）、フラッシュメモリ、solid-state drive（SSD）又はその他のメモリ技術、CD-ROM、digital versatile disc（DVD）、Blu-ray（登録商標）ディスク又はその他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又はその他の磁気ストレージデバイスを含む。プログラムは、一時的なコンピュータ可読媒体又は通信媒体上で送信されてもよい。限定ではなく例として、一時的なコンピュータ可読媒体又は通信媒体は、電気的、光学的、音響的、またはその他の形式の伝搬信号を含む。

【0063】

なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、第２の実施形態に係る音声出力制御装置２の構成又は第３の実施形態に係る音声出力制御装置３の構成に第４の実施形態に係る音声出力制御装置４の構成を組み合わせてもよい。

【0064】

また、第１の実施形態に係る音声出力制御装置１から第４の実施形態に係る音声出力制御装置４が設置される対象は、車両に限定されず、船舶、飛行体、キックスクーター、車椅子などの移動体であってもよい。

【0065】

また、第１の実施形態に係る音声出力制御装置１から第３の実施形態に係る音声出力制御装置３は、対象となる人物に装着されてもよい。例えば音声出力制御装置１は携帯機器等のオーディオ機器として実現される。車内スピーカ３０は、対象の人物に装着されるイヤホン等のスピーカ３０として実現される。第１のカメラ２０は、対象の人物が装着する、周囲の画像を撮像するウェアラブル端末等の携帯端末やＡＲグラスに搭載されるカメラ２０として実現される。

【0066】

その場合、第１の実施形態に係る音声出力制御装置１では、画像取得部１１は、イヤホンのスピーカ３０を装着する対象の人物の周囲を撮像した画像をカメラ２０から取得する。視線検出部１２は、画像に含まれる周囲の人物の視線を検出する。注視判定部１３は、視線に基づいて、周囲の人物が対象の人物を注視しているか否かを判定する。音量設定部１４は、周囲の人物が対象の人物を注視していると判定された場合、注視している時間に基づいて音量を設定する。音声出力制御部１５は、設定された音量で音声をスピーカ３０に出力する。

【0067】

さらに、第２の実施形態に係る音声出力制御装置２では、画像取得部１１は、イヤホンのスピーカ３０を装着する対象の人物の周囲を撮像した画像をカメラ２０から取得する。視線検出部１２は、画像に含まれる周囲の人物の視線を検出する。注視判定部１３は、視線に基づいて、周囲の人物が対象の人物を注視しているか否かを判定する。感情推定部１６は、画像に含まれる周囲の人物の感情の種別を推定する。音量設定部１４は、周囲の人物が対象の人物を注視していると判定された場合、周囲の人物の感情の種別に基づいて音量を設定する。音声出力制御部１５は、設定された音量で音声をスピーカ３０に出力する。

【0068】

さらに、第３の実施形態に係る音声出力制御装置３では、画像取得部１１は、イヤホンのスピーカ３０を装着する対象の人物の周囲を撮像した画像をカメラ２０から取得する。視線検出部１２は、画像に含まれる周囲の人物の視線を検出する。注視判定部１３は、視線に基づいて、周囲の人物が対象の人物を注視しているか否かを判定する。感情レベル推定部１７は、周囲の人物の感情の種別ごとに周囲の人物の感情のレベルを推定する。音量設定部１４は、周囲の人物が対象の人物を注視していると判定された場合、周囲の人物の感情のレベルに基づいて音量を設定する。音声出力制御部１５は、設定された音量で音声をスピーカ３０に出力する。

【0069】

第１の実施形態に係る音声出力制御装置１から第３の実施形態に係る音声出力制御装置３は、対象の人物に装着される場合でも、対象の人物の周囲の人物がどう感じているかを考慮して対象の人物への出力音声の音量を制御できる。

【0070】

また、第１の実施形態に係る音声出力制御装置１から第４の実施形態に係る音声出力制御装置４は、車内スピーカ３０の出力音声の音量を下げる場合に、音声案内やモニタ等への表示などで「音量を制御する」旨の提示があることが好ましい。

【0071】

また、第１の実施形態に係る音声出力制御装置１から第４の実施形態に係る音声出力制御装置４は、車両の個体差（例えば車両の防音度合いの個体差）や車両の窓の開度に基づいて、車内スピーカ３０の出力音声の音量を設定してもよい。また、第１の実施形態に係る音声出力制御装置１から第４の実施形態に係る音声出力制御装置４は、夜間か否か、車両が走行する道路が幹線道路か細街路かスクールゾーンか、などに基づいて、車内スピーカ３０の出力音声の音量が設定されてもよい。

【符号の説明】

【0072】

１、２、３、４音声出力制御装置
１１画像取得部
１２視線検出部
１３注視判定部
１４音量設定部
１５音声出力制御部
１６感情推定部
１７感情レベル推定部
１８視線一致検出部
２０第１のカメラ（カメラ）
２１第２のカメラ
３０車内スピーカ（スピーカ）

【図1】