(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-11
(45)【発行日】2024-10-22
(54)【発明の名称】情報処理装置、情報処理方法及び学習済みモデル
(51)【国際特許分類】
G06F 3/16 20060101AFI20241015BHJP
G10L 15/00 20130101ALI20241015BHJP
G10L 15/10 20060101ALI20241015BHJP
G06F 3/01 20060101ALI20241015BHJP
【FI】
G06F3/16 650
G10L15/00 200J
G10L15/10 500T
G06F3/16 620
G06F3/01 510
G06F3/16 610
(21)【出願番号】P 2021039094
(22)【出願日】2021-03-11
【審査請求日】2023-11-07
(73)【特許権者】
【識別番号】000003997
【氏名又は名称】日産自動車株式会社
(73)【特許権者】
【識別番号】507308902
【氏名又は名称】ルノー エス.ア.エス.
【氏名又は名称原語表記】RENAULT S.A.S.
【住所又は居所原語表記】122-122 bis, avenue du General Leclerc, 92100 Boulogne-Billancourt, France
(74)【代理人】
【識別番号】110000486
【氏名又は名称】弁理士法人とこしえ特許事務所
(72)【発明者】
【氏名】寺口 剛仁
【審査官】三田村 陽平
(56)【参考文献】
【文献】特開2017-211539(JP,A)
【文献】国際公開第2013/089236(WO,A1)
【文献】特開2020-064492(JP,A)
【文献】特開平11-355748(JP,A)
【文献】特開2008-170980(JP,A)
【文献】国際公開第2019/064650(WO,A1)
【文献】特開2020-169956(JP,A)
【文献】米国特許出願公開第2014/0303966(US,A1)
【文献】韓国公開特許第10-2013-0124732(KR,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 3/16
G10L 15/00 -17/26
G06F 3/01
G06F 3/048- 3/04895
(57)【特許請求の範囲】
【請求項1】
第1ユーザに関する情報及び前記第1ユーザの周囲の状況を表す情報のうち少なくともいずれかひとつを含む第1ユーザ情報を取得するユーザ情報取得部と、
第2ユーザの音声情報を取得する音声情報取得部と、
前記音声情報から前記第2ユーザの発話内容を特定する発話内容特定部と、
前記ユーザ情報取得部により取得された前記第1ユーザ情報、及び前記発話内容特定部により特定された前記発話内容に基づいて、前記発話内容を前記第1ユーザに伝える必要度を推定する必要度推定部と、
前記発話内容を表す発話内容情報を、第1出力機器から前記第1ユーザに出力させる制御信号を生成する制御信号生成部と、を備え、
前記制御信号生成部は、
前記発話内容情報を、前記必要度に応じた態様で前記第1出力機器から出力させるように前記制御信号を生成
し、
前記必要度推定部により推定された前記必要度を、第2出力機器から前記第2ユーザに出力させる制御信号を生成する情報処理装置。
【請求項2】
前記第1ユーザは、車両に搭乗している車内ユーザであって、
前記第2ユーザは、前記車両に搭乗していない車外ユーザである請求項1に記載の情報処理装置。
【請求項3】
前記必要度推定部は、前記第1ユーザ情報と前記発話内容に基づいて、前記第1ユーザと前記発話内容とが関連する程度を示す関連度を前記必要度として推定する請求項1又は2に記載の情報処理装置。
【請求項4】
前記必要度推定部は、
前記第1ユーザ情報と前記発話内容に基づいて、前記発話内容に対する前記第1ユーザの不快度を推定し、
前記不快度が高いほど、前記必要度を低く推定する請求項1又は2に記載の情報処理装置。
【請求項5】
前記制御信号生成部は、前記必要度が所定値よりも低い場合には、前記必要度が前記所定値以上である場合よりも音声による出力を制限した態様で、前記発話内容を前記第1出力機器から出力させるように前記制御信号を生成する請求項1~4のいずれかに記載の情報処理装置。
【請求項6】
前記制御信号生成部は、前記必要度が所定値よりも低い場合には、前記発話内容を示す画像の表示という態様で、前記発話内容情報を前記第1出力機器から出力させるように前記制御信号を生成する請求項1~4のいずれかに記載の情報処理装置。
【請求項7】
前記ユーザ情報取得部は、前記第1ユーザによる前記車両の運転操作に関する情報を、前記第1ユーザ情報として取得する請求項2に記載の情報処理装置。
【請求項8】
前記ユーザ情報取得部は、前記第1ユーザの発話内容及び表情のうち少なくともいずれか一方に関する情報を、前記第1ユーザ情報として取得する請求項1~7のいずれかに記載の情報処理装置。
【請求項9】
前記ユーザ情報取得部は、前記第1ユーザが睡眠状態であるか覚醒状態であるかに関する情報を、前記第1ユーザ情報として取得する請求項1~8のいずれかに記載の情報処理装置。
【請求項10】
前記ユーザ情報取得部は、前記第1ユーザの嗜好に関する情報を、前記第1ユーザ情報として取得する請求項1~9のいずれかに記載の情報処理装置。
【請求項11】
前記第1ユーザと前記第2ユーザを特定するユーザ特定部と、
前記第1ユーザと前記第2ユーザとの間の関係性を記憶する関係性記憶部と、をさらに備え、
前記必要度推定部は、
前記関係性記憶部に記憶された、前記ユーザ特定部により特定された前記第1ユーザと前記第2ユーザとの間の関係性に基づいて、前記必要度を推定する請求項1~10のいずれかに記載の情報処理装置。
【請求項12】
前記必要度推定部は、
前記第1ユーザ情報及び前記発話内容に基づいて前記必要度を推定するための学習がされた学習済みモデルに入力データとして前記第1ユーザ情報及び前記発話内容を入力し、
前記学習済みモデルから、前記入力データに対応する出力データとして前記必要度を出力させることで、前記必要度を推定する請求項1~
11のいずれかに記載の情報処理装置。
【請求項13】
前記必要度推定部は、
入力層及び出力層を含み、前記入力層への入力データとして前記第1ユーザ情報と前記発話内容が入力され、前記出力層からの出力データとして前記必要度が出力されるニューラルネットワークと、
前記入力データと前記出力データとを対応付けた教師データを用いて前記ニューラルネットワークを学習させる学習部と、
前記学習部により学習させられた前記ニューラルネットワークに、前記入力データとして前記第1ユーザ情報と前記発話内容を入力し、前記ニューラルネットワークから、前記入力データに対応する前記出力データとして前記必要度を出力させることで前記必要度を推定する推定部とを有する請求項1~
11のいずれかに記載の情報処理装置。
【請求項14】
第1ユーザに関する情報及び前記第1ユーザの周囲の状況を表す情報のうち少なくともいずれかひとつを含む第1ユーザ情報を取得し、
第2ユーザの音声情報を取得し、
前記音声情報から前記第2ユーザの発話内容を特定し、
取得された前記第1ユーザ情報、及び特定された前記発話内容に基づいて、前記発話内容を前記第1ユーザに伝える必要度を推定し、
前記発話内容を表す発話内容情報を、前記必要度に応じた態様で第1出力機器から前記第1ユーザに出力させる制御信号を生成
し、
推定された前記必要度を、第2出力機器から前記第2ユーザに出力させる制御信号を生成する情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法及び学習済みモデルに関するものである。
【背景技術】
【0002】
聞き手の現在の背景騒音環境を分析し、分析の結果を用いて、聞き手に出力される音声が、現在の背景騒音環境において聞き手にとって理解容易であるか否かを判定し、判定に基づいて、出力される音声の特徴を変更する技術が知られている(特許文献1)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1の技術は、音声の内容にかかわらず、単に背景騒音環境の分析結果に基づいて、聞き手により理解できるように特徴を変更した音声を出力するため、音声の内容を聞き手に伝える必要性とは関係なく、音声が出力される。そのため、聞き手は、聞き取る必要がある音声がどれか分からない状態で、出力される全ての音声を聞き取って、聞き手に必要な内容を判断する必要があり、聞き手の音声の聞き取りに生じる負担が大きいという問題がある。
【0005】
本発明が解決しようとする課題は、聞き手の音声の聞き取りに生じる負担を軽減できる情報処理装置、情報処理方法及び学習済みモデルを提供することである。
【課題を解決するための手段】
【0006】
本発明は、第1ユーザに関する情報及び第1ユーザの周囲の状況を表す情報のうち少なくともいずれかひとつを含む第1ユーザ情報を取得し、第2ユーザの音声情報を取得し、音声情報から第2ユーザの発話内容を特定し、取得された第1ユーザ情報、及び特定された発話内容に基づいて、発話内容を第1ユーザに伝える必要度を推定し、発話内容を表す発話内容情報を、必要度に応じた態様で第1出力機器から第1ユーザに出力させる制御信号を生成することによって上記課題を解決する。
【発明の効果】
【0007】
本発明によれば、聞き手の音声の聞き取りに生じる負担を軽減できる。
【図面の簡単な説明】
【0008】
【
図1】
図1は、第1実施形態における情報処理システムの構成の一例を示す図である。
【
図2】
図2は、第1ユーザ情報の判定項目と発話内容との関係を示す図である。
【
図3】
図3は、本実施形態に係る情報処理方法の手順の一例を示す図である。
【
図4】
図4は、本実施形態に係る情報処理装置、車両及び端末装置における情報処理方法の手順の一例を示す図である。
【
図5】
図5は、本実施形態に係る情報処理装置の構成の一例を示す図である。
【
図6】
図6は、本実施形態に係る情報処理装置の構成の一例を示す図である。
【発明を実施するための形態】
【0009】
≪第1実施形態≫
本発明に係る情報処理装置の一実施形態を図面に基づいて説明する。
図1は、本実施形態における情報処理装置100を含む情報処理システム10の構成の一例を示すブロック図である。情報処理システム10は、情報処理装置100と、車両200と、遠隔地空間に位置する端末装置300と、を備える。情報処理装置100は、車両200の車内空間及び遠隔地空間のいずれにも位置しない装置であって、車両200と端末装置300と通信を行い、情報の授受が可能なサーバである。車両200には、第1ユーザが搭乗している。また、遠隔地空間は、車両200から隔離された空間である。遠隔地空間には、第2ユーザがいる。端末装置300は、第2ユーザにより利用される端末である。例えば、端末装置300は、第2ユーザの頭部に到着されるVR用ヘッドマウントディスプレイである。第2ユーザは、端末装置300を介して、あたかも車両200に同乗しているかのように、車両200の車内外の状況が表示される仮想現実を体験することができる。車両200と端末装置300は、遠隔コミュニケーションシステムによって、互いに通信を行って、情報の授受を行う。これにより、車両200と端末装置300の間で、第1ユーザと第2ユーザがお互いに音声情報や映像の送受信を行ってコミュニケーションがとれる。例えば、端末装置300は、車両200の車内空間を構成した仮想空間を第2ユーザに表示してもよい。本実施形態に係る情報処理装置100は、当該遠隔コミュニケーションシステムに適用される装置である。また、情報処理装置100は、車両200に搭載された装置又は端末装置300に適用されることとしてもよい。また、本実施形態では、第1ユーザとして、車両200の車内ユーザ、第2ユーザとして、車両200の車外にいる車外ユーザを例に挙げているが、ユーザは、車内空間にいるか車外空間にいるかに限らず、それぞれ異なる空間に位置するユーザであればよい。例えば、それぞれの自宅にいるユーザであってもよい。また、第1ユーザ、第2ユーザはそれぞれひとりであっても、複数人であってもよい。
【0010】
情報処理装置100は、コントローラ110と、通信装置120と、記憶装置130と、を備える。コントローラ110は、ハードウェア及びソフトウェアを有するコンピュータを備えており、このコンピュータはプログラムを格納したROM(Read Only Memory)と、ROMに格納されたプログラムを実行するCPU(Central Processing Unit)と、アクセス可能な記憶装置として機能するRAM(Random Access Memory)を含むものである。なお、動作回路としては、CPUに代えて又はこれとともに、MPU(Micro Processing Unit)、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)などを用いることができる。コントローラ110は、機能ブロックとして、少なくともユーザ情報取得部111と、音声情報取得部112と、発話内容特定部113と、必要度推定部114と、制御信号生成部115と、ユーザ特定部116と、を含んで構成され、上記各機能を実現する又は各処理を実行するためのソフトウェアと、ハードウェアとの協働により各機能を実行する。具体的には、コントローラ110は、まず、第1ユーザに関する情報及び第1ユーザの周囲の状況を表す情報のうち少なくともいずれかひとつを含む第1ユーザ情報を取得し、第2ユーザの発話内容を特定し、第1ユーザ情報と発話内容に基づいて、第1ユーザに発話内容を伝える必要度を推定する。次に、コントローラ110は、必要度に応じた態様で第1出力装置から発話内容情報を第1ユーザに出力させる制御信号を生成し、車載通信装置211に当該制御信号を送信して第1出力装置212から発話内容情報を出力させる。これにより、第1ユーザにとって聞き取る必要がある音声がどれか明確になり、第1ユーザの聞き取りに生じる負担が軽減する。また、不要な音声の出力を制限することで、第1ユーザが第2ユーザの音声によって不快感を覚えることを防ぐことができ、第1ユーザが運転中であれば、運転操作の妨げになることを防止し、第1ユーザの運転負荷を低減できる。また、必要な音声の出力を強調することで、必要な音声を負担なく聞き取ることができる。そして、例えば、第2ユーザから運転案内に関する音声があった場合には、運転案内にしたがって運転できる。なお、本実施形態では、コントローラ110が有する機能を6つのブロックとして分けた上で、各機能ブロックの機能を説明するが、コントローラ110の機能は必ずしも6つのブロックに分ける必要はなく、5つ以下の機能ブロック、あるいは、7つ以上の機能ブロックで分けてもよい。
【0011】
ユーザ情報取得部111は、車内向けセンサ220及び車外向けセンサ230により検出されたセンサ情報から、第1ユーザに関する情報及び第1ユーザの周囲の状況を表す情報のうち少なくともいずれかひとつを含む第1ユーザ情報を取得する。第1ユーザに関する情報は、第1ユーザの状態や属性に関する情報を含む。ユーザ情報取得部111は、第1ユーザが複数人いる場合には、それぞれのユーザに対して、第1ユーザに関する情報を取得する。以下、第1ユーザに関する情報の取得方法について説明する。
【0012】
第1ユーザの状態に関する情報は、第1ユーザが車両200内のどの座席に座っているか、例えば、運転席、助手席、後部座席のどの座席に座っているかの情報を含む。ユーザ情報取得部111は、車内カメラ221により撮像された撮像画像から、画像認識技術により、第1ユーザが座っている座席位置の情報を取得する。例えば、座席ごとに、運転席は1、助手席は2、後部座席のうち運転席に近い順から、3、4・・・と番号が割り当てられ、ユーザ情報取得部111は、第1ユーザの座席の番号を、座席位置の情報として取得する。また、第1ユーザの状態に関する情報は、第1ユーザの視線が注視するべき対象に向いているかの情報を含む。ユーザ情報取得部111は、まず、車外カメラ231により撮像された撮像画像から、画像認識技術により、車両の前方の、運転者が注視する必要のある注視対象の位置を特定する。運転者が注視する必要のある注視対象は、例えば、対向車両や歩行者、信号である。また、ユーザ情報取得部111は、車内カメラ221により撮像された撮像画像から、第1ユーザの視線方向を特定し、第1ユーザの視点の位置を推定する。そして、ユーザ情報取得部111は、注視対象の位置と第1ユーザの視点の位置に基づいて、第1ユーザの視線が注視すべき対象に向いているかの情報を取得する。また、ユーザ情報取得部111は、視点の位置と注視対象の位置との間の距離に基づいた数値を取得してもよい。具体的には、ユーザ情報取得部111は、視点の位置と注視対象の位置との間の距離を、所定の基準距離で正規化した値を取得する。例えば、ユーザ情報取得部111は、視点の位置と注視対象の位置との間の距離を0~1の範囲の値に変換した値を取得する。
【0013】
また、第1ユーザの状態に関する情報は、第1ユーザの発話又は表情に関する情報を含む。ユーザ情報取得部111は、車内マイク222により集音された第1ユーザの音声又は車内カメラ221により撮像された第1ユーザの顔の画像から、第1ユーザの発話又は表情に関する情報を取得する。例えば、第1ユーザの発話に関する情報は、第2ユーザの発話内容が自分に関係ない又は不快であるとの発話があったか否かの情報を含む。ユーザ情報取得部111は、車内マイク222により集音された音声情報から、音声認識技術により、発話内容が自分に関係ない又は不快である旨を示すキーワードが抽出された場合に、発話内容が自分に関係ない又は不快であるとの発話の情報を取得する。また、例えば、第1ユーザの表情に関する情報は、発話内容が不快であるかの情報である。ユーザ情報取得部111は、車内カメラ221により撮像された第1ユーザの顔の画像から、画像認識技術によって、第1ユーザの表情を「喜」、「怒」、「哀」、「楽」の4つの区分のいずれかに分類して、該当する区分の表情を、第1ユーザの表情に関する情報として取得する。また、第1ユーザの状態に関する情報は、第1ユーザが睡眠中であるか覚醒中であるかの情報を含む。ユーザ情報取得部111は、車内カメラ221により撮像された車内の撮像画像から、画像認識技術により、第1ユーザが睡眠中であるか覚醒中であるかの情報を取得する。
【0014】
また、第1ユーザの属性に関する情報は、第1ユーザが運転者か否かに関する情報、第1ユーザの嗜好に関する情報、第2ユーザとの関係性に関する情報を含む。ユーザ情報取得部111は、車内の撮像画像から、画像認識技術により、第1ユーザが運転者であるとの情報を取得する。第1ユーザの属性に関する情報は、第1ユーザの嗜好に関する情報を含む。第1ユーザの嗜好に関する情報は、例えば、自動車に関する話題等、第1ユーザの会話の話題に対する嗜好の情報である。第1ユーザの嗜好に関する情報は、あらかじめ情報処理装置100に登録され、記憶装置130に記憶される。例えば、ユーザは、あらかじめ興味・関心のある話題を、第1ユーザに関する情報として登録する。ユーザ情報取得部111は、記憶装置130から、第1ユーザの嗜好に関する情報を取得する。
【0015】
また、第1ユーザの周囲の状況の情報は、車両200の車内状況に関する情報、車両200の車外状況に関する情報及び車両200の車両状況に関する情報を含む。車両200の車内状況に関する情報は、第1ユーザが他のユーザと会話している状況及び第1ユーザがラジオを聴いている状況に関する情報を含む。ユーザ情報取得部111は、車内向けセンサ220により検出された、第1ユーザを含む車内の画像及び音声から、画像認識技術及び音声認識技術により、車両200の車内状況に関する情報を取得する。例えば、ユーザ情報取得部111は、車内にいるユーザ間で会話をしている状況等の車内の状況を特定して、車両200の車内状況に関する情報を取得する。
【0016】
車両200の車外状況に関する情報は、車外で雨が降っている状況や車両200付近に緊急車両が走行している状況に関する情報を含む。ユーザ情報取得部111は、車外向けセンサ230により検出された、車外の画像や音声から、車両200の車外状況に関する情報を取得する。具体的には、ユーザ情報取得部111は、車外カメラ231により車両200の周囲を撮像した周囲画像から、画像認識技術により、車両200の車外状況に関する情報を取得する。また、ユーザ情報取得部111は、車外マイク232により集音された車外の音声情報から、音声認識技術により、車両200の車外状況に関する情報を取得する。また、ユーザ情報取得部111は、車外向けセンサ230である車外カメラ231、車外マイク232だけでなく、レーダ233や超音波センサ234を用いて、車両200の車外状況に関する情報を取得してもよい。例えば、ユーザ情報取得部111は、レーダ233や超音波センサ234により検出された、緊急車両との距離や車両200に対する方向の情報に基づいて、当該緊急車両が車両200に近づいている状況であるか否かの情報を取得してもよい。
【0017】
また、ユーザ情報取得部111は、周辺情報サーバ400から取得した交通情報や天候情報から、車両200の車外状況に関する情報を取得してもよい。例えば、ユーザ情報取得部111は、周辺情報サーバ400の交通情報から、車両200が走行している道路が渋滞であるとの情報を取得してもよい。また、ユーザ情報取得部111は、周辺情報サーバ400の天候情報から、車外で雨が降っているという情報を取得してもよい。
【0018】
車両200の車両状況に関する情報は、車両200が後ろ向き駐車をしている状況、車両200が縦列駐車をしている状況、車両200が高速道路を走行している状況に関する情報を含む。ユーザ情報取得部111は、車内向けセンサ220である舵角センサ223、及びペダルセンサ224、及びGPS235により検出された各種センサ情報から、車両200の車両状況に関する情報を取得する。具体的には、ユーザ情報取得部111は、舵角センサ223やペダルセンサ224から取得された運転者の運転操作に関する情報から、車両200の車両状況に関する情報を取得する。また、ユーザ情報取得部111は、GPS235により取得された自車位置と地図情報から、地図上において自車位置が高速道路上に位置する場合には、車両200が高速道路を走行している状況であるという情報を取得する。
【0019】
音声情報取得部112は、第2ユーザの音声情報を取得する。具体的には、音声情報取得部112は、通信装置120を介して、端末装置300のマイク313により集音された第2ユーザの音声情報を取得する。
【0020】
発話内容特定部113は、音声情報取得部112により出力された音声情報から、発話内容を特定する。発話内容特定部は、音声情報の音声認識処理を行ってテキストデータを生成して、テキストデータを解析することで発話内容を特定する。具体的には、発話内容特定部113は、テキストデータから1以上のキーワードを抽出して、キーワード毎に設定された発話内容の分類又はキーワード間の関連性に応じて、発話内容の種別を特定する。例えば、発話内容特定部113は、音声情報から運転案内に関するキーワードが抽出された場合には、当該音声情報の発話内容を運転案内に関する種別の発話内容として特定する。また、発話内容は、運転案内以外に、例えば、趣味や時事、車外の景色等の特定の話題に関する内容、緊急性のある内容、及び車両200内の特定のユーザに関する内容を含む。
【0021】
必要度推定部114は、第1ユーザ情報及び第2ユーザの発話内容に基づいて、第2ユーザの発話内容を第1ユーザに伝える必要度を推定する。必要度は、現在の状況において第1ユーザに第2ユーザの発話内容を伝える必要の度合いを示す値である。例えば、必要度推定部114は、現在の状況における第1ユーザと、発話内容とが関連する程度を示す関連度を必要度として推定する。発話内容が、第1ユーザとの関連性が高い内容であれば、第1ユーザに発話内容を伝達する必要があると考えられるからである。例えば、第1ユーザが運転者であれば、運転操作に関する発話内容は、関連性が高く、伝える必要がある内容である。一方で、第1ユーザが後部座席に座っている乗員である場合には、運転操作に関する発話内容は、関連性が低く、伝える必要がない内容である。また、第1ユーザが後部座席で睡眠中であれば、運転操作に関する発話内容の音声を出力することで睡眠を妨害してしまうため、運転操作に関する発話内容は、関連性が低く、伝える必要がない。また、例えば、第1ユーザの嗜好として、第1ユーザが自動車の話題に関心がある場合には、発話内容が自動車の話題であれば、関連性が高い。本実施形態では、必要度推定部114は、例えば、第1ユーザと発話内容との間に関連性があると判定した場合には、関連度を1として推定する。また、必要度推定部114は、第1ユーザと発話内容との間に関連性がないと判定した場合には、関連度を0として推定する。
【0022】
例えば、必要度推定部114は、運転者であるか否かの情報に基づいて、関連度を推定する。第1ユーザが運転者である場合に、発話内容に、運転案内に関する内容が含まれているときには、第1ユーザと発話内容との間に関連性があると判定して、関連度を1として推定する。また、必要度推定部114は、第1ユーザが後部座席で睡眠中又は他のユーザと会話中である場合で、発話内容が運転案内に関する発話内容であれば、第1ユーザと発話内容との間で関連性がないと判定し、関連度を0として推定する。また、必要度推定部114は、第1ユーザが運転者である時に、第2ユーザの発話内容が、安全運転上、運転者が注視すべき対象を注視するよう運転者に促すものである場合、第1ユーザの視点の位置と注視対象の位置との間の距離に基づいて、関連度を推定してもよい。例えば、必要度推定部114は、距離が遠いほど関連度を高く推定し、距離が近いほど関連度を低く推定する。また、必要度推定部114は、第1ユーザ情報として、第1ユーザの周囲の状況に関する情報に基づいて、第1ユーザと発話内容との間の関連性を推定する。例えば、必要度推定部114は、第1ユーザの周囲の状況が、緊急車両が車両の近くを走行している状況で、発話内容が緊急車両に関連した運転案内を含む場合には、第1ユーザと発話内容との間に関連性があると判定して関連度を1として推定する。また、必要度推定部114は、車両状況が縦列駐車を行っている状況で、発話内容が運転案内に関する発話内容ではない場合には、第1ユーザと発話内容との間に関連性が低いと判定して、関連度を0として推定する。
【0023】
以上のように、本実施形態では、第1ユーザ情報の各判定項目と、発話内容との間の関連性を判定する。より具体的には、まず、発話内容特定部113が、発話内容が属する種別を特定する。例えば、発話内容特定部113は、発話内容を、運転案内に関する種別、又は運転案内以外に関する種別として特定する。そして、
図2に記載のテーブルに示されるように、第1ユーザ情報の判定項目には、項目ごとに、発話内容の種別(運転案内に関する種別又は運転案内以外に関する種別)に対する関連度が設定されている。必要度推定部114は、テーブルを参照して、1以上の第1ユーザ情報の判定項目について、種別が特定された発話内容との間で関連性があるか否かを判定し、少なくとも1以上の判定項目で関連性があると判定される場合には、関連度を1として推定する。なお、本実施形態では、発話内容の種別は、運転案内に関する種別又は運転案内以外に関する種別に限らず、その他の種別を含むこととしてもよい。また、第1ユーザ情報の判定項目についても、
図2のテーブルに記載されているものに限らず、第1ユーザと発話内容との関連性を判定できるその他の項目を用いることとしてもよい。
【0024】
また、上記の説明では、必要度推定部114は、第1ユーザ情報のうち少なくともひとつの判定項目について、発話内容との関連性を判定し、関連度を0又は1として推定することとしたが、これに限らず、第1ユーザ情報の複数の判定項目それぞれについて、発話内容との関連性を判定して項目関連度を推定し、項目関連度を加算することで関連度を推定してもよい。具体的には、
図2に記載のテーブルに示される、第1ユーザ情報の判定項目について、発話内容との関連性を判定し、関連性があると判定された場合には、当該判定項目の項目関連度を1として推定する。また、項目関連度の値は1に限定されず、判定項目ごとに異なる値を設定してもよい。本実施形態では、必要度推定部114は、対象となる各判定項目のすべてについて、項目関連度を推定すると、推定された各項目関連度を加算して関連度を推定する。また、必要度推定部114は、ユーザ特定部116により特定された第1ユーザと第2ユーザの関係性に基づいて、関連度の調整を行うこととしてもよい。具体的には、必要度推定部114は、第1ユーザと第2ユーザとの関係性が、近い関係性であれば、関連度に1を加算して、第1ユーザと第2ユーザとの関係性が、遠い関係性であれば、関連度に点数を加算しない。近い関係性とは、家族関係や友人関係である。遠い関係性とは、他人関係である。ユーザ間の関係性の情報は、データベースに記憶されている。
【0025】
また、必要度推定部114は、発話内容に対する第1ユーザの不快度を推定し、不快度に応じて必要度を推定してもよい。具体的には、必要度推定部114は、不快度が高いほど必要度を低く推定し、不快度が低いほど必要度を高く推定する。例えば、必要度推定部114は、ユーザ情報取得部111により取得された第1ユーザの発話又は表情に基づいて、不快度を推定する。必要度推定部114は、第1ユーザの発話に不快である旨の発言がある、又は第1ユーザの表情が不快を表す表情である場合には、不快度を1として推定する。そして、必要度推定部114は、推定された不快度に基づいて、不快度が高いほど、必要度を低く推定し、不快度が低いほど、必要度を高く推定する。
【0026】
制御信号生成部115は、発話内容を示す発話内容情報を、第1出力装置212から第1ユーザに出力させる制御信号を生成する。このとき、制御信号生成部115は、必要度推定部114で推定された必要度に応じた態様で、発話内容情報を出力させる制御信号を生成する。出力態様は、音声による出力、画像による出力を含む。また、音声出力の態様は、例えば、音の大きさや音の高さで表される。本実施形態では、制御信号生成部115は、必要度が所定値よりも低いときには、必要度が所定値以上であるときより、音の大きさを低く設定する。また、制御信号生成部115は、必要度が所定値以上である場合には、必要度が所定値よりも低い場合よりも、音の出力を大きく設定する。必要度が低い場合には、第1ユーザに音声を伝える必要がないため、音の出力を小さくして第1ユーザに伝わりにくくする。一方で、必要度が高い場合には、第1ユーザに音声を伝達する必要があるため、音の出力を大きくすることで第1ユーザに聞こえやすくする。例えば、第1ユーザが運転者で、後ろ向き駐車のような、運転に注意が必要な状況である場合に、発話内容が、緊急性の低い内容であるときには、制御信号生成部115は、音の出力を低く設定する。
【0027】
また、制御信号生成部115は、第1ユーザに発話内容を伝える必要度が所定値以下の場合には、車両200に搭載された複数の音声出力装置214のうち、第1ユーザの近くにある音声出力装置214から発話内容情報を出力せず、第1ユーザから遠い位置にある音声出力装置214から発話内容情報を出力させる制御信号を生成することとしてもよい。例えば、第1ユーザが運転者ではなく、発話内容が、運転者にのみ関係するような、運転案内に関する内容である場合には、制御信号生成部115は、運転者に近い音声出力装置214から発話内容情報を出力させる制御信号を生成する。また、制御信号生成部115は、必要度が所定値よりも大きい場合には、複数の音声出力装置214のうち、第1ユーザの近くにある音声出力装置214から発話内容情報を出力する制御信号を生成する。また、制御信号生成部115は、仮想音響により発話内容情報を出力する制御信号を生成してもよい。具体的には、制御信号生成部115は、必要度が所定値より小さい場合には、あたかも第1ユーザから遠くに位置する仮想音源から発話内容情報が出力されるように知覚される仮想音響を出力する制御信号を生成する。制御信号生成部115は、生成された制御信号を通信装置120に出力する。また、制御信号生成部115は、発話内容情報を表す画像の表示という態様で、発話内容情報を第1ユーザに出力する制御信号を生成してもよい。具体的には、制御信号生成部115は、発話内容情報を表す画像を第1出力装置から第1ユーザに表示させる制御信号を生成する。例えば、第1ユーザが後方座席で睡眠中であって、発話内容が運転案内に関する内容である場合には、制御信号生成部115は、音声出力を制限し、運転者が視認できる位置にある表示装置213にのみ発話内容情報を表す画像を出力する制御信号を生成する。制御信号生成部115は、生成された制御信号を通信装置120に出力する。また、制御信号生成部115は、端末装置300から第2ユーザに必要度情報を出力する制御信号を生成する。制御信号生成部115は、生成された制御信号を通信装置120に出力する。
【0028】
ユーザ特定部116は、第1ユーザと第2ユーザを特定する。ユーザ特定部116は、車内向けセンサにより取得された車内画像から、画像認識により、第1ユーザを特定する。また、ユーザ自身が情報処理システム10にユーザを登録することで、ユーザ特定部116は、登録されたユーザを第1ユーザ又は第2ユーザとして特定してもよい。本実施形態では、第1ユーザ及び第2ユーザに関する登録情報がそれぞれ、あらかじめ記憶装置130に記憶されている。そして、ユーザ特定部116は、ユーザに関する登録情報を参照して、第1ユーザ及び第2ユーザを特定する。
【0029】
通信装置120は、車載通信装置211及び端末通信装置312と相互に情報を送受信する。例えば、通信装置120は、車載通信装置211から、車内向けセンサ220及び車外向けセンサ230により取得された各種センサ情報を受信する。通信装置120は、端末通信装置312から、第2ユーザの音声情報を受信する。また、通信装置120は、周辺情報サーバ400から、交通情報や天候情報を受信する。記憶装置130は、ユーザの登録情報及びユーザ間の関係性に関する情報を記憶する。また、記憶装置130は、
図2のテーブルで示されるデータベースを記憶する。
【0030】
次に、車両200について説明する。車両200は、車載コントローラ210と、車載通信装置211と、第1出力装置212と、車内向けセンサ220と、車外向けセンサ230と、を備える。第1ユーザは、例えば、運転者又は運転をしていない乗員である。第1ユーザは、一人であっても、複数人であってもよい。車載コントローラ210は、車内向けセンサ220及び車外向けセンサ230からセンサ情報を取得し、車載通信装置211に出力する。また、車載コントローラ210は、車載通信装置211が受信した第2ユーザの発話内容情報を第1出力装置212に出力する。車載通信装置211は、情報処理装置100の通信装置120及び端末装置300の端末通信装置312と通信を行い、情報等の送受信を行う。例えば、車載通信装置211は、通信装置120又は端末通信装置312から第2ユーザの発話内容情報を受信する。また、車載通信装置211は、車内向けセンサ220及び車外向けセンサ230により検出されたセンサ情報を情報処理装置100に送信する。第1出力装置212は、第1ユーザに第2ユーザの発話内容情報を出力する。第1出力装置212は、表示装置213と、音声出力装置214とを備える。第1出力装置212は、車載コントローラ210から出力された発話内容情報を、表示装置213及び/又は音声出力装置214から第1ユーザに出力する。表示装置213は、例えば、ディスプレイであり、発話内容情報を示す画像を表示させる。音声出力装置214は、例えば、スピーカーであり、発話内容情報を示す音声を出力する。
【0031】
車内向けセンサ220は、第1ユーザを含む車両200の車内の状況を取得するセンサ群である。車内向けセンサ220は、車内カメラ221と、車内マイク222と、舵角センサ223と、ペダルセンサ224とを含む。車内カメラ221は、車両200内を撮像するように設置される。具体的には、車内カメラ221は、一定の周期で、第1ユーザを含む車両200内を撮像する。例えば、車内カメラ221は、赤外線LEDと赤外線カメラを用いたカメラデバイス等が用いられる。車内カメラ221で撮像された画像データは、車載コントローラ210に出力される。車内マイク222は、第1ユーザが発する音声を取得する。車内マイク222は、第1ユーザの音声を取得すると、取得された音声を音声信号に変換した音声情報を車載コントローラ210に出力する。舵角センサ223は、車両200のステアリング装置の舵角を検出する。舵角センサ223により検出された舵角情報は、車載コントローラ210に出力される。ペダルセンサ224は、アクセルペダル及びブレーキペダルの踏込量を検出する。検出されたペダル踏込量の情報は、車載コントローラ210に出力される。
【0032】
車外向けセンサ230は、車両200の車外の状況を取得するセンサ群である。車外向けセンサ230は、車外カメラ231と、車外マイク232と、レーダ233と、超音波センサ234と、GPS235と、を備える。車外カメラ231は、車両200の車外を撮像するように設置される。具体的には、車外カメラ231は、一定の周期で、車両200の車外を撮像する。例えば、車外カメラ231は、赤外線LEDと赤外線カメラを用いたカメラデバイス等が用いられる。車外カメラ231で撮像された画像データは、車載コントローラ210に出力される。車外マイク232は、車外で聞こえる音声を取得する。車外マイク232は、車外の音声を取得すると、取得された音声を音声信号に変換した音声情報を車載コントローラ210に出力する。レーダ233及び超音波センサ234は、車両200と、車両200周囲の対象物との相対距離を取得する。レーダ233は、レーザーレーダ、ミリ波レーダなど(LRF等)、LiDARユニットを用いることができる。対象物は、路面標識、道路標識、信号機、横断歩道、工事現場、事故現場、交通制限、自車両以外の自動車(他車両)、オートバイ、自転車、歩行者を含む。GPS235は、車両200の現在位置を検出する。GPS235は、複数の衛星通信から送信される電波を受信機で受信することで、車両200の位置情報を取得する。また、GPS235は、周期的に複数の衛星通信から送信される電波を受信することで、車両200の位置情報の変化を検出することができる。
【0033】
端末装置300は、第2ユーザにより利用される端末であって、第2ユーザの音声を取得し第2ユーザに音声や画像を出力する。端末装置300は、例えば、メガネ型又はゴーグル型のヘッドマウントディスプレイであって、第2ユーザの頭部に装着される。端末装置300は、端末コントローラ311と、端末通信装置312と、マイク313と、第2出力装置314とを備える。端末コントローラ311は、端末装置300の各装置の機能を制御する。具体的には、端末コントローラ311は、マイク313から第2ユーザの音声情報の入力があると、端末通信装置312に、当該音声情報を情報処理装置100に送信する制御信号を出力する。また、端末コントローラ311は、端末通信装置312により受信された情報を、第2出力装置から第2ユーザに出力させる制御信号を出力する。端末通信装置312は、通信装置120及び車載通信装置211と通信を行い、情報の授受を行う。例えば、端末通信装置312は、第2ユーザの音声情報を、通信装置120及び車載通信装置211に送信する。マイク313は、第2ユーザが発する音声を取得する。マイク313は、第2ユーザの音声を取得すると、取得された音声を音声信号に変換した音声情報を端末コントローラ311に出力する。第2出力装置314は、第2ユーザに、端末通信装置312により受信された情報を出力する。例えば、第2出力装置314は、第1ユーザの発話内容情報を第2ユーザに出力する。また、第2出力装置314は、必要度を示す情報を出力する。第2出力装置314は、表示装置315と、音声出力装置316とを備える。第2出力装置314は、端末コントローラ311から出力された発話内容情報を、表示装置315及び/又は音声出力装置316から第2ユーザに出力する。表示装置315は、例えば、ディスプレイであり、発話内容情報を示す画像を表示させる。音声出力装置316は、例えば、スピーカーであり、発話内容情報を示す音声を出力する。
【0034】
周辺情報サーバ400は、車両200の周囲の状況を取得し、通信装置120に送信する。周辺情報サーバ400は、VICS(登録商標)(Vehicle Information and Communication System)等のインフラの情報を取得する。また、周辺情報サーバ400は、路上設備に備えられた外部情報取得装置のセンサにより検出された車両200の周囲の状況の情報を取得してもよい。また、周辺情報サーバ400は、天候情報を取得する。
【0035】
次に、
図3を用いて、本実施形態に係る情報処理方法の手順を説明する。
図3は、情報処理装置100における情報処理方法の手順を示すフローチャートである。本実施形態では、第1ユーザと第2ユーザが遠隔コミュニケーションシステムを起動させることで、情報処理装置100の制御が開始する。
【0036】
ステップS1では、コントローラ110は、第1ユーザと第2ユーザを特定する。ステップS2では、コントローラ110は、第1ユーザと第2ユーザの関係性を特定する。具体的には、コントローラ110は、記憶装置130に記憶されたユーザ間の関係性に基づいて、ユーザ特定部116により特定された第1ユーザと第2ユーザの関係性を特定する。
【0037】
ステップS3では、コントローラ110は、第1ユーザ情報を取得する。具体的には、コントローラ110は、車両200及び周辺情報サーバ400から、第1ユーザ情報として、第1ユーザに関する情報及び第1ユーザの周囲の状況を表す情報のうち少なくともいずれかひとつの情報を取得する。
【0038】
ステップS4では、コントローラ110は、第2ユーザの音声情報を取得したか否かを判定する。コントローラ110は、端末通信装置312から第2ユーザの音声情報の入力があった場合には、第2ユーザの音声情報を取得したと判定する。第2ユーザの音声情報を取得したと判定された場合には、ステップS5に進む。第2ユーザの音声情報を取得したと判定されない場合には、ステップS10に進む。ステップS5では、コントローラ110は、音声情報から、第2ユーザの発話内容を特定する。具体的には、コントローラ110は、音声情報から、音声認識技術により、発話内容の種別を特定する。
【0039】
ステップS6では、コントローラ110は、第1ユーザ情報と、発話内容とに基づいて、第1ユーザに第2ユーザの発話内容を伝える必要度を推定する。具体的には、コントローラ110は、第1ユーザ情報に関する判定項目それぞれについて、発話内容との関連性を判定して項目関連度を推定し、それぞれ推定された項目関連度を合算することで関連度を推定する。
【0040】
ステップS7では、コントローラ110は、必要度に応じた態様で、発話内容情報を出力させる制御信号を生成する。例えば、コントローラ110は、必要度が所定値より小さい場合には、必要度が所定値以上である場合よりも、音の出力を小さくした態様で、発話内容情報を表す音声を出力する制御信号を生成する。また、コントローラ110は、必要度が所定値より小さい場合には、発話内容情報を表す画像を表示する制御信号を生成してもよい。
【0041】
ステップS8では、コントローラ110は、ステップS7で生成された制御信号を車両200の車載通信装置211に送信する。
【0042】
ステップS9及び10では、コントローラ110は、遠隔コミュニケーションシステムが終了したか否かを判定する。遠隔コミュニケーションシステムが終了したと判定された場合には、本実施形態に係る情報処理方法の制御フローを終了する。遠隔コミュニケーションシステムが終了していないと判定される場合には、ステップS3に戻り、以下、フローを繰り返す。
【0043】
次に、
図4を用いて、本実施形態に係る情報処理方法の一例を説明する。
図4は、本実施形態に係る情報処理装置、車両及び端末装置における情報処理方法の手順の一例を示す図である。本実施形態では、車両200に搭乗しているユーザと、端末装置300を利用しているユーザが、遠隔コミュニケーションシステムを起動させることで、情報処理の制御が開始される。
【0044】
ステップS11では、情報処理装置100は、第1ユーザ及び第2ユーザを特定する。ステップS12では、情報処理装置100は、第1ユーザと第2ユーザの関係性を特定する。
【0045】
ステップS13では、車両200は、車内向けセンサ220及び車外向けセンサ230により、センサ情報を検出する。ステップS14では、車両200は、センサ情報を情報処理装置100に送信する。ステップS15では、情報処理装置100は、ステップS14で送信されたセンサ情報から、第1ユーザ情報を取得する。
【0046】
ステップS16では、端末装置300は、第2ユーザの音声情報を取得したか否かを判定する。具体的には、端末装置300は、マイク313に第2ユーザの音声の入力があった場合には、第2ユーザの音声情報を取得したと判定する。第2ユーザの音声情報を取得したと判定される場合には、ステップS17に進む。第2ユーザの音声情報を取得したと判定されない場合には、ステップS26に進む。
【0047】
ステップS17では、端末装置300は、第2ユーザの音声情報を情報処理装置100に送信する。ステップS18では、情報処理装置100は、ステップS17で送信された第2ユーザの音声情報を受信する。ステップS19~ステップS22までのステップにおける制御は、
図3におけるステップS5~ステップS8までの制御と同様の内容であるため、説明を省略する。ステップS22で、情報処理装置100により生成された制御信号が車両200に送信されると、ステップS23で、車両200は、当該制御信号を受信する。
【0048】
ステップS24では、車両200は、必要度に応じた態様で発話内容情報を第1ユーザに出力する。
【0049】
ステップS25及び26では、情報処理装置100は、遠隔コミュニケーションシステムは終了したか否かを判定する。例えば、第1ユーザ又は第2ユーザが遠隔コミュニケーションシステムを終了した場合には、遠隔コミュニケーションシステムは終了したと判定する。遠隔コミュニケーションシステムは終了したと判定される場合には、フローを終了する。遠隔コミュニケーションシステムは終了したと判定されない場合には、ステップS13に戻り、以下、フローを繰り返す。
【0050】
以上のように、本実施形態では、第1ユーザに関する情報及び第1ユーザの周囲の状況を表す情報のうち少なくともいずれかひとつを含む第1ユーザ情報を取得し、第2ユーザの音声情報を取得し、音声情報から第2ユーザの発話内容を特定し、取得された第1ユーザ情報、及び特定された発話内容に基づいて、発話内容を第1ユーザに伝える必要度を推定し、発話内容を表す発話内容情報を、必要度に応じた態様で第1出力機器から第1ユーザに出力させる制御信号を生成する。これにより、聞き手の音声の聞き取りに生じる負担を軽減できる。
【0051】
また、本実施形態では、第1ユーザは、車両に搭乗している車内ユーザであって、第2ユーザは、車両に搭乗していない車外ユーザである。これにより、車内にいるユーザと、車外にいるユーザとの間のコミュニケーションを円滑にすることができる。
【0052】
また、本実施形態では、第1ユーザ情報と発話内容に基づいて、第1ユーザと発話内容とが関連する程度を示す関連度を必要度として推定する。これにより、第1ユーザと発話内容との関連度合いに応じて第1ユーザに第2ユーザの発話内容を伝えることができる。
【0053】
また、本実施形態では、第1ユーザ情報と発話内容に基づいて、発話内容に対する第1ユーザの不快度を推定し、不快度が高いほど、必要度を低く推定する。これにより、第1ユーザが不快に感じる発話内容は、第1ユーザに伝わりにくくすることができる。
【0054】
また、本実施形態では、必要度が所定値よりも低い場合には、必要度が所定値以上である場合よりも音声による出力を制限した態様で、発話内容を第1出力機器から出力させるように制御信号を生成する。これにより、第2ユーザの発話内容を第1ユーザに伝える必要性が低い場合には、第1ユーザに第2ユーザの発話内容が伝わりにくくすることができる。
【0055】
また、本実施形態では、必要度が所定値よりも低い場合には、発話内容を示す画像の表示という態様で、発話内容情報を第1出力機器から出力させるように制御信号を生成する。これにより、第2ユーザの発話内容を第1ユーザに伝える必要度合いが低い場合には、第2ユーザの発話内容の音声による出力を制限することができる。
【0056】
また、本実施形態では、第1ユーザによる車両の運転操作に関する情報を、第1ユーザ情報として取得する。これにより、第2ユーザの音声が第1ユーザの運転負荷を高めてしまう場合に、第2ユーザの音声の出力を制限することができる。
【0057】
また、本実施形態では、第1ユーザの発話内容及び表情のうち少なくともいずれか一方に関する情報を、第1ユーザ情報として取得する。これにより、第2ユーザの発話内容に対する第1ユーザの反応に応じて、発話内容情報の出力を変更することができる。
【0058】
また、本実施形態では、第1ユーザが睡眠状態であるか覚醒状態であるかに関する情報を、第1ユーザ情報として取得する。これにより、第1ユーザが睡眠中である場合に、第2ユーザの音声によって第1ユーザの睡眠を阻害することを防止できる。
【0059】
また、本実施形態では、第1ユーザの嗜好に関する情報を、第1ユーザ情報として取得する。これにより、第1ユーザの嗜好に合わせて、第2ユーザの音声の出力を変更することができる。
【0060】
また、本実施形態では、第1ユーザと第2ユーザを特定し、第1ユーザと第2ユーザとの間の関係性を記憶し、特定された第1ユーザと第2ユーザとの間の関係性に基づいて、必要度を推定する。これにより、ユーザ間の関係性に応じて、第2ユーザの音声の出力を変更することができる。
【0061】
また、本実施形態では、必要度を、第2出力機器から第2ユーザに出力させる制御信号を生成する。これにより、第2ユーザは、自身の発話内容が現在の状況における第1ユーザにとって必要であるか否かを知ることができる。
【0062】
≪第2実施形態≫
次に、
図5を用いて、第2実施形態に係る情報処理装置100について説明する。第2実施形態は、以下に説明する点において第1実施形態に係る情報処理装置100と異なること以外は、第1実施形態と同様の構成を有し、第1実施形態と同様に動作するものであり、第1実施形態の記載を適宜、援用する。本実施形態において、第1実施形態と異なる点は、記憶装置130が、第1ユーザ情報と第2ユーザの発話内容に基づいて必要度を推定するための学習済みモデル117を備える点と、必要度推定部114が、学習済みモデル117を用いて必要度を推定する点である。
【0063】
学習済みモデル117は、第1ユーザ情報と第2ユーザの発話内容とを含む入力データと、第2ユーザの発話内容を第1ユーザに伝える必要度を含む出力データとを対応付けた教師データを用いて学習された学習済みモデルである。学習済みモデル117は、ひとつ以上のニューロンからなる入力層、出力層及び少なくともひとつの中間層を含むニューラルネットワークにより構成され、入力層には、第1ユーザ情報と発話内容とを含む入力データが入力され、出力層から、必要度を含む出力データを出力する。学習済みモデル117は、ソフトウェアのプログラムモジュールとして利用される。具体的には、学習済みモデル117は、入力層への入力データの入力を受け付けて、出力層から、入力データに対応する出力データを出力するように、コンピュータを機能させる。学習済みモデル117としては、情報処理装置100によって、教師データを用いて学習させた学習済みモデルを用いてもよいし、情報処理装置100外部で教師データを用いて学習させた学習済みモデルを取得して用いることとしてもよい。学習済みモデル117は、入力データに基づいてニューラルネットワークを介して出力された値が、教師データによって与えられた値(入力データに対して出力されるべき値)に一致するように出力層-中間層間と中間層-入力層間の結合係数(重みづけ)を変更する学習が繰り返されることで生成される。本実施形態では、教師データは、第1ユーザ情報と第2ユーザの発話内容を含む入力データに対応する必要度を出力データとして設定されたものであり、記憶装置130に記憶されている。また、教師データの出力パラメータである必要度は、第2ユーザの発話内容に対する第1ユーザの感情を数値化したものによってラベリングされている。具体的には、まず、表情認識によって、第1ユーザの表情から、第1ユーザの感情を「喜」、「怒」、「哀」、「楽」等のいくつかの区分に分類する方法を用いて、所定の第1ユーザ情報と第2ユーザの発話内容が与えられている時の第1ユーザの表情から、第1ユーザの感情を特定する。そして、特定された感情に対応する数値を必要度としてラベリングする。これによって、第1ユーザの情報と第2ユーザの発話内容を含む入力データに対応する必要度を出力データとする教師データが取得される。
【0064】
必要度推定部114は、学習済みモデル117に入力データとして第1ユーザ情報と発話内容を入力し、学習済みモデルから、入力データに対応する出力データとして必要度を出力させることで、必要度を推定する。本実施形態では、コントローラ110は、必要度推定部114により、
図3の制御フロー図におけるステップS6において、学習済みモデル117を用いて、必要度を推定する。
【0065】
以上のように、本実施形態では、第1ユーザ情報及び発話内容に基づいて必要度を推定するための学習がされた学習済みモデルに入力データとして第1ユーザ情報及び発話内容を入力し、学習済みモデルから、入力データに対応する出力データとして必要度を出力させることで、必要度を推定する。これにより、必要度の推定を、ルールベースによる推定よりも高精度に実行することができる。
【0066】
また、本実施形態に係る学習済みモデルは、第1ユーザ情報と、第2ユーザの発話内容とを含む入力データが入力される入力層と、発話内容を第1ユーザに伝える必要度を含む出力データを出力する出力層とを含むニューラルネットワークにより構成された学習済みモデルであって、入力データと、出力データとを対応付けた教師データを用いて学習されていて、入力層に入力データが入力されると、出力層から、入力データに対応する出力データを出力するように、コンピュータを機能させ、第1ユーザ情報は、第1ユーザに関する情報及び第1ユーザの周囲の状況を表す情報のうち少なくともいずれかひとつを含む。これにより、学習済みニューラルネットワークを用いるため、計算資源が比較的乏しい情報処理装置であっても、必要度の推定を実行することができる。
【0067】
≪第3実施形態≫
次に、
図6を用いて、第3実施形態に係る情報処理装置100について説明する。第3実施形態は、以下に説明する点において第1実施形態に係る情報処理装置100と異なること以外は、第1実施形態と同様の構成を有し、第1実施形態と同様に動作するものであり、第1実施形態の記載を適宜、援用する。本実施形態において、第1実施形態と異なる構成は、必要度推定部114の構成である。
図6に記載のとおり、第3実施形態においては、必要度推定部114は、ニューラルネットワーク140と、学習部141と、推定部142を機能ブロックとして有する。本実施形態では、必要度推定部114は、第1ユーザ情報と第2ユーザの発話内容とを含む入力データと、発話内容を第1ユーザに伝える必要度を含む出力データとを対応付けた教師データを用いて、ニューラルネットワーク140の学習を行い、学習がされたニューラルネットワーク140により構成される学習済みモデルを用いて、必要度を推定する。なお、本実施形態では、必要度推定部114の機能ブロックを3つの機能ブロックに分けているが、必要度推定部114の機能は必ずしも3つのブロックに分ける必要はなく、2つ以下の機能ブロック、あるいは、4つ以上の機能ブロックで分けてもよい。例えば、必要度推定部114は、推定部142の機能のみを有し、ニューラルネットワーク140と学習部141に相当する機能ブロックを必要度推定部114とは異なる機能ブロックとして機能させることとしてもよい。
【0068】
ニューラルネットワーク140は、ひとつ以上のニューロンからなる入力層、出力層及び少なくともひとつの中間層から構成される階層構造を有する。入力層は、第1ユーザ情報及び発話内容が入力データとして入力される。出力層は、必要度が出力データとして出力される。ニューラルネットワーク140は、第1ユーザ情報と発話内容を含む入力データと、必要度を含む出力データとを対応付けた教師データにより学習する。
【0069】
学習部141は、第1ユーザ情報と発話内容を含む入力データと、必要度を含む出力データとを対応付けた教師データを用いて、ニューラルネットワーク140の学習を行う。具体的には、学習部141は、入力データに基づいてニューラルネットワーク140を介して出力された値と、教師データによって与えられた値(入力データに対して出力されるべき値)との誤差が小さくなるようにニューラルネットワーク140の出力層-中間層間と中間層-入力層間の結合係数(重みづけ)を繰り返し更新することで学習を行う。
【0070】
推定部142は、学習部141により学習させられたニューラルネットワーク140を用いて、必要度を推定する。具体的には、推定部142は、学習部141により学習させられたニューラルネットワーク140に、第1ユーザ情報と発話内容を入力し、ニューラルネットワーク140から、必要度を出力させることで、必要度を推定する。
【0071】
以上のように、本実施形態では、入力層及び出力層を含み、入力層への入力データとして第1ユーザ情報と発話内容が入力され、出力層からの出力データとして必要度が出力されるニューラルネットワークと、入力データと出力データとを対応付けた教師データを用いてニューラルネットワークを学習させる学習部と、学習部により学習させられたニューラルネットワークに、入力データとして第1ユーザ情報と発話内容を入力し、ニューラルネットワークから、入力データに対応する出力データとして必要度を出力させることで必要度を推定する。これにより、必要度の推定を学習済みニューラルネットワークにより学習させるため、必要度の推定の精度を向上させることができる。
【0072】
なお、以上に説明した実施形態は、本発明の理解を容易にするために記載されたものであって、本発明を限定するために記載されたものではない。したがって、上記の実施形態に開示された各要素は、本発明の技術的範囲に属する全ての設計変更や均等物をも含む趣旨である。
【符号の説明】
【0073】
10…情報処理システム
100…情報処理装置
110…コントローラ
111…ユーザ情報取得部
112…音声情報取得部
113…発話内容特定部
114…必要度推定部
115…制御信号生成部
116…ユーザ特定部
120…通信装置
130…記憶装置
200…車両
210…車載コントローラ
211…車載通信装置
212…第1出力装置
220…車内向けセンサ
230…車外向けセンサ
300…端末装置
311…端末コントローラ
312…端末通信装置