IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ トヨタ自動車株式会社の特許一覧 ▶ 日本電信電話株式会社の特許一覧

<>
  • 特開-情報処理装置、及び、方法 図1
  • 特開-情報処理装置、及び、方法 図2
  • 特開-情報処理装置、及び、方法 図3
  • 特開-情報処理装置、及び、方法 図4
  • 特開-情報処理装置、及び、方法 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024093502
(43)【公開日】2024-07-09
(54)【発明の名称】情報処理装置、及び、方法
(51)【国際特許分類】
   G01C 21/26 20060101AFI20240702BHJP
【FI】
G01C21/26 A
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2022209924
(22)【出願日】2022-12-27
(71)【出願人】
【識別番号】000003207
【氏名又は名称】トヨタ自動車株式会社
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】110002860
【氏名又は名称】弁理士法人秀和特許事務所
(72)【発明者】
【氏名】西島 敏文
(72)【発明者】
【氏名】古賀 光
(72)【発明者】
【氏名】杉山 弘晃
【テーマコード(参考)】
2F129
【Fターム(参考)】
2F129AA03
2F129BB03
2F129BB20
2F129CC31
2F129CC33
2F129EE43
2F129EE77
2F129EE90
2F129FF02
2F129FF60
2F129FF61
2F129FF73
2F129FF75
2F129GG17
2F129HH29
(57)【要約】
【課題】車両の乗員にスムーズな対話を提供する。
【解決手段】情報処理装置は、車両から外の方向を撮像範囲とする車載カメラの撮像画像の、当該車両の乗員の視界に基づく所定の範囲内から検出される1又は複数の第1の物体を選択することと、当該乗員に対して発せられる、1又は複数の第1の物体を話題とする発話内容を生成することと、を実行する制御部を備える。制御部は、当該所定の範囲を、車両の走行速度、車両の自動運転による走行の有無、及び、乗員の視線の集中する位置、のうちの少なくとも一つに基づいて設定する。
【選択図】図5
【特許請求の範囲】
【請求項1】
車両から外の方向を撮像範囲とする車載カメラの撮像画像の、前記車両の乗員の視界に基づく所定の範囲内から検出される1又は複数の第1の物体を選択することと、
前記乗員に対して発せられる、前記1又は複数の第1の物体を話題とする発話内容を生成することと、
を実行する制御部、
を備える情報処理装置。
【請求項2】
前記制御部は、
前記所定の範囲を、前記車両の走行速度、前記車両の自動運転による走行の有無、及び、前記乗員の視線の集中する位置、のうちの少なくとも一つに基づいて設定することをさらに実行する、
請求項1に記載の情報処理装置。
【請求項3】
前記制御部は、
前記撮像画像内の前記所定の範囲内に含まれる物体の中から、前記撮像画像におけるサイズが所定値以上の物体を、前記1又は複数の第1の物体として選択する、
請求項1又は2に記載の情報処理装置。
【請求項4】
前記制御部は、
前記車両の走行状態が、前記乗員にとって負荷の高い状態であることを示す所定の条件を満たす場合に、前記発話内容の生成を停止する、
請求項1又は2に記載の情報処理装置。
【請求項5】
コンピュータが、
車両から外の方向を撮像範囲とする車載カメラの撮像画像の、前記車両の乗員の視界に基づく所定の範囲内から検出される1又は複数の第1の物体を選択することと、
前記乗員に対して発せられる、前記1又は複数の第1の物体を話題とする発話内容を生成することと、
を実行する方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、人間と対話する機械に関するものである。
【背景技術】
【0002】
ユーザと共有されている共有画像に写し出された被写体に関連する複数のキーワードの中から第1のキーワードを選択し、第1のキーワードを用いた会話文を自発的に発話する会話システムが開示されている(例えば、特許文献1)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2020-077272号公報
【非特許文献】
【0004】
【非特許文献1】杉山弘晃,古賀光,西島敏文,“移動体から見える風景を話題とする雑談対話システム”,[online],2022年6月,一般社団法人 人工知能学会,2022年度人工知能学会全国大会(第36回)論文集,[令和4年10月27日検索],インターネット<URL:https://www.jstage.jst.go.jp/article/pjsai/JSAI2022/0/JSAI2022_2N5OS7a04/_article/-char/ja/>
【発明の概要】
【発明が解決しようとする課題】
【0005】
開示の態様の一つは、車両の乗員にスムーズな対話を提供可能な情報処理装置、及び、方法を提供することを課題とする。
【課題を解決するための手段】
【0006】
本開示の態様の一つは、
車両から外の方向を撮像範囲とする車載カメラの撮像画像の、前記車両の乗員の視界に基づく所定の範囲内から検出される1又は複数の第1の物体を選択することと、
前記乗員に対して発せられる、前記1又は複数の第1の物体を話題とする発話内容を生成することと、
を実行する制御部、
を備える情報処理装置である。
【0007】
本開示の他の態様の一つは、
コンピュータが、
車両から外の方向を撮像範囲とする車載カメラの撮像画像の、前記車両の乗員の視界に基づく所定の範囲内から検出される1又は複数の第1の物体を選択することと、
前記乗員に対して発せられる、前記1又は複数の第1の物体を話題とする発話内容を生成することと、
を実行する方法である。
【発明の効果】
【0008】
本開示の態様の一つによれば、車両の乗員にスムーズな対話を提供することができる。
【図面の簡単な説明】
【0009】
図1】第1実施形態に係る対話システムのシステム構成、及び、サーバ及び車両のハードウェア構成の一例を示す図である。
図2】サーバの機能構成の一例を示す図である。
図3】サーバの印象発話生成処理のフローチャートの一例である。
図4】検出範囲決定部の検出範囲決定処理のフローチャートの一例である。
図5】カメラの撮像画像における検出範囲の一例を示す図である。
【発明を実施するための形態】
【0010】
車窓から見える風景を話題として乗員と雑談する対話エージェントの開発が進められている。当該対話エージェントは、長時間運転における集中力の低下又は自動運転における監視への集中力低下等による交通事故の発生の抑制に寄与すると考えらえている。しかしながら、車両が走行している場合には、車両の移動とともに車窓の風景も変化するため、話題の対象物を乗員が見つけられないことがある。
【0011】
本開示の態様の一つでは、かかる問題を解決するために、車窓からの風景を撮像する車窓カメラの撮像画像中の、乗員が見やすい範囲内から検出される物体を、発話内容の話題とする。具体的には、本開示の態様の一つは、制御部を備える情報処理装置である。当該制御部は、車載カメラの撮像画像の、車両の乗員の視界に基づく所定の範囲内から検出される1又は複数の第1の物体を選択し、当該乗員に対して発せられる、第1の物体を話題とする発話内容を生成することと、を実行する。車載カメラは、車両から外の方向を撮像範囲とする。
【0012】
情報処理装置は、例えば、サーバ等の専用のコンピュータである。情報処理装置がサーバである場合には、制御部は、例えば、当該サーバに備えられるCPU(Central Processing Unit)又はDSP(Digital Signal Processor)等のプロセッサである。または、情
報処理装置は、例えば、車両に積載されるデータ通信装置、カーナビゲーションシステム、ドライブレコーダ、及び、専用のECU(Electronic Control Unit)等の車載装置で
あってもよい。情報処理装置が車載装置である場合には、制御部は、例えば、当該車載装置に備えられるCPU又はDSP等のプロセッサである。
【0013】
第1の物体が検出される撮像画像内の所定の範囲は、乗員の視界に基づく。これによって、本開示の態様の一つによれば、情報処理装置によって提供される発話の話題である第1の物体を、車両の乗員が容易に見つけることができるようになる。したがって、本開示の態様の一つによれば、車両の乗員にスムーズな対話を提供することができる。また、例えば、情報処理装置が撮像画像に対して画像解析を実施する場合には、画像解析の対象の範囲が撮像画像よりも小さくなるので、情報処理装置に係る処理負荷を軽減することができる。
【0014】
本開示の態様の一つにおいて、制御部は、車両の走行速度、車両の自動運転による走行の有無、及び、乗員の視線の集中する位置、のうちの少なくとも一つに基づいて、第1の物体が検出される撮像画像内の所定の範囲を設定することをさらに実行してもよい。例えば、制御部は、当該所定の範囲を、車両の走行速度が速いほど狭く設定してもよい。車両の走行速度が速いほど、乗員が物体を捉えられる範囲は狭まるからである。例えば、車両が自動運転である場合には、制御部は、当該所定の範囲を設定しない、又は、当該所定の範囲を撮像画像の全体としてもよい。車両が自動運転モードである場合には、乗員は運転しないので、物体を捉えられる範囲が比較的広いためである。例えば、制御部は、当該乗員の視線の集中する位置を中心に当該所定の範囲を設定してもよい。本開示の態様の一つに依れば、乗員が発話の話題である第1の物体を見つけやすくすることができる。
【0015】
本開示の態様の一つにおいて、制御部は、撮像画像内の所定の範囲内に含まれる物体の中から、撮像画像におけるサイズが所定値以上の物体を、1又は複数の第1の物体として選択してもよい。撮像画像内において所定値よりもサイズが小さい物体は、乗員が見つけ
づらい。したがって、撮像画像におけるサイズが所定値以上の物体を発話の話題とすることで、乗員が見つけづらい物体が発話の話題となることを抑制することができる。
【0016】
本開示の態様の一つにおいて、制御部は、車両の走行状態が乗員にとって負荷の高い状態であることを示す所定の条件を満たす場合に、発話内容の生成を停止してもよい。所定の条件は、例えば、車両が右折又は左折中である、車両が交差点への進入前である、及び、車両が高速道路へ合流する、等である。車両の走行状態が乗員にとって負荷の高い状態である場合には発話されないことによって、走行の安全性を保つことができる。
【0017】
以下、図面に基づいて、本開示の実施の形態を説明する。以下の実施形態の構成は例示であり、本開示は実施形態の構成に限定されない。
【0018】
<第1実施形態>
図1は、第1実施形態に係る対話システム100のシステム構成、及び、サーバ及び車両のハードウェア構成の一例を示す図である。対話システム100は、車両の乗員との対話サービスを提供するシステムである。対話システム100は、サーバ1と車両2とを含む。サーバ1及び車両2は、それぞれ、ネットワークN1に接続しており、ネットワークN1を通じて通信可能である。ネットワークN1は、例えば、インターネット等の公衆回線網である。
【0019】
車両2は、通信機能を有する車載装置201を搭載する、いわゆるコネクテッド車両である。また、第1実施形態では、車両2は、自動走行と、運転者による操作による走行と、を切り替えながら走行する車両を想定する。ただし、車両2は、自動走行可能でない車両も含まれる。
【0020】
車両2は、車外に向けられて設置されているカメラ202の撮像画像を所定の周期で車載装置201を介してサーバ1へ送信する。また、車両2は、車両内で乗員が発声し、マイクロフォン203で集音した音声データを車載装置201を介してサーバ1へ送信する。
【0021】
サーバ1は、車両2から受信したカメラ202の撮像画像、及び、発話の音声データ、それぞれに基づいて、発話内容を生成する。撮像画像から生成される発話内容は、以下、印象発話、と称される。乗員の発話から生成される発話内容は、以下、文脈発話、と称される。サーバ1は、印象発話と文脈発話の中から出力する発話内容を選択し、車両2へ送信する。以下、サーバ1が出力する発話内容は、システム発話、と称される。車両2は、サーバ1から受信したシステム発話を、マイクロフォン203から出力する。この処理を繰り返すことで、乗員と対話システム100との対話が行われる。
【0022】
第1実施形態では、サーバ1は、撮像画像における所定の範囲について検出された物体を話題とする発話内容を生成する。所定の範囲は、乗員が物体を見つけやすいように設定された範囲である。サーバ1は、撮像画像における所定範囲外に含まれる物体を話題とする発話内容を生成しない。当該物体を乗員が見つけにくい可能性があるためである。例えば、撮像画像における所定の範囲から検出される物体を話題として生成された印象発話が、車両2の乗員に提供された場合に、乗員はシステム発話の話題の当該物体を車窓から容易に見つけることができる。これによって、乗員に対話システム100とのスムーズな対話を提供することができる。
【0023】
次に、サーバ1及び車両2のハードウェア構成について説明する。サーバ1は、ハードウェア構成として、CPU 101、メモリ102、補助記憶装置103、及び、通信部104を備える。メモリ102および補助記憶装置103は、それぞれ、コンピュータで
読み取り可能な記録媒体の一例である。
【0024】
補助記憶装置103は、様々なプログラムや、各プログラムの実行に際してCPU 101が使用するデータを格納する。補助記憶装置103は、例えば、HDD(Hard Disk Drive)、及び、SSD(Solid State Drive)等である。補助記憶装置103に保持されるプログラムには、例えば、OS(Operation System)、及び、その他複数のプログラム等がある。
【0025】
メモリ102は、CPU 101に、補助記憶装置103に格納されているプログラムをロードする記憶領域および作業領域を提供したり、バッファとして用いられたりする記憶装置である。メモリ102は、例えば、ROM(Read Only Memory)、RAM(Random
Access Memory)のような半導体メモリを含む。
【0026】
CPU 101は、補助記憶装置103に保持されたOS、及び、その他様々なプログラムをメモリ102にロードして実行することによって、様々な処理を実行する。CPU
101は、1つに限られず、複数備えられてもよい。CPU 101は「制御部」の一例である。
【0027】
通信部104は、例えば、LAN(Local Area Network)カード、及び、光モジュール等のネットワークケーブルを接続し、信号処理の回路を備えるモジュールである。通信部104は、有線ネットワークへ接続可能な回路に限定されず、WiFi等の無線通信ネットワークの無線信号を処理可能な無線信号処理回路であってもよい。なお、サーバ1のハードウェア構成は、図1に示されるものに限定されない。
【0028】
次に、車両2は、ハードウェア構成として、車載装置201、カメラ202、マイクロフォン203、スピーカ204、位置情報取得部205、及び、速度センサ206を備える。なお、図1では、車両2のハードウェア構成として、対話システム100の処理に係る要素のみを抽出して示されている。車載装置201、カメラ202、マイクロフォン203、スピーカ204、位置情報取得部205、及び、速度センサ206は、互いに、所定の車内ネットワーク等によって、接続されている。
【0029】
車載装置201は、例えば、データ通信装置、カーナビゲーションシステム、ドライブレコーダ、又は、対話システム100用のECU等である。車載装置201は、ハードウェア構成として、CPU、メモリ、補助記憶装置、及び、無線通信部を備える。CPU、メモリ、及び、補助記憶装置は、CPU101、メモリ102、及び、補助記憶装置103と同様である。車載装置201の無線通信部は、例えば、5G、4G、LTE(Long Term Evolution)、及び、6G等の移動体通信方式、Wi-Fi、WiMAX、及び、D
SCR(Dedicated Short Range Communications)等の無線通信方式のいずれかに対応する無線信号処理回路である。
【0030】
車載装置201は、所定の周期でカメラ202の撮像画像を取得し、サーバ1へ送信する。車載装置201がカメラ202の撮像画像を送信する周期は、例えば、カメラ202の撮像周期と同じであってもよいし、1秒から10秒の間で対話システム100の管理者または乗員によって任意に設定された周期であってもよい。カメラ202の撮像周期は、例えば、15fpsから60fpsの間の値である。また、車載装置201は、乗員の発話内容をサーバ1へ送信する。乗員の発話内容は、マイクロフォン203によって乗員の発声が集音されることで取得される。また、車載装置201は、サーバ1からシステム発話を受信した場合には、スピーカ204から出力する。車載装置201とサーバ1との間で送信及び受信される発話内容のデータ形式は、例えば、音声データであってもよいし、テキストデータであってもよい。
【0031】
カメラ202は、例えば、車両2のフロントガラスの天井付近に、車両2から外に向けて車両2の前方を撮像範囲とするように設置されている。カメラ202は、例えば、ドライブレコーダに搭載されているカメラであってもよいし、対話システム100用に設置されたカメラであってもよい。カメラ202は、車両2に複数備えられてもよい。カメラ202が複数備えられる場合には、カメラ202は、左右のサイドミラーに設置されたカメラを含んでもよい。または、車両2のフロントガラスの天井付近に、車両2の内部に向けて、乗員の視線方向を検出するために設置されたカメラをカメラ202は含んでもよい。
【0032】
第1実施形態では、マイクロフォン203は、集音した音声を車載装置201へ出力する。第1実施形態では、スピーカ204は、車載装置201から入力される音声データを音声に変換して出力する。マイクロフォン203及びスピーカ204は、それぞれ、例えば、カーナビゲーションシステム又はドライブレコーダに搭載されているマイクロフォン及びスピーカであってもよい。または、マイクロフォン203及びスピーカ204は、それぞれ、例えば、対話システム100用に設置されたマイクロフォン及びスピーカであってもよい。
【0033】
位置情報取得部205は、車両2の位置情報を所定の周期で取得する。位置情報取得部205は、例えば、GPS(Global Positioning System)受信機等である。第1実施形
態では、カメラ202は、位置情報取得部205から所定の周期で位置情報を取得し、撮像画像に付属させる。
【0034】
速度センサ206は、車両2の走行速度を計測するセンサである。車両2のハードウェア構成は、一例であって、図1に示されるハードウェア構成に限定されない。例えば、車両2は、車両2の進行方向を取得するセンサ、操舵角を検知するセンサ、及び、ブレーキの踏み込み量を検知するセンサ等も備えている。車載装置201は、カメラ202の撮像画像又は乗員の発話内容とともに、取得時刻と、取得位置を示す位置情報と、車両2の識別情報と、車両2の走行状態に関する情報をサーバ1へ送信する。車両2の走行状態に関する情報には、例えば、車両が自動運転モードであるか手動運転モードであるかを示す情報、車両2の走行速度、車両2の進行方向、及び、操舵角等の情報である。
【0035】
図2は、サーバ1の機能構成の一例を示す図である。サーバ1は、機能構成として、受信部11、文脈発話生成部12、印象発話系13、発話決定部14、及び、送信部15を備える。これらの機能構成要素の処理は、CPU101が所定のプログラムを実行することによって達成される。
【0036】
受信部11は、車両2から、カメラ202の撮像画像、及び、乗員の発話内容を受信する。受信部11は、カメラ202の撮像画像を後述の画像履歴DB 131へ格納する。受信部11は、乗員の発話内容を文脈発話生成部12へ出力する。カメラ202の撮像画像及び乗員の発話内容とともに、車両2から、取得時刻と、取得位置を示す位置情報と、車両2の識別情報と、車両2の走行状態に関する情報も受信される。以下、単に、撮像画像と称する場合には、カメラ202の撮像画像を示すこととする。なお、車両2から撮像周期と同じ周期で撮像画像が受信される場合には、受信部11は、撮像画像を間引いて、例えば、1秒ごとに受信された撮像画像を画像履歴DB 131へ保存してもよい。画像履歴DB 131へ保存される撮像画像の枚数を減らすことで、サーバ1の処理負荷を軽減することができる。
【0037】
文脈発話生成部12は、受信部11から乗員の発話内容が入力された場合に、当該発話内容に基づいて、文脈発話を生成する。文脈発話生成部12の文脈発話の生成方法は、特定の方法に限定されない。例えば、文脈発話生成部12は、受信した乗員の発話内容を含
む発話内容の履歴と、カメラ202の撮像画像と、当該撮像画像の位置情報に応じたスポット情報と、を機械学習モデルに入力して、文脈発話を生成する。文脈発話の生成に用いられる機械学習モデルには、例えば、Transformer Encoder-decoderモデルがある。文脈
発話生成部12は、生成した文脈発話を発話決定部14へ出力する。
【0038】
印象発話系13は、所定の周期で、カメラ202の撮像画像から印象発話を生成する。印象発話系13の詳細な処理は後述される。印象発話系13は、生成した印象発話を発話決定部14へ出力する。なお、印象発話系13が生成する印象発話は1つに限定されず、複数である場合もある。
【0039】
発話決定部14は、文脈発話生成部12から文脈発話の入力を受ける。また、発話決定部14は、印象発話系13から印象発話の入力を受ける。発話決定部14は、例えば、文脈発話又は印象発話の入力されたタイミングに応じて、文脈発話又は印象発話のいずれをシステム発話とするかを決定する。直前のシステム発話、乗員の発話、及び、対話開始時のいずれかを基点として、所定時間経過しても乗員の発話が入力されなかった場合には、発話決定部14は、所定時間以内の印象発話から話題強度が最も大きい発話をシステム発話として出力する。印象発話の話題強度は、印象発話の優先度である。前回のシステム発話から所定時間以内に乗員の発話が入力された場合は、発話決定部14は、当該乗員の発話を起点として生成された文脈発話をシステム発話として出力する。なお、発話決定部14のシステム発話の決定方法は上述の方法に限定されない。送信部15は、発話決定部14からシステム発話の入力を受けて、車両2へ送信する。
【0040】
印象発話系13は、画像履歴DB 131、走行状態判定部132、検出範囲決定部133、画像特徴抽出部134、対象選択部135、印象発話生成部136、及び、話題強度推定部137を備える。画像履歴DB 131は、例えば、サーバ1の補助記憶装置103の記憶領域内に生成される。画像履歴DB 131は、車両2から受信されたカメラ202の撮像画像を、撮像時刻、撮像位置を示す位置情報、及び、車両の走行状態を示す情報とともに保持する。
【0041】
走行状態判定部132は、車両2が自動運転モードであるか手動運転モードであるかを判定する。当該判定は、車両2からカメラ202の撮像画像とともに受信される車両2の走行状態に関する情報に基づいて行われる。車両2が自動運転モードである場合には、走行状態判定部132は、車両2が自動運転モードであることを検出範囲決定部133へ出力する。
【0042】
車両2が手動運転モードである場合には、走行状態判定部132は、車両2の走行状態に関する情報に基づいて、乗員にとって車両2の運転負荷が高い状態を示す所定の条件に合致するか否かを判定する。運転負荷が高い状態は、例えば、車両2が右折又は左折する状態、交差点へ進入する状態、及び、高速道路の合流地点付近を走行している状態等である。車両2の運転負荷が高い状態であることを判定した場合には、走行状態判定部132は、処理を停止する。車両2の運転負荷が高くない状態であることを判定した場合には、走行状態判定部132は、手動運転モードであることを検出範囲決定部133へ出力する。
【0043】
検出範囲決定部133は、車両2の運転モードに応じて、カメラ202の撮像画像内の物体の検出範囲を設定する。走行状態判定部132から車両2が自動運転モードであることが入力された場合には、検出範囲決定部133は、例えば、検出範囲を撮像画像の全範囲に設定する。
【0044】
走行状態判定部132から車両2が手動運転モードであることが入力された場合には、
検出範囲決定部133は、検出範囲を所定の範囲に設定する。車両2が手動運転である場合の検出範囲は、例えば、運転手の視線の位置として設定される撮像画像内の位置から左右60度、上下15度の範囲である。ただし、車両2が手動運転モードである場合の検出範囲はこれに限定されない。
【0045】
この他に、例えば、検出範囲決定部133は、車両2の走行速度に基づいて、撮像画像内の検出範囲を決定してもよい。検出範囲決定部133は、走行速度が速いほど検出範囲を狭く設定する。例えば、車両2の走行速度が第1の閾値以上第2の閾値未満である場合には、検出範囲決定部133は、検出範囲を初期値に設定する。検出範囲の初期値は、例えば、運転手の視線から左右60度、上下15度の範囲である。例えば、車両2の走行速度が第2の閾値以上である場合には、検出範囲決定部133は、検出範囲を、初期値より狭い範囲に設定する。例えば、車両2の走行速度が第1の閾値未満である場合には、検出範囲決定部133は、検出範囲を、初期値よりも広い範囲に設定する。車両2が停止状態である場合には、検出範囲決定部133は、検出範囲を撮像画像の全範囲に設定してもよい。検出範囲決定部133は、検出範囲の設定値を画像特徴抽出部134へ出力する。
【0046】
画像特徴抽出部134は、検出範囲決定部133から検出範囲の設定値の入力を受けると、画像履歴DB 131に格納されている撮像画像について、検出範囲内に含まれる物体を検出する。撮像画像からの物体の検出には、例えば、Deformable-DETRのような機械
学習モデルが用いられる。ただし、撮像画像からの物体の検出に用いられる機械学習モデルは、Deformable-DETRに限定されない。画像特徴抽出部134は、撮像画像内の検出範
囲についてのみ機械学習モデルで物体を検出してもよい。または、画像特徴抽出部134は、撮像画像全体について機械学習モデルで物体を検出した後、検出範囲に含まれる物体を抽出してもよい。画像特徴抽出部134は、撮像画像の検出範囲から検出した物体に関する情報を対象選択部135へ出力する。撮像画像の検出範囲から検出した物体は複数であってもよい。撮像画像の検出範囲から検出した物体に関する情報には、例えば、物体の種類、撮像画像内における位置等が含まれる。物体の種類には、例えば、建物、標識、植物、及び、人等がある。ただし、画像特徴抽出部134が検出可能な物体の種類はこれらに限定されない。例えば、画像特徴抽出部134は、赤い屋根の建物等の、物体の外観色別の種類を検出することも可能である。
【0047】
対象選択部135は、画像特徴抽出部134から撮像画像の検出範囲内から検出された物体に関する情報の入力を受ける。対象選択部135は、撮像画像の検出範囲内から検出された物体から、さらに、見つけづらい物体を除外し、見つけやすい物体を抽出する。例えば、撮像画像内で映っているサイズが小さい物体は車窓から見つけづらかったり、詳細な箇所が見えなかったりする。対象選択部135は、撮像画像内におけるサイズが所定値以上の物体を、撮像画像の検出範囲内から検出された物体から抽出して、抽出した物体に関する情報を印象発話生成部136へ出力する。撮像画像内における物体のサイズの閾値は、例えば、ピクセル数で定義されてよい。
【0048】
印象発話生成部136は、対象選択部135から、撮像画像の検出範囲から検出された複数の物体のうち対象選択部135によって抽出された1又は複数の物体に関する情報の入力を受ける。印象発話生成部136は、当該1又は複数の物体について、スポット情報を取得し、機械学習モデルへ入力して、1又は複数の印象発話を取得する。印象発話生成部136が用いる機械学習モデルは、例えば、Transformer Encoder-decoderモデルであ
る。ただし、印象発話生成部136が印象発話の作成に用いる機械学習モデルはこれに限定されない。物体についてのスポット情報は、地図情報、インターネット、及び、SNS(Social Network Service)等のビッグデータを、位置情報と物体の外観等から検索して得られる情報である。印象発話生成部136は、生成した1又は複数の印象発話を話題強度推定部137と発話決定部14へ出力する。
【0049】
話題強度推定部137は、印象発話生成部136から1又は複数の印象発話の入力を受ける。話題強度推定部137は、各印象発話の強度を推定する。印象発話の強度は、例えば、印象発話の生成に用いられる機械学習モデルの学習データである画像と発話とのセットに付与された話題の強さを学習した機械学習モデルを用いて推定される。話題強度の推定に用いられる機械学習モデルは、例えば、kNN(k最近傍法)である。話題強度推定部137は、印象発話の強度の推定結果を発話決定部14へ出力する。
【0050】
話題強度推定部137は、例えば、外観に所定の特徴を有する物体を話題とする印象発話の強度が高くなるように推定してもよい。所定の特徴は、例えば、屋根や壁の色又はデザイン、及び、看板の文字等で定義されてもよい。例えば、所定の特徴として、“赤い屋根”が定義されている場合に、話題強度推定部137は、赤い屋根を有する物体を話題とする印象発話の強度を他の物体よりも高くなるように推定する。所定の特徴を有する物体は乗員にとってより見つけやすい。そのような物体を話題とする印象発話の強度がより高ければ、当該印象発話がシステム発話に選択される確率が高まるためである。
【0051】
なお、外観に所定の特徴を有する物体を話題とする印象発話の強度が高くなるように推定するためには、話題強度の推定に用いられる機械学習モデルに、そのような推定を行うように学習させればよい。例えば、話題強度の推定に用いられる機械学習モデルの教師データにおいて、当該所定の特徴を有する物体を話題とする発話の強度が高く設定されていればよい。なお、サーバ1の機能構成は、図2に示される構成に限定されない。
【0052】
<処理の流れ>
図3は、サーバ1の印象発話生成処理のフローチャートの一例である。図3に示される処理は、例えば、所定の周期で繰り返し実行される。図3に示される処理の実行周期は、例えば、1秒から10秒の間で対話システム100の管理者または車両2の乗員によって任意に設定される。図3に示される処理の実行主体は、サーバ1のCPU101である。ただし、図3では、便宜上、機能構成要素を主体として説明する。図3に示される処理は、開始のタイミングにおいて、画像履歴DB 131に格納されている最新の撮像画像について実行される。図3の説明において、撮像画像と称する場合には、開始のタイミングにおいて、画像履歴DB 131に格納されている最新の撮像画像を示すこととする。
【0053】
OP101では、走行状態判定部132は、撮像画像とともに画像履歴DB 131に格納されている車両2の走行状態に関する情報に基づいて、車両2が自動運転モードであるか手動運転モードであるかを判定する。車両2が自動運転モードである場合には(OP101:YES)、処理がOP102へ進む。車両2が手動運転モードである場合には(OP101:NO)、処理がOP104へ進む。
【0054】
OP102では、検出範囲決定部133は、車両2が自動運転モードであるので、検出範囲を撮像画像全体に設定する。OP103では、画像特徴抽出部134は、撮像画像全体について画像認識処理を実行し、撮像画像に含まれる物体を検出する。その後、処理がOP108へ進む。
【0055】
OP103では、走行状態判定部132は、車両2が手動運転モードであるので、車両2が乗員にとって運転負荷が高い状態であるか否かを判定する。車両2が乗員にとって運転負荷が高い状態である場合には(OP103:YES)、図3に示される処理が終了し、印象発話が生成されない。
【0056】
車両2が乗員にとって運転負荷が高い状態でない場合には(OP104:NO)、処理がOP105へ進む。OP105では、検出範囲決定部133は、検出範囲決定処理を実
行し、検出範囲を決定する。検出範囲決定処理の詳細は後述される。
【0057】
OP106では、画像特徴抽出部134は、撮像画像について画像認識処理を実行し、撮像画像の検出範囲から物体を検出する。OP107では、対象選択部135は、画像特徴抽出部134によって撮像画像の検出範囲から検出された物体から、所定サイズ以上の物体を抽出する。
【0058】
OP108では、印象発話生成部136は、撮像画像から検出された物体について、印象発話を生成する。OP109では、話題強度推定部137は、印象発話生成部136によって生成された印象発話について、話題の強度を推定する。OP110では、印象発話生成部136から印象発話、及び、話題強度推定部137から印象発話の推定強度が発話決定部14へ出力される。その後、図3に示される処理が終了する。発話決定部14は、文脈発話又は印象発話の入力されたタイミング、及び、印象発話の話題強度に基づいて、文脈発話又は印象発話のいずれかをシステム発話に決定する。
【0059】
図4は、検出範囲決定部133の検出範囲決定処理のフローチャートの一例である。図4に示される処理は、図3のOP105において実行される処理に相当する。OP201では、検出範囲決定部133は、車両2の速度を車両2の走行状態に関する情報から取得する。OP202では、検出範囲決定部133は、車両2の速度に基づいて、車両2が停止しているか否かを判定する。車両2が停止している場合には(OP202:YES)、処理がOP203へ進む。OP203では、検出範囲決定部133は、撮像画像の全範囲を検出範囲として決定する。その後、図4に示される処理が終了し、処理が図3のOP106へ進む。
【0060】
車両2が停止していない場合には(OP202:NO)、処理がOP204へ進む。OP204では、検出範囲決定部133は、撮像画像の全範囲を車両2の速度に応じて決定する。例えば、車両2の速度が閾値1以上閾値2未満である場合には、検出範囲決定部133は、検出範囲を、上述の初期値に設定する。例えば、車両2の速度が閾値1未満である場合には、検出範囲決定部133は、検出範囲を、上述の初期値よりも広い範囲に設定する。例えば、車両2の速度が閾値2以上である場合には、検出範囲決定部133は、検出範囲を、上述の初期値よりも狭い範囲に設定する。その後、図4に示される処理が終了し、処理が図3のOP106へ進む。
【0061】
<第1実施形態の作用効果>
図5は、カメラ202の撮像画像における検出範囲の一例を示す図である。サーバ1は、カメラ202の撮像画像における検出範囲を図5に示されるように決定する。日本では、車両は左側通行であり、運転席は進行方向の右側に設置されていることが多い。そのため、運転手の視線を中心として、検出範囲も撮像画像内の、向かって右側寄りに設定される。
【0062】
図5に示される例では、検出範囲に含まれる建物B1が検出され、建物B1を話題とする印象発話が生成される。建物B1は、乗員から見つけやすい。そのため、例えば、乗員が運転手であり、手動運転を行っている場合でも、建物B1を見つけることによって運転を阻害することは抑制される。
【0063】
一方、建物B2は、検出範囲外に存在する。その為、第1実施形態では、建物B2を話題とする印象発話は生成されない。また、建物B3は、検出範囲内に含まれているが、サイズが所定値未満である。その為、第1実施形態では、建物B3を話題とする印象発話は生成されない。建物B2または建物B3を話題とする発話が提供されても、乗員は建物B2又は建物B3を見つけづらかったり、その外観を認識しづらかったりする可能性が高い
。このように、第1実施形態では、乗員が見つけづらいような物体を話題とする発話は生成されないので、乗員にスムーズな対話を提供することができる。また、第1実施形態では、乗員が運転手であり、手動運転している場合に、対話システム100との対話によって乗員による車両2の運転を遮ることが抑制される。見つけづらい物体を話題とする発話が生成されないためである。したがって、乗員の車両2の運転中に対話システム100が発話を提供する場合でも、車両2の走行の安全性は確保される。
【0064】
<その他の変形例>
上記の実施形態はあくまでも一例であって、本開示はその要旨を逸脱しない範囲内で適宜変更して実施しうる。
【0065】
サーバ1と同様の機能構成を車両2に搭載することによって、第1実施形態に係るサーバ1の処理を車両2が行ってもよい。すなわち、車両2が、発話生成を行ってもよい。
【0066】
カメラ202の撮像画像内の検出範囲は、例えば、乗員の視線に応じて移動されてもよい。例えば、車両2は、車両内の乗員の視線を検出するためのカメラを備え、当該カメラの撮像画像をサーバ1へ送信する。乗員の視線を検出するためのカメラの撮像画像を、視線検出画像と称する。サーバ1は、視線検出画像から撮像範囲内における乗員の視線の位置を検出する。サーバ1は、例えば、乗員の視線の位置の履歴情報を保存してもよい。サーバ1は、検出範囲を設定する場合に、例えば、直近の5分間等の所定期間において乗員の視線が集中する位置を特定し、特定した位置を検出範囲の中心として用いてもよい。なお、乗員の視線の位置の特定は車両2が行ってもよい。車両2は、乗員の視線の位置の特定結果をサーバ1へ送信するようにしてもよい。
【0067】
また、第1実施形態では、車両2が自動運転モードである場合には、サーバ1は、カメラ202の撮像画像の全範囲を検出範囲として物体の検出を行い、検出した物体を話題とする印象発話を生成する。これに加えて、車両2が自動運転モードである場合には、サーバ1は、カメラ202の撮像画像から検出した物体から、さらにサイズが所定値以上の物体を抽出する対象選択部135に相当する処理を実行してもよい。
【0068】
本開示において説明した処理や手段は、技術的な矛盾が生じない限りにおいて、自由に組み合わせて実施することができる。
【0069】
また、1つの装置が行うものとして説明した処理が、複数の装置によって分担して実行されてもよい。あるいは、異なる装置が行うものとして説明した処理が、1つの装置によって実行されても構わない。コンピュータシステムにおいて、各機能をどのようなハードウェア構成(サーバ構成)によって実現するかは柔軟に変更可能である。
【0070】
本開示は、上記の実施形態で説明した機能を実装したコンピュータプログラムをコンピュータに供給し、当該コンピュータが有する1つ以上のプロセッサがプログラムを読み出して実行することによっても実現可能である。このようなコンピュータプログラムは、コンピュータのシステムバスに接続可能な非一時的なコンピュータ可読記憶媒体によってコンピュータに提供されてもよいし、ネットワークを介してコンピュータに提供されてもよい。非一時的なコンピュータ可読記憶媒体は、例えば、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスクドライブ(HDD)等)、光ディスク(CD-ROM、DVDディスク、ブルーレイディスク等)など任意のタイプのディスク、読み込み専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、EPROM、EEPROM、磁気カード、フラッシュメモリ、光学式カード、電子的命令を格納するために適した任意のタイプの媒体を含む。
【符号の説明】
【0071】
1・・サーバ
2・・車両
13・・印象発話系
14・・発話決定部
100・・対話システム
101・・CPU
102・・メモリ
103・・補助記憶装置
104・・通信部
131・・画像履歴DB
132・・走行状態判定部
133・・検出範囲決定部
134・・画像特徴抽出部
135・・対象選択部
136・・印象発話生成部
137・・話題強度推定部
201・・車載装置
202・・カメラ
図1
図2
図3
図4
図5