IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日産自動車株式会社の特許一覧 ▶ ルノー エス.ア.エス.の特許一覧

<>
  • 特開-画像生成装置及び画像生成方法 図1
  • 特開-画像生成装置及び画像生成方法 図2
  • 特開-画像生成装置及び画像生成方法 図3
  • 特開-画像生成装置及び画像生成方法 図4
  • 特開-画像生成装置及び画像生成方法 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022142535
(43)【公開日】2022-09-30
(54)【発明の名称】画像生成装置及び画像生成方法
(51)【国際特許分類】
   G06F 3/01 20060101AFI20220922BHJP
   G06F 3/0481 20220101ALI20220922BHJP
   G01C 21/26 20060101ALI20220922BHJP
【FI】
G06F3/01 510
G06F3/0481
G01C21/26 A
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2021042739
(22)【出願日】2021-03-16
(71)【出願人】
【識別番号】000003997
【氏名又は名称】日産自動車株式会社
(71)【出願人】
【識別番号】507308902
【氏名又は名称】ルノー エス.ア.エス.
【氏名又は名称原語表記】RENAULT S.A.S.
【住所又は居所原語表記】122-122 bis, avenue du General Leclerc, 92100 Boulogne-Billancourt, France
(74)【代理人】
【識別番号】110000486
【氏名又は名称】とこしえ特許業務法人
(72)【発明者】
【氏名】河西 純
(72)【発明者】
【氏名】井上 裕史
(72)【発明者】
【氏名】志小田 雄宇
【テーマコード(参考)】
2F129
5E555
【Fターム(参考)】
2F129AA03
2F129BB03
2F129CC03
2F129DD13
2F129DD40
2F129EE78
2F129EE85
2F129EE90
2F129FF02
2F129FF57
2F129FF60
2F129FF62
2F129GG17
2F129HH12
2F129HH15
5E555AA76
5E555BA23
5E555BA38
5E555BB23
5E555BB38
5E555BC01
5E555CA42
5E555CA45
5E555CA47
5E555CB82
5E555DA01
5E555DA23
5E555DB32
5E555EA19
5E555EA22
5E555EA23
5E555FA00
(57)【要約】
【課題】対象物に関する音声と、音声に応じたキャラクターの動きを一致させる画像生成装置を提供する。
【解決手段】
画像生成装置は、車外ユーザにより発話された音声を取得し、自車位置を示す自車位置情報を取得し、車両の周囲に存在する対象物の位置を示す対象物位置情報を取得し、音声から対象物を特定し、音声、自車位置、及び対象物の位置に基づき、キャラクターの動作を指示する指示情報を生成し、指示情報含む仮想画像信号を出力する。
【選択図】 図1
【特許請求の範囲】
【請求項1】
車両の外部にいる車外ユーザにより発話された音声を取得する音声取得部と、
前記車両に設けられた表示装置に表示されるキャラクターの仮想画像を生成し、前記仮想画像を含む仮想画像信号を出力する仮想画像生成部と、
前記車両の自車位置を示す自車位置情報を取得する自車位置取得部と、
前記車両の周囲に存在する対象物の位置を示す対象物位置情報を取得する対象物情報取得部と、
前記音声取得部により取得された前記音声から前記対象物を特定する対象物特定部とを備え、
前記仮想画像生成部は、前記音声、前記自車位置、及び前記対象物特定部により特定された前記対象物の位置に基づき、前記キャラクターの動作を指示する指示情報を生成し、生成された前記指示情報を含む前記仮想画像信号を出力する画像生成装置。
【請求項2】
請求項1記載の画像生成装置であって、
前記対象物情報取得部は、前記車両の周囲を示す車両周囲情報を取得し、
前記対象物特定部は、
前記音声取得部により取得された前記音声から前記対象物の種別を特定し、
前記車両周囲情報に基づき、前記音声から特定される前記対象物と同種の対象物である注意対象物を、前記車両の周囲から特定し、
前記仮想画像生成部は、前記自車位置と前記注意対象物の位置関係に応じて、前記キャラクターの動作を決定する画像生成装置。
【請求項3】
請求項2記載の画像生成装置であって、
前記仮想画像生成部は、前記車両の内部にいる車内ユーザが前記注意対象物を認識させる動作を、前記キャラクターの動作として決定する画像生成装置。
【請求項4】
請求項1~3のいずれか一項に記載の画像生成装置であって、
前記仮想画像生成部は、
前記音声、前記自車位置、及び前記対象物の位置の関係から前記キャラクターの動作を決定するために学習された学習済みの学習モデルに、入力データとして新たに取得された前記音声、前記自車位置、及び前記対象物の位置を入力し、前記入力データに対応する新たな出力データとして前記キャラクターの動作を出力させることにより、前記キャラクターの動作を決定する画像生成装置。
【請求項5】
請求項1~3のいずか一項に記載の画像生成装置において、
前記仮想画像生成部は、
入力層及び出力層を含み、前記入力層への入力データとして前記音声、前記自車位置、及び前記対象物の位置が入力され、前記出力層からの出力データとして前記キャラクターの動作を出力するニューラルネットワークと、
前記入力データと前記出力データとを対応づけた教師データを用いて前記ニューラルネットワークを学習させる学習部とを有し、
前記学習部により取得された前記ニューラルネットワークに、前記入力データとして新たに取得された前記音声、前記自車位置、及び前記対象物の位置を入力し、
前記入力データに対応する新たな出力データとして前記キャラクターの動作を前記ニューラルネットワークから出力させることにより、前記キャラクターの動作を決定する画像生成装置。
【請求項6】
プロセッサにより実行される画像生成方法であって、
前記プロセッサは、
車両の外部にいる車外ユーザにより発話された音声を取得し、
前記車両に設けられた表示装置に表示されるキャラクターの仮想画像を生成し、
前記車両の自車位置を示すの自車位置情報を取得し、
前記車両の周囲に存在する対象物の位置を示す対象物位置情報を取得し、
取得された前記音声から前記対象物を特定し、
前記音声、前記自車位置、及び特定された前記対象物の位置に基づき、前記キャラクターの動作を指示する指示情報を生成し、生成された前記指示情報及び前記仮想画像を含む仮想画像信号を出力する画像生成方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像生成装置及び画像生成方法に関するものである。
【背景技術】
【0002】
発話に含まれるキーワードから、動作アニメーションの作成を行うアニメーション作成装置が知られている(例えば特許文献1)。特許文献1記載のアニメーション作成装置は、動作パタンごとに動作の意味、動作の部位とキャラクターの動き、動作に伴う発話をキーワードとして対応付けた動作パタンキーワード対応表を記憶部に記憶し、キャラクターの動作パタンに応じた動作データや動作時間を記憶部に記憶している。アニメーション作成装置は、入力されたキーワードから、記憶された対応表を参照して動作パタンを検索し、対応する動作パタンの候補を表示部に表示する。そして、利用者が動作パタン候補の中から動作パタンが選択することによって、アニメーション作成装置は、記憶部を参照して選択した動作パタンのアニメーションを生成して表示する。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開平10-134202号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
上記のアニメーション作成装置は、発話に含まれるキーワードのみからキャラクターの動作を生成しているため、キャラクターの動作によりユーザに認識させたい対象物の位置が変化する場合には、対象物に関する音声と、音声に応じたキャラクターの動きが一致しないという問題がある。
【0005】
本発明が解決しようとする課題は、対象物に関する音声と、音声に応じたキャラクターの動きを一致させる画像生成装置及び画像生成方法を提供することである。
【課題を解決するための手段】
【0006】
本発明は、車外ユーザにより発話された音声を取得し、自車位置を示す自車位置情報を取得し、車両の周囲に存在する対象物の位置を示す対象物位置情報を取得し、音声から対象物を特定し、音声、自車位置、及び対象物の位置に基づき、キャラクターの動作を指示する指示情報を生成し、指示情報及び仮想画像含む仮想画像信号を出力することによって上記課題を解決する。
【発明の効果】
【0007】
本発明によれば、対象物に関する音声と、音声に応じたキャラクターの動きを一致させることができる。
【図面の簡単な説明】
【0008】
図1図1は、本実施形態における画像生成システムのブロック図である。
図2図2(а)は表示装置を装着した第2ユーザを説明するための図であり、図2(b)は第1ユーザ側の表示装置で表示されるVR画像を説明するための図である。
図3図3は、車両の自車位置と、車両200の周囲にある対象物との位置関係を説明するための概要図である。
図4図4は、本実施形態の画像生成システムにおけるシーケンスチャートの一例を示すフローチャートである。
図5図5は、本実施形態の画像生成装置における画像生成方法の手順の一例を示すフローチャートである。
【発明を実施するための形態】
【0009】
≪第1実施形態≫
本発明に係る画像生成装置の一実施形態を図面に基づいて説明する。図1は、本実施形態に係る画像生成装置100を含む画像生成システム10の構成の一例を示すブロック図である。図1で示されるように、本実施形態では、画像生成システム10は、画像生成装置100と、車両200と、端末装置300とを備える。画像生成装置100は、車両200及び端末装置300と通信を行い、情報の授受が可能なサーバである。画像生成システム10は、画像生成装置100と、車両200と、端末装置300との間でネットワークを構築することで、ネットワーク経由で計算負荷の高いタスク処理を行い、またアルゴリズムの変更も容易になるため、高速かつ汎用性のあるサービスを提供することが可能となる。画像生成装置100は、車室内にいる第1ユーザと遠隔地にいる第2ユーザが車両200に同乗しているようなバーチャル空間を、第1ユーザ及び第2ユーザにそれぞれ提供する。画像生成装置100は、車両200の車室内及び/又は車室外の画像を車両200から取得し、取得した画像に対して必要に応じた画像処理を行い、車両200の車室内及び/又は車室外の画像を第2ユーザに表示させるために、画像を端末装置300に送信する。また画像生成装置100は、第2ユーザを表すキャラクターを、第1ユーザが見ている表示画面上、又は、3次元で表示させるための制御処理を実行する。また、第2ユーザが発話をした場合には、画像生成装置100は、キャラクターが、第2ユーザの発話内容と同じ音声を出力するよう、キャラクターの仮想画像を制御する。端末装置300は、車両200から離れた遠隔地空間に位置する。遠隔地空間は、画像生成装置100が設置されている場所及び車両200から離れた場所にあり、例えば第2ユーザの居所等である。
【0010】
第1ユーザは、車両200に乗車している乗員である。図1の例では、第1ユーザは、車両200のドライバーとしているが、助手席あるいは後部座席に乗車している乗員でもよい。第1ユーザは、3次元表示可能な表示装置250を見ることで、遠隔地にいる第2ユーザを表すキャラクター(アバター)とドライブを楽しむことができる。なお、キャラクター表示は、VR表示でよくAR表示でもよい。第2ユーザは、端末装置300の表示装置340を、頭部に装着して、表示装置340の表示画面を見て、車両200に乗車している第1ユーザとバーチャル空間でドライブを楽しむことができる。また、第2ユーザは、端末装置300を用いて、第1ユーザと会話を行うことも可能である。
【0011】
画像生成装置100は、コントローラ110と、通信装置120とを備える。コントローラ110は、ハードウェア及びソフトウェアを有するコンピュータを備えている。このコンピュータはプログラムを格納したROM(Read Only Memory)と、ROMに格納されたプログラムを実行するCPU(Central Processing Unit)と、アクセス可能な記憶装置として機能するRAM(Random Access Memory)を含む。なお、動作回路としては、CPUに代えて又はCPUとともに、MPU(Micro Processing Unit)、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)などを用いることができる。
【0012】
コントローラ110は、機能ブロックとして、少なくとも音声取得部111と、自車位置取得部112と、車両情報取得部113と、対象物情報取得部114と、対象物特定部115と、仮想画像生成部116、遠隔画像生成部117と含む。各機能ブロックは、上記各機能を実現する又は各処理を実行するためのソフトウェアと、ハードウェアとの協働により各機能を実行する。本実施形態では、コントローラ110が有する機能を7つのブロックとして分けた上で、各機能ブロックの機能を説明するが、コントローラ110の機能は必ずしも7つのブロックに分ける必要はなく、6つ以下の機能ブロック、あるいは、8つ以上の機能ブロックで分けてもよい。コントローラ110は、第2ユーザにより発話された音声を取得し、車両200の自車位置を示すの自車位置情報を取得し、車両200の周囲に存在する対象物の位置を示す対象物位置情報を取得し、音声から対象物を特定し、音声、自車位置、及び対象物の位置に基づき、キャラクターの動作を指示する指示情報を生成し、指示情報含む仮想画像信号を出力する。以下、コントローラ110に含まれる各機能ブロックについて説明する。
【0013】
音声取得部111は、車両の外部にいる第2ユーザにより発話された音声を取得する。第2ユーザは、表示装置340の表示画面を見ることで、車両200に乗車している第1ユーザとバーチャル空間でドライブを楽しんでいる時に、車両200の車窓越しに見える景色、建物、標識、案内板等を見て、声を発する。図2(а)は、表示装置340を頭部に装着した状態の第2ユーザを説明するための図である。図2(а)に示すように、第2ユーザは、表示装置340を装着して、バーチャル空間で車両200の助手席に乗車していると仮定する。車両200の乗車中に、第2ユーザは、車両200の窓越しに、おすすめのパン販売店を見つけて、第1ユーザに紹介するために「左側の『○○ベーカリ』のパンがおすすめ」と声を発したとする。この第2ユーザの発した声はマイク320で検知されて、音声データとして端末通信装置330により送信される。そして、音声取得部111は、音声データから音声を取得する。
【0014】
自車位置取得部112は、車両200の現在の位置(以下、自車位置とも称す)を示す自車位置情報を取得する。自車位置取得部112は、通信装置120を介して車両200から、車両200の自車位置情報を取得する。車両200は、GPSシステムにより車両の現在位置を測位しており、自車位置取得部112は、GPSシステムの位置情報から、自車位置を取得できる。
【0015】
車両情報取得部113は、車両200に関する車両情報を取得する。車両情報は、車内カメラ211及び/又は車外カメラ222により撮像された撮像画像、車両200の車速情報、加速度情報、第1ユーザの乗車位置の情報等である。
【0016】
対象物情報取得部114は、車両200の周囲に存在する対象物の位置を示す対象物位置情報を取得する。対象物は、車両200の外側に位置する自然物や、建物及び施設などの人工物等、人間が視覚的に捉えることができる一般的な対象物である。対象物の一例としては、飲食店、商店、観光施設、文化施設、遊戯施設、スポーツ施設などの建物(商業施設)や、交通標識、広告や案内等の表示物、鉄道、駅、バス、バス停などの公共施設や、山、川、木々等の景色を構成するものである。対象物情報取得部114は、コントローラ110のデータベースに保存される地図データから、対象物の位置情報を取得してもよい。対象物情報取得部114は、後述する対象物特定部115により対象物が特定されると、撮像画像の中から特定された対象物と同一の対象物を抽出する。そして、対象物情報取得部114は、抽出した対象物の位置を、撮像画像から抽出する。
【0017】
対象物特定部115は、音声取得部111により取得された第2ユーザの音声から対象物を特定する。対象物特定部115は、音声認識機能を有しており、音声データに含まれる音声に対して音声処理を施して、音声から対象物と関連するワードを抽出する。例えば、図2(а)の例のように、第2ユーザが「左側の『○○ベーカリ』のパンがおすすめ」と発した場合には、対象物特定部115は、「〇〇ベーカリ」、「パン」というワードを抽出する。コントローラ110は、対象物データをメモリに保存している。対象物データは、対象物を特定するための施設名称、店舗名、会社名、地名等を示す情報を含んでいる。なお、対象物データは、地図データと兼用させてもよい。そして、対象物特定部115は、メモリに保存されている対象物データを参照して、抽出したワードに関連する対象物を特定する。例えば、「〇〇ベーカリ」というワードが抽出された場合には、対象物特定部115は、「○○ベーカリ」という店舗名から、パン販売店という対象物を特定する。また、例えば、「パン」というワードが抽出された場合には、対象物特定部115は、「パン」に関する対象物を特定する。また、例えば「あのタワーを見て」という音声が発された場合には、「タワー」というワードが抽出されて、「タワー」という建物の種類又は「○○タワー」などの建物の名称の一部から、高層ビル又は高層マンションという対象物を特定する。対象物特定部115は、自車位置から対象物の検索範囲を絞った上で、対象物を特定してもよい。第2ユーザが、バーチャル空間で車外を見ている時に、第2ユーザが見ることができる範囲は、例えば、自車位置を中心に300mの範囲等、限りがある。対象物特定部115は、地図情報を参照して、自車位置を中心とした特定の範囲内に位置する対象物を抽出した上で、音声から抽出したワードと関連付けて、対象物を特定する。
【0018】
また対象物特定部115は、地図情報及び/又は撮像画像から、特定された対象物の位置を特定する。撮像画像から対象物の位置を特定する場合には、対象物特定部115は、撮像画像に写っている対象物の大きさ及び対象物の位置(又は方角)から、位置を特定すればよい。さらに、対象物特定部115は、自車位置取得部112により取得された自車位置を用いて、自車位置と対象物の位置関係を特定する。これにより、コントローラ110は、第2ユーザの音声から特定される注意対象物が、自車両の位置に対して、どの位置にあるのか特定できる。
【0019】
仮想画像生成部116は、表示装置250に表示されるキャラクターの仮想画像を生成する。仮想画像は、第2ユーザを表すキャラクター(アバター)である。仮想画像生成部116は、車両200の助手席等、仮想画像の表示位置を設定する。また仮想画像生成部116は、第2ユーザの音声、車両200の自車位置、対象物特定部115により特定された対象物の位置に基づき、キャラクターの動作を指示する指示情報を生成する。仮想画像生成部116は、第2ユーザの音声に基づき、対象物特定部115により抽出されたワードを用いて、第2ユーザが対象物を指さす、又は、第2ユーザが対象物の方向を見ていることを特定する。例えば図2(а)の例では、「左側」、「おすすめ」というワードと、車外の対象物が特定されていることから、第2ユーザが仮想空間上で対象物を指す、又は、対象物の方向を向くなどの動作をしていることが把握される。また、仮想画像生成部116は、対象物特定部115により特定された、自車位置と対象物との位置関係を用いることで、仮想空間上における自車位置と注意対象物との位置関係も把握できる。そして、仮想画像生成部116は、自車位置と注意対象物との位置関係を用いて、第2ユーザの音声から把握される第2ユーザの動作を、キャラクターの動作で表すよう仮想画像を生成する。これにより、仮想画像生成部116は、キャラクターの動作を指示する指示情報を生成し、仮想画像及び指示情報を含む仮想画像信号を、通信装置120を介して、車両200に出力する。
【0020】
遠隔画像生成部117は、車内カメラ211及び/又は車外カメラ212の撮像画像に基づき、VR表示用の画像を生成し、生成された画像を含む車両画像信号を通信装置120を介して端末装置300に送信する。なお遠隔画像生成部117は、車内カメラ211の撮像画像及び車外カメラ212の撮像画像を両方用いて、VR画像を生成する場合には、それぞれの画像を合成し、合成された画像をVR表示用の画像に加工する。第2ユーザは、表示装置340を用いて、VR画像を見ることで、車内だけでなく車外の様子も確認できる。
【0021】
次に、車両200について説明する。車両200は、車載コントローラ210と、車内カメラ221と、車外カメラ222と、車載通信装置230と、センサ群240と、表示装置250と、スピーカ260とを備えている。車載コントローラ210は、車両200の各装置、センサの機能を制御する。車載コントローラ210は、車内カメラ221及び/又は車外カメラ222で撮影された撮像画像、及び、センサ群240により検出された検出データを車載通信装置230に出力する。
【0022】
車内カメラ221は、車室内に固定されており、車室内に固定された位置から、車室内及び又は車室外を撮像し、撮像された画像データを車載コントローラに210に出力する。車内カメラ221は、窓越しに車室外の景色を撮像する。なお、車内カメラ221は、車室内の所定の固定位置から取り外し可能なカメラでもよい。例えば、スマートフォンなどの携帯端末を車室内に持ち込み、携帯端末をフォルダーなどに固定し、車内カメラ221として使用されてもよい。車外カメラ222は、車両200のボディ等に固定されており、車室外の景色や車両200の周囲を撮像し、撮像された画像データを車載コントローラ210に出力する。なお、車内カメラ221及び車外カメラ222は、必ずしも1台である必要はなく、複数台でもよい。なお、複数台のカメラを使用した場合には、複数の画像を合成して、車両内部画像及び景色画像とすればよい。これにより、撮像画像の解像度を高めることができる。
【0023】
なお、車両外の画像は、車外カメラ222に限らず、ドライブレコーダーなどで撮影される画像のように車室内にいるユーザが見ることのできる範囲の画像であることが好ましいが、車室外又は車室内のうち少なくともいずれかに配置されたカメラの画像とすることで、第2ユーザが車両周辺の状況や建物の情報を確認できる。
【0024】
車載通信装置230は、通信装置120と通信を行い、データの授受を行う。
【0025】
センサ群240は、車速センサ、Gセンサ、GPSシステムに含まれるGPS受信機などである。センサ群240は、車両の状態を検出するためのセンサである。なお、自車位置は、GPS受信機など車両に設けられた車載装置に限らず、車両に持ち込まれた機器から取得してもよい。例えば、第1ユーザがGPS機能を内蔵した携帯端末を車室内に持ち込んで、携帯端末を、自車位置検出センサとして使用してもよい。携帯端末である自車位置検出センサは、車内ネットワークを介して、車載コントローラ210と接続し、自車位置を示すデータを車載コントローラ210に送信する。
【0026】
表示装置250は、第1ユーザに対して、第1ユーザを表すキャラクタを含んだVR画像を表示する。表示装置250は、車載ディスプレイ等である。表示装置250は、車載ディスプレイに限らず、車内に持込み可能な通信端末PC、HDM型機器、3Dディスプレイなどでもよい。
【0027】
スピーカ260は、車載通信装置230で取得した第2ユーザの音声データに基づき、第2ユーザの音声を出力する。なお、音を出力する装置は、スピーカ260に限らずイヤホンやヘッドフォンでもよい。
【0028】
図2(b)は、表示装置250介して、第1ユーザが見るVR画像を説明するための図である。助手席には誰も乗車していないが、表示装置250を介してみえる空間では、第1ユーザは、、2ユーザを表すキャラクタを見ることができる。さらに、第1ユーザは、スピーカからの音声出力で、第2ユーザの発する音声をキャラクターが話しているように、聞くことができる。図2の例では、(а)で示す第2ユーザが発した音声が、(b)に示すキャラクターの音声で再現されている。
【0029】
端末装置300は、遠隔地空間において、第2ユーザにより利用される装置であって、助手席などの車両200内の所定の位置からみた時の仮想画像を出力する。端末装置300は、例えば、遠隔地空間に設置されるものであってもよい。端末装置300は、端末コントローラ310と、マイク320と、端末通信装置330と、表示装置340とを備える。端末コントローラ310は、端末装置300の各装置の機能を制御する。具体的には、端末コントローラ310は、端末通信装置330により受信された画像データで示される撮像画像を、表示装置340から第2ユーザに出力させる制御信号を出力する。
【0030】
マイク320は、第2ユーザの音声を音声データに変換する。
【0031】
端末通信装置330は、画像生成装置100及び車両200の車載通信装置230と通信を行い、情報の授受を行う。具体的には、端末通信装置330は、画像生成装置100から、画像データを受信し、画像生成装置100に操作情報を送信する。
【0032】
表示装置340は、第2ユーザに、車両内又は車室外の所定の位置における車室内及び車室外の環境を出力する装置である。表示装置340は、例えば、メガネ型又はゴーグル型のVRヘッドマウントディスプレイであって、第2ユーザの頭部に装着される。第2ユーザは、端末装置300を介して車室内外の環境が表示される仮想現実(VR)を視認することができる。表示装置340は、車室内外の環境を表す仮想画像や、車室内又は車室外の所定の位置から聞こえる音声を表す仮想音声情報を出力する。これにより、第2ユーザは、あたかも自分が車両200に搭乗しているような景色や見たり、音声を聞いたりできる。また、第2ユーザは、車外カメラ222の撮像画像から、車両200の外部の景色を見ることもできる。表示装置340は、例えば、非透過型ディスプレイ、スピーカ等を有している。
【0033】
次に、図3を参照しつつ、対象物の種別を特定して、キャラクターの動作を決定する制御処理について説明する。図3は、車両200の自車位置と、車両200の周囲にある対象物との位置関係を説明するための概要図である。なお、対象物の種別は必ずしも特定する必要はないが、第2ユーザの動きと、キャラクターの動きの一致度をより高めるために、種別を特定してもよい。
【0034】
対象物の種別は、対象物を所定の分類に応じた区分であって、対象物が建物などの施設であれば、商業施設、文化施設、体育施設、医療施設、交通施設等の区分けが、対象物の種別となる。また、種別はさらに細かく分類してもよく、例えば商業施設は、飲食店、洋服店、雑貨店、百貨店、量販店などに区分けしてもよい。また対象物の種別は、施設に限らず、自然物を、山、川、森等に区分けしたものでもよい。対象物の種別方法は予め決められており、対象物の種別を示すデータはメモリに保存されている。
【0035】
対象物特定部115は、第2ユーザの音声から対象物を特定する際に、対象物の種別も特定する。例えば、図2(а)に示す音声から、「○○ベーカリ」及び/又は「パン」というワードから、パン販売店が特定される。対象物特定部115は、メモリに保存された、対象物の種別データを参照し、パン販売店に属する種別を特定する。例えば、対象物の種別が、大分類として、商業施設、文化施設、体育施設等に分けられ、小分類として、商業施設が、飲食店、洋服店、雑貨店等に分けられていたとする。このような場合には、対象物特定部115は、パン販売店が属している飲食店を、対象物の種別として特定する。
【0036】
対象物特定部115は、車両周囲情報に基づき、第2ユーザの音声から特定される対象物と同種の対象物を、車両の周囲から特定する。対象物特定部115は、自車位置の情報、車内カメラ221及び/又は車外カメラ222の撮像画像、及び地図データを用いて、車両200の周囲の情報(車両周囲情報)を特定する。車両周囲情報は、少なくとも対象物に関する情報を含んでいる。例えば、対象物特定部115は、撮像画像に写る対象物を画像処理で識別することで、車両周囲に位置する対象物を特定する。また、対象物特定部は、地図データを用いて、自車位置から所定距離の範囲内に位置する対象物を特定する。
【0037】
図3の例では、車両200の左側には、対象物である5つの商業施設が車両200の走行車線に沿って並んでいる。対象物401~405の「A」、「B」、「C」は,対象物の種別を表しており、「A」は洋服店であり、「B」は雑貨店であり、「C」は飲食店である。対象物特定部115は、車両周囲情報に基づき、対象物401~405を特定する。また、対象物特定部115は、第2ユーザの音声から、対象物の種別として「飲食店」を特定したとする。図3の例では、「飲食店」を種別とする商業施設は対象物403となる。そして、対象物特定部115は、対象物の403の位置を、対象物の種別から特定できる。つまり対象物特定部115は、地図情報又は撮像画像から注意対象物の位置を特定するが、対象物の種別を用いて、音声から特定された対象物となり得る対象物を絞った上で、対象物を特定することで、音声から特定される対象物の位置と、実際の対象物の位置との一致度を高めることができる。
【0038】
対象物特定部115により自車位置と注意対象物の位置関係が特定されると、仮想画像生成部116は、自車位置と対象物の位置関係に応じて、キャラクターの動作を決定する。図3の例では、仮想画像生成部116は、キャラクターの顔が対象物403の位置の方向を向くように、あるいは、キャラクターの指が対象物403の位置を指すように、キャラクターの動作を決定する。キャラクターの動作は、第1ユーザが対象物403を認識させるための動作であって、対象物を認識させる動作は、キャラクターの形状や動きにより決まる。図3の例では、キャラクターの顔が矢印Pの方向を向いてた場合には、仮想画像生成部116は、キャラクターの顔が矢印Pの方向から矢印Qの方向に向くような顔の動きを、キャラクターの動作として決定する。キャラクターの指で対象物403を指す場合には、仮想画像生成部116は、矢印Q方向への指差しを、キャラクターの動作として決定する。
【0039】
次に、図4を参照して、画像生成装置100、車両200、及び端末装置300の間のデータの送受信と、各装置のデータ処理を説明する。図4は、画像生成システム10におけるデータシーケンスを説明するためのシーケンスチャートである。
【0040】
ステップS1にて、第2ユーザは入力装置を操作し、VRシステムをオフからオンに切り替える。VRシステムは、車室内外の環境の仮想現実を、表示装置250による画像表示と表示装置340による画像表示のそれぞれで実現し、第1ユーザと第2ユーザが車両200に同乗しているような空間を、第1ユーザと第2ユーザにそれぞれ提供するためのシステムである。VRシステムがオフからオンに切り替わると、端末コントローラ310は、VR画像を取得ための操作信号を画像生成装置100に送信する。
【0041】
ステップS2にて、画像生成装置100のコントローラ110は、通信装置120によりVR要求信号を受信すると、VR要求処理を開始する。まず、コントローラ110は、VR要求信号を車載通信装置230に送信する。ステップS3にて、車載コントローラ210は、車載通信装置230により受信されたVR要求信号に基づき、VR要求を受け入れるか否か判断する。例えば、車載コントローラ210は、VR要求信号が受信された場合には、車内のディスプレイに、VR要求を受け入れるか否かの選択画面を表示する。そして、第1ユーザからVR要求を受け入れる旨の操作があった場合には、車載コントローラ210はVR要求の受け入れ可と判定する。一方、第1ユーザからVR要求を受け入れない旨の操作があった場合には、車載コントローラ210はVR要求の受け入れ不可と判定する。VR要求の受け入れ可と判定した場合には、車載コントローラ210は車載通信装置230を用いて、VR許可信号を画像生成装置100に送信する。
【0042】
ステップS4にて、画像生成装置100のコントローラ110は、車両200からVR許可信号を受信し、VRシステムを開始する。コントローラ110は、通信装置120により画像要求信号を車両200に送信し、画像要求信号に対する応答として、車両200から車両データを取得する。車両データは、車内カメラ221及び/又は車外カメラ222の撮像画像及び車両情報を含んでいる。コントローラ110は、車両データに基づき、表示装置250に表示するためのVR画像、及び、表示装置340に表示するためのVR画像をそれぞれ生成する。表示装置250に表示するためのVR画像には、第2ユーザを表すキャラクターの仮想画像が含まれる。表示装置340に表示するためのVR画像には、第1ユーザを表すキャラクターの仮想画像を含めてよい。コントローラ110は、表示装置250に表示するためのVR画像を含む仮想画像信号を、車両200に送信する。またコントローラ110は、表示装置340に表示するためのVR画像を含む車両画像信号を端末装置300に送信する。車両画像信号には、車内カメラ221及び/又は車外カメラ222の撮像画像のデータを含んでいる。
【0043】
ステップS6にて、車載コントローラ210は、仮想画像信号に含まれるVR画像を表示装置250に表示させる。また車載コントローラ210は、車両200の走行中及び停車中に、車内カメラ221及び/又は車外カメラ222の撮像画像、及び、自車位置の情報を含む車両データを、所定の周期で画像生成装置100に送信する。ステップS7にて、端末コントローラ310は、車両画像信号に含まれるVR画像を表示装置340に表示させる。
【0044】
ステップS8にて、第2ユーザがVR画像の視聴中に音声を発し、マイク320は音声を音声データに変換する。音声データは画像生成装置100のコントローラ110に出力される。ステップS9にて、コントローラ110は、音声データに含まれる音声、車両データに含まれる自車位置と対象物、及び、対象物の位置に基づいて、キャラクターの動作を決定する。コントローラ110は、キャラクターの動作を指示する指示情報を生成し、指示情報及び仮想画像を含む仮想画像信号を車両200に送信する。ステップS10にて、車載コントローラ210は、仮想画像信号に含まれる指示情報に応じて、キャラクターが動くように、表示装置250の表示画面を制御する。
【0045】
次に、図5を参照し、コントローラ110の詳細な制御フローを説明する。図5は、コントローラ110の制御フローを示したフローチャートである。なお、図5に示す制御フローは、VRシステムが既に稼働中であり、表示装置250及び表示装置340には、それぞれVR画像が表示されている状態で、実行される。
【0046】
ステップS11にて、コントローラ110の音声取得部111は、端末装置300から送信される音声データから、第2ユーザにより発生された音声を取得する。ステップS12にて、自車位置取得部112は、車両200から送信される車両データから、車両200の自車位置を示す自車位置情報を取得する。ステップS13にて、車両情報取得部113及び対象物情報取得部114は、車両データから、少なくとも対象物位置情報を含んだ車両周囲情報を取得する。車両周囲情報には、車両の周囲を写した撮像画像を含んでもよい。
【0047】
ステップS14にて、対象物情報取得部114は、音声取得部111で取得された音声から、対象物を特定する。ステップS15にて、対象物特定部115は、地図情報及び/又は撮像画像に基づき、対象物の位置を特定する。ステップS16にて、仮想画像生成部116は、音声、自車位置、特定された対象物の位置に基づき、キャラクターの動作を決定する。ステップS17にて、仮想画像生成部116は、決定された動作でキャラクターが動くよう指示情報を生成する。また、仮想画像生成部116は、キャラクターの仮想画像を生成する。ステップS18にて、仮想画像生成部116は、指示情報及び仮想画像を含む仮想画像信号を、通信装置120を介して、車両200に出力する。
【0048】
上記のように本実施形態において、画像生成装置100は、第2ユーザにより発話された音声を取得し、自車位置を示す自車位置情報を取得し、車両200の周囲に存在する対象物の位置を示す対象物位置情報を取得し、音声から対象物を特定し、音声、自車位置、及び対象物の位置に基づき、キャラクターの動作を指示する指示情報を生成し、指示情報含む仮想画像信号を出力する。これにより、対象物に関する音声と、音声に応じたキャラクターの動きを一致させることができる。また、第2ユーザの発話内容から自車位置と車両周辺の対象物の位置の位置関係を保つことができるため、位置関係に応じたキャラクター動作が自然な動作となる。
【0049】
ところで、本実施形態とは異なり、発話内容のキーワードのみから、キャラクターの動作パターンを決定する方法では、車両200のように、車両周囲の対象物の位置と自車位置との位置関係が変化する場合に、仮想空間において、キャラクターが「指さす、見つめる、振り向く」などの動作で、対象物の位置を表現することは困難であった。一方、本実施形態では、音声に加えて、自車位置及び対象物の位置の情報を用いて、キャラクターの動作を決定するため、対象物に関する音声と、音声に応じたキャラクターの動きを一致させることができる。
【0050】
また本実施形態において、画像生成装置100は、車両200の周囲を示す車両周囲情報を取得し、音声から対象物の種別を特定し、車両周囲情報に基づき、音声から特定される対象物と同種の対象物である注意対象物を、車両の周囲から特定し、自車位置と前記注意対象物の位置関係に応じて、前記キャラクターの動作を決定する。これにより、第2ユーザの発話内容から自車位置と車両周辺の対象物の位置の位置関係を保つことができるため、位置関係に応じたキャラクター動作が自然な動作となる。
【0051】
また本実施形態において、画像生成装置100は、車両200の内部にいる第1ユーザが注意対象物を認識させる動作を、キャラクターの動作として決定する。これにより、第1ユーザは、第2ユーザがどの対象物の内容について話しているか容易に理解できる。
【0052】
なお、本実施形態において、画像生成装置100は、音声等に基づき決定したキャラクターの動作を、第2ユーザの音声の発話タイミングに合うよう、リアルタイムで、キャラクターの動きに反映させなくてもよい。例えば、ドライバーである第1ユーザの運転負荷が大きい場合に、キャラクターを動作させたとしても、第1ユーザは運転に集中しており、仮想画像を見ていない可能性が高い。また、第1ユーザの意思で仮想画像の表示を受け入れない場合には、画像生成装置100が、キャラクターの動作を仮想画像に反映させることはできない。このような場合には、画像生成装置100は、指示情報を含む仮想画像信号を車両200に送信しない、あるいは、車両200側で仮想画像を表示可能な状態となったタイミングで、仮想画像信号を送信する。具体的には、画像生成装置100のコントローラ110は、車両データに含まれる車速情報から、車両200の状態を検出する。車速情報で示される車速が所定の車速閾値以上である場合には、コントローラ110は、仮想画像の表示不可と判定する。仮想画像の表示ができない間は、コントローラ110は、音声等からキャラクターの動作を決定しても、決定されたキャラクターの指示情報及び仮想画像を車両200に送信しない。車速が所定の車速閾値未満である場合には、コントローラ110は、仮想画像の表示可能と判定する。そして、コントローラ110は、仮想画像の表示可となったタイミングで、送信を保留にしていた仮想画像信号を送信する。また、他の例として、コントローラ110は、車両200に仮想画像信号を送信したが、車両200側で、仮想画像信号の受信が拒否された場合、又は、通信不良により仮想画像信号が受信されなかった場合に、仮想画像信号の送信を保留状態にする。そして、コントローラ110は、一定時間経過後、又は、車両200側で、仮想画像信号の受信が可能となったタイミングで、仮想画像信号を再送する。これにより、本実施形態では、キャラクターの動作を含めた仮想画像をリアルタイムで表示しなくても、対象物に関する音声と、音声に応じたキャラクターの動きを一致させることができる。
【0053】
なお、本実施形態の変形例として、仮想画像生成部は、学習済みモデルを有しており、学習モデルを用いて、キャラクターの動作を決定してもよい。学習済みモデルは、音声、自車位置、及び対象物の位置の関係からキャラクターの動作を決定するために学習されたモデルである。学習済みモデルは、音声、自車位置、及び対象物の位置を含む入力データと、キャラクターの動作とを対応づけた教師データを用いて学習されたモデルである。学習済みモデルは、ひとつ以上のニューロンからなる入力層、出力層及び少なくともひとつの中間層を含むニューラルネットワークにより構成され、入力層には、音声、自車位置、及び対象物の位置を含む入力データが入力され、出力層から、キャラクターの動作を含む出力データを出力する。学習済みモデルは、ソフトウェアのプログラムモジュールとして利用される。学習済みモデルとしては、画像生成装置100によって、教師データを用いて学習させた学習済みモデルを用いてもよいし、画像生成装置100外部で教師データを用いて学習させた学習済みモデルを取得して用いることとしてもよい。また、画像生成装置100は、学習モデルを形成可能な学習部を有してもよく、教師データを用いてニューラルネットワークを学習させてもよい。学習済みモデルは、入力データに基づいてニューラルネットワークを介して出力された値が、教師データによって与えられた値(入力データに対して出力されるべき値)に一致するように出力層-中間層間と中間層-入力層間の結合係数(重みづけ)を変更する学習が繰り返されることで生成される。なお、学習部により、学習モデルを生成する際には、キャラクターの動作を学習させるために、第2ユーザに動きを検出するためのセンサを装着させて、第2ユーザの音声と合わせて、センサの検出データと音声データを蓄積して、音声データと第2ユーザの動きを対応させることで、モデルを生成してもよい。
【0054】
このように変形例に係る画像生成装置100は、学習済みの学習モデルに、入力データとして新たに取得された音声、自車位置、及び対象物の位置を入力し、入力データに対応する新たな出力データとしてキャラクターの動作を出力させることにより、キャラクターの動作を決定する。これにより、キャラクターの動作を生成するモデルを学習済みなので、入力データを入力することで、自動でキャラクターの動作を決定することができる。
【0055】
また変形例に係る画像生成装置100は、ニューラルネットワークと、ニューラルネットワークを学習させる学習部とを有し、学習部により取得されたニューラルネットワークに、入力データとして新たに取得された音声、自車位置、及び対象物の位置を入力し、入力データに対応する新たな出力データとしてキャラクターの動作をニューラルネットワークから出力させることにより、キャラクターの動作を決定する。これにより、キャラクターの動作を生成するモデルを学習済みなので、入力データを入力することで、自動でキャラクターの動作を決定することができる。
【0056】
なお、本実施形態において、画像生成装置100は車両200に設けられてもよい。すなわち、車載コントローラ210は、コントローラ110に含まれる音声取得部111等の機能ブロックを有しており、サーバを介さずに、車両200と端末装置300と間の通信で、VRシステムを構築してもよい。
【0057】
なお、以上に説明した実施形態は、本発明の理解を容易にするために記載されたものであって、本発明を限定するために記載されたものではない。したがって、上記の実施形態に開示された各要素は、本発明の技術的範囲に属する全ての設計変更や均等物をも含む趣旨である。
【符号の説明】
【0058】
10…画像生成システム
100…画像生成装置
110…コントローラ
111…音声取得部
112…自車位置取得部
113…車両情報取得部
114…対象物情報取得部
115…対象物特定部
116…仮想画像生成部
117…遠隔画像生成部
120…通信装置
200…車両
300…端末装置
図1
図2
図3
図4
図5