特許第6604151号(P6604151)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 三菱自動車工業株式会社の特許一覧

<>
  • 特許6604151-音声認識制御システム 図000002
  • 特許6604151-音声認識制御システム 図000003
  • 特許6604151-音声認識制御システム 図000004
  • 特許6604151-音声認識制御システム 図000005
  • 特許6604151-音声認識制御システム 図000006
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6604151
(24)【登録日】2019年10月25日
(45)【発行日】2019年11月13日
(54)【発明の名称】音声認識制御システム
(51)【国際特許分類】
   G10L 15/24 20130101AFI20191031BHJP
   G10L 15/00 20130101ALI20191031BHJP
   G10L 15/28 20130101ALI20191031BHJP
   G10L 15/25 20130101ALI20191031BHJP
   G06F 3/01 20060101ALI20191031BHJP
   G06F 3/0484 20130101ALI20191031BHJP
   G01C 21/36 20060101ALI20191031BHJP
   G10L 15/22 20060101ALI20191031BHJP
【FI】
   G10L15/24 Z
   G10L15/00 200J
   G10L15/28 400
   G10L15/25
   G06F3/01 570
   G06F3/0484
   G01C21/36
   G10L15/22 200V
【請求項の数】4
【全頁数】10
(21)【出願番号】特願2015-219116(P2015-219116)
(22)【出願日】2015年11月9日
(65)【公開番号】特開2017-90615(P2017-90615A)
(43)【公開日】2017年5月25日
【審査請求日】2018年10月26日
(73)【特許権者】
【識別番号】000006286
【氏名又は名称】三菱自動車工業株式会社
(74)【代理人】
【識別番号】100092978
【弁理士】
【氏名又は名称】真田 有
(72)【発明者】
【氏名】入方 真吾
(72)【発明者】
【氏名】難波 宗義
【審査官】 千本 潤介
(56)【参考文献】
【文献】 特開2007−024866(JP,A)
【文献】 特開2007−298592(JP,A)
【文献】 特開2008−020274(JP,A)
【文献】 特開2005−037375(JP,A)
【文献】 特開2004−206471(JP,A)
【文献】 特開2006−090790(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00−15/34
G01C 21/00−21/36
G06F 3/00−3/16
(57)【特許請求の範囲】
【請求項1】
車両乗員の音声を入力信号として車載装置を制御する音声認識制御システムにおいて、
少なくとも前記音声に基づき、発話位置及び発話内容を認識する音声認識部と、
室内カメラで撮影された車室内の画像に基づき、前記発話位置の人物のジェスチャを検出するジェスチャ検出部と、
前記ジェスチャで指定される施設に関する複数の情報を記憶するデータベースと、
前記発話内容と前記発話位置とに基づき、前記複数の情報の一部を選択して出力する制御部と、
を備えたことを特徴とする、音声認識制御システム。
【請求項2】
前記制御部は、前記発話位置が運転席である場合に前記施設の駐停車設備情報を出力する
ことを特徴とする、請求項1記載の音声認識制御システム。
【請求項3】
前記制御部は、前記発話位置が前記運転席以外である場合に前記施設の営業内容情報を出力する
ことを特徴とする、請求項1又は2記載の音声認識制御システム。
【請求項4】
前記制御部が、前記音声が入力された時刻に応じた前記情報を出力する
ことを特徴とする、請求項1〜3のいずれか1項に記載の音声認識制御システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、車両乗員の音声で車載装置を制御する音声認識制御システムに関する。
【背景技術】
【0002】
従来、車両の運転手が発する音声や視線を入力操作として、様々な情報を運転手に提供する情報案内装置が提案されている。例えば、運転手が音声で「あの山は何?」と発話すると、運転手の視線の先にある山の名称を答える装置が知られている(特許文献1参照)。また、運転手が「あの店のおすすめは?」と発話したときに、カーナビゲーションシステムの地図データを用いて運転手の視線の先にある施設を検索し、その施設の案内文を出力する技術も知られている(特許文献2参照)。音声入力と視線入力とを併用することで、運転者の集中力を低下させることなく所望の情報を提供することが可能となる。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2003-329463号公報
【特許文献2】特開2009-031065号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、乗員が必要とする情報の種類は、乗員毎に相違する場合がある。例えば、車両の目的地が大型商業施設である場合に、運転者はその施設内に設けられている駐車場の位置や駐車スペースの広さ,高さ制限,駐車料金などの情報が知りたいことがある。これに対し、運転者以外の同乗者にとっては駐車場関連の情報が不要とされ、施設内の店舗情報や営業時間情報を知りたがる場合がある。既存の技術では、乗員に提供される情報の適切さの度合いが十分に評価されていないため、改良の余地がある。
【0005】
本件の目的の一つは、上記のような課題に鑑みて創案されたものであり、乗員に適切な情報を提供できるようにして利便性を向上させた音声認識制御システムを提供することである。なお、この目的に限らず、後述する「発明を実施するための形態」に示す各構成から導き出される作用効果であって、従来の技術では得られない作用効果を奏することも、本件の他の目的として位置付けることができる。
【課題を解決するための手段】
【0006】
(1)ここで開示する音声認識制御システムは、車両乗員の音声を入力信号として車載装置を制御する音声認識制御システムである。本システムは、少なくとも前記音声に基づき、発話位置及び発話内容を認識する音声認識部と、室内カメラで撮影された車室内の画像に基づき、前記発話位置の人物のジェスチャを検出するジェスチャ検出部とを備える。また、前記ジェスチャで指定される施設に関する複数の情報を記憶するデータベースを備える。さらに、前記発話内容と前記発話位置とに基づき、前記複数の情報の一部を選択して出力する制御部を備える。
【0007】
(2)前記制御部は、前記発話位置が運転席である場合に前記施設の駐停車設備情報を出力することが好ましい。
(3)前記制御部は、前記発話位置が前記運転席以外である場合に前記施設の営業内容情報を出力することが好ましい。
(4)前記制御部が、前記音声が入力された時刻に応じた前記情報を出力することが好ましい。例えば、前記時刻が前記施設の営業時間外である場合に営業時間情報を出力することが好ましい。
【0008】
なお、車速を検出する車速検出部を備えることが好ましい。例えば、前記車速検出部で検出された前記車速に応じて、前記制御部が前記複数の情報の一部を選択して出力することが好ましい。前記車速の情報は、前記複数の情報の一部を「出力」するための条件としてもよいし、前記複数の情報の一部を「選択」するための条件としてもよい。
【発明の効果】
【0009】
発話内容だけでなく発話位置に見合った情報を提供することができ、利便性を向上させることができる。
【図面の簡単な説明】
【0010】
図1】音声認識制御システムが適用された車両の上面図である。
図2】音声認識制御システムの構成を示す図である。
図3】ジェスチャの方向と案内の対象との関係を示す図である。
図4】案内の対象,発話内容,発話位置と情報の種類との関係を示す表である。
図5】音声認識制御システムの制御内容を説明するためのフローチャートである。
【発明を実施するための形態】
【0011】
図面を参照して、実施形態としての音声認識制御システムについて説明する。なお、以下に示す実施形態はあくまでも例示に過ぎず、以下の実施形態で明示しない種々の変形や技術の適用を排除する意図はない。本実施形態の各構成は、それらの趣旨を逸脱しない範囲で種々変形して実施することができる。また、必要に応じて取捨選択することができ、あるいは適宜組み合わせることができる。
【0012】
[1.装置構成]
本実施形態の音声認識制御システムは、図1に示す車両10に適用される。車両10の車室内には運転席14,助手席15が設けられ、車室前方側にはインパネ(インストルメントパネル,ダッシュボード)が配置される。インパネの車室側に面した部分のうち、運転席14の前方にはステアリング装置や計器類が配置され、助手席15の前方にはグローブボックスが配置される。また、インパネの車幅方向中央には、カーナビ機能やオーディオビジュアル機能などのユーザーインターフェースを集約して提供するマルチコミュニケーション型のディスプレイ装置16が設けられる。ディスプレイ装置16の位置は、運転席14に座る運転手の視点では左斜め前方であり、助手席15に座る乗員(助手)の視点では右斜め前方である。
【0013】
ディスプレイ装置16は、タッチパネルを備えた汎用の映像表示装置(表示画面)とスピーカ(音響装置)とCPU(Central Processing Unit),ROM(Read Only Memory),RAM(Random Access Memory)などを含む電子制御装置(コンピューター)とを備えた電子デバイスである。ディスプレイ装置16は、ナビゲーション装置11,エアコン装置12,カーオーディオ装置13,マルチメディアシステムなどの車載装置に接続されて、各種車載装置の入出力装置として機能しうる。例えば、ナビゲーション装置11から提供される目的地までの経路情報や地図情報,渋滞情報などは、このディスプレイ装置16の表示画面に表示可能とされ、音声案内も出力可能とされる。また、このディスプレイ装置16の表示画面には、車載の地上デジタル放送チューナーで受信した番組や、情報記録メディアの映像コンテンツ,リアビューカメラで撮影された映像,エアコン装置12やカーオーディオ装置13の操作用インターフェースといった、多様な視聴覚情報が再生,表示可能である。
【0014】
また、車両10には、乗員の音声を入力信号として各種車載装置を制御する音声認識制御装置1が搭載される。音声認識制御装置1は、CPU,MPU(Micro Processing Unit)などのプロセッサとROM,RAM,不揮発メモリなどを集積した電子デバイス(ECU,電子制御装置)である。ここでいうプロセッサとは、例えば制御ユニット(制御回路)や演算ユニット(演算回路),キャッシュメモリ(レジスタ)などを内蔵する処理装置(プロセッサ)である。また、ROM,RAM及び不揮発メモリは、プログラムや作業中のデータが格納されるメモリ装置である。音声認識制御装置1で実施される制御の内容は、ファームウェアやアプリケーションプログラムとしてROM,RAM,不揮発メモリ,リムーバブルメディア内に記録される。また、プログラムの実行時には、プログラムの内容がRAM内のメモリ空間内に展開され、プロセッサによって実行される。
【0015】
図2に示すように、音声認識制御装置1の入力装置としては、マイクアレイ21,室内カメラ22,車速センサ23などが挙げられる。マイクアレイ21は、複数のマイクロフォンを所定の配列に並べた音声入力装置であり、室内カメラ22は車室内全体を撮影可能な広角ビデオカメラである。マイクアレイ21,室内カメラ22は、例えば車幅方向中央部の天井面に内蔵される。車速センサ23は、車輪の回転速度に応じたパルス信号を出力するセンサである。一方、音声認識制御装置1の出力装置(制御対象)としては、ナビゲーション装置11,エアコン装置12,カーオーディオ装置13,ディスプレイ装置16などが挙げられる。音声認識制御装置1は、マイクアレイ21から入力された音声と室内カメラ22で撮影された画像と車速センサ23で検出されたパルス情報とに基づいて、各種車載装置を制御する。
【0016】
[2.制御構成]
音声認識制御装置1は、乗員の音声及びジェスチャに基づき、ジェスチャで指定される施設に関する情報を提供する機能を持つ。ここでいう施設とは、車両10の外部に存在する建造物や構造物を意味し、例えば建物,設備,工場,公園,競技場,駅などを含み、好ましくはナビゲーション装置11に内蔵された地図情報中に記録されているPOI(Point Of Interest)を含む。例えば、マイクアレイ21から何らかの音声が入力されると、まずその音声が発せられた発話位置が認識されるとともに、発話内容が認識される。また、室内カメラ22で撮影された画像に基づき、発話位置の人物によってなされたジェスチャが検出され、そのジェスチャが表す施設(ジェスチャによって指定される施設)が検出される。ジェスチャの具体例としては、その施設を指で指し示す仕草やその施設を見つめる仕草(視線を向ける仕草)が挙げられる。そして、発話内容が「案内の要求」である場合には、施設に関する情報が乗員に提供される。このとき、乗員に提供される情報の種類は、発話位置に応じて設定される。
【0017】
上記のような制御を実施するための要素として、音声認識制御装置1には、車速検出部2,音声認識部3,ジェスチャ検出部4,データベース5,制御部6が設けられる。これらは、音声認識制御装置1で実行されるプログラムの一部の機能を示すものであり、ソフトウェアで実現されるものとする。ただし、各機能の一部又は全部をハードウェア(電子制御回路)で実現してもよく、あるいはソフトウェアとハードウェアとを併用して実現してもよい。
車速検出部2は、車速センサ23が出力するパルス信号に基づき、車速を取得(検出,算出)するものである。ここで取得された車速の情報は、ジェスチャ検出部4及び制御部6に伝達される。
【0018】
音声認識部3は、少なくともマイクアレイ21から入力された音声に基づき、発話位置及び発話内容を認識するものである。ここでは例えば、発話者が運転席14に着座している人物(運転手)であるのか、助手席15に着座している人物(助手)であるのか、それともこれら以外の乗員(後部座席の乗員)であるのかが判断される。発話者の位置は、マイクアレイ21で検知された複数の音声信号の大きさや遅れに基づいて特定可能である。あるいは、室内カメラ22で撮影された画像を解析し、画像中に存在する人物の口唇の動きと音声が検出されたタイミングとを比較することでも、発話位置を特定可能である。
【0019】
発話内容は「案内の要求」,「制御の指令」,「その他」の三種類のいずれかに分類されて認識される。例えば、発話内容が『あれはなに?』『なんだっけ?』『説明して?』といった音声コマンドを含む場合には、その発話内容が「案内の要求」であると判断される。一方、発話内容が『オン』『オフ』『作動』『停止』といった音声コマンドを含む場合には、その発話内容が「制御の指令」であると判断される。また、発話内容が上記のいずれの音声コマンドを含まない場合には、その発話内容が「その他」に該当するものと判断される。音声認識の具体的手法は任意であり、公知の音声認識技術を採用することができる。例えば、音響モデルに基づいて音声に含まれる音素が解析された後に、言語モデルに基づいて音素の連なりからなる語や句が解析され、その意味内容が認識される。ここで認識された発話位置及び発話内容の情報は、ジェスチャ検出部4及び制御部6に伝達される。
【0020】
ジェスチャ検出部4は、室内カメラ22で撮影された画像に基づき、発話位置に存在する人物(すなわち発話者)によるジェスチャと、そのジェスチャによって指定される発話の対象とを検出するものである。「案内の要求」における発話の対象は、車両10の外部の施設である。また、「制御の指令」における発話の対象には、車両10に搭載された各種車載装置やその操作ボタン,インストルメントパネル上に表示されるインジケーター,ディスプレイ装置16上に表示されるアイコンなどが含まれる。
【0021】
発話の対象は、音声認識部3で認識された発話位置から、ジェスチャによって示された方向に向かって仮想線を伸ばした先に配置されているものを推定することによって検出可能である。ジェスチャとして指さしの仕草を検出する場合、画像解析により手の位置を推定し、車室内における発話者の手の位置を基準として、指の方向に仮想線を伸ばすことで、対象を精度よく検出することができる。一方、ジェスチャとして視線を検出する場合、画像解析により顔の位置や向きを推定し、車室内における発話者の顔の位置を基準として、視線方向に仮想線を伸ばすことで、対象を精度よく検出することができる。ここで検出された対象の情報は、制御部6に伝達される。
【0022】
本実施形態のジェスチャ検出部4は、図3に示すように、発話内容が「案内の要求」であるときに、発話時点における車両10の位置を基準として、ジェスチャによって指し示された方向の先に存在する施設を特定する。ジェスチャによる施設の特定手法としては、公知の手法を採用することができる。例えば、発話時点における車両10の位置はナビゲーション装置11で特定可能であり、施設はナビゲーション装置11に内蔵された地図情報から特定可能である(特許文献1,2参照)。
【0023】
データベース5は、音声認識に関する総合的な各種データが記録,保存されたストレージ装置である。ここには、音声認識で用いられる音響モデルや言語モデルが記録,保存される。音響モデル及び言語モデルは、標準話者の音声に基づいてあらかじめ作成されたものである。なお、具体的な音響モデル,言語モデルについては、公知の技術(例えば、特開2002-189492号など)に基づいて作成することができる。
【0024】
また、データベース5には、発話内容が「案内の要求」である場合に乗員に提供される情報の種類と、発話内容及び発話位置との関係が記録,保存される。本実施形態のデータベース5には、図4に示すように、発話の対象である施設,発話内容,発話位置の組み合わせと、その乗員に提供される情報の種類との関係が記録,保存される。図4には、例えば施設Aに対する案内の要求があったとき、発話位置が運転席14だったならば、施設Aの駐停車設備情報が提供されることが示されている。また、発話位置が助手席15だったならば、施設Aの営業内容情報が提供され、発話位置が他の座席だったならば、施設Aの一般情報が提供されることが示されている。
【0025】
制御部6は、音声認識部3で認識された発話位置及び発話内容と、ジェスチャ検出部4で検出された発話の対象とに基づき、データベース5に記録,保存された関係を用いて各種車載装置を制御するものである。制御部6はおもに二つの機能を持つ。
第一の機能は、制御対象を音声で制御する機能(ハンズフリー制御機能)である。制御部6は、音声認識部3で認識された発話内容が「制御の指令」を意味する音声コマンドを含む場合に、発話の対象の作動状態を制御する。なお、ハンズフリー制御機能の具体的手法は任意であり、公知の手法を採用することができる。
【0026】
第二の機能は、乗員が知りたい情報をディスプレイ装置16に出力する機能(案内機能)である。制御部6は、音声認識部3で認識された発話内容が「制御の指令」を意味する音声コマンドを含まず、かつ「案内の要求」を意味する音声コマンドを含む場合に、発話の対象である施設に関する情報を乗員に提供する。このとき、乗員に提供する情報は、施設に関する多数の情報の中から発話位置に応じて取捨選択される。なお、発話内容に「案内の要求」を意味する音声コマンドや「制御の指令」を意味する音声コマンドが含まれない場合には、発話の対象が制御されることなく、音声コマンドがキャンセル(取り消し)される。
【0027】
[3.フローチャート]
図5は、音声認識制御装置1で実施される制御内容を説明するためのフローチャート例である。まず、マイクアレイ21で検出された音声情報,室内カメラ22で撮影された画像情報,車速センサ23からのパルス情報が音声認識制御装置1に入力され(ステップA1)、音声が入力されたか否かが判定される(ステップA2)。ここで、何らかの音声が入力されていると、音声認識部3において、少なくともその音声に基づき、発話位置と発話内容とが認識される(ステップA3)。また、ジェスチャ検出部4では、室内カメラ22で撮影された画像に基づき、発話位置の人物のジェスチャが検出され(ステップA4)、そのジェスチャによって指定される発話の対象が特定される(ステップA5)。
【0028】
制御部6では、音声認識部3で認識された発話内容が「制御の指令」を意味する音声コマンドを含むか否かが判定され(ステップA6)、この条件が成立する場合には、ジェスチャで指定された発話の対象(例えば、ナビゲーション装置11やエアコン装置12)の作動状態が制御される(ステップA7)。
【0029】
また、ステップA6の条件が不成立の場合には、音声認識部3で認識された発話内容が「案内の要求」を意味する音声コマンドを含むか否かが判定される(ステップA8)。この条件が成立し、発話位置が運転席14だった場合には、運転手向けの駐停車施設情報が選択されて出力され、発話の対象(例えば、施設Aや施設B)に関する音声案内と映像案内とがディスプレイ装置16から提供される(ステップA9,A10)。一方、発話位置が助手席15だった場合には、助手向けの営業内容情報が選択されて出力される。また、発話位置が運転席14,助手席15のいずれでもなければ、施設の一般情報が選択されて出力される。なお、ステップA8の条件も不成立の場合には、発話の対象が制御されることなく、音声コマンドがキャンセルされる。
【0030】
[4.作用,効果]
(1)上記の音声認識制御装置1では、音声入力と視線入力とを併用した情報提供に際し、発話位置に応じて複数の情報の一部が選択的に出力される。このように、発話位置に応じて、乗員に提供される情報を選択することで、発話内容だけでなく発話位置に見合った情報を提供することができ、利便性を向上させることができる。
【0031】
(2)例えば、運転席14に着座する運転手が施設Aについての案内の要求をした場合には、施設Aの駐停車設備情報が提供される。これにより、運転手は車両10を実際に施設Aの駐車場まで移動させる前に、駐車が可能であるか否かを確認することができる。また、駐車場の料金や営業時間を確認することができる。したがって、車両の駐停車操作に有益な情報を獲得することができ、利便性を向上させることができる。
【0032】
(3)一方、助手席15に着座する助手が施設Aについての案内を要求した場合には、施設Aの営業内容情報が提供される。これにより、助手は実際に施設Aへと足を運ぶ前に、営業時間の情報やお得な情報を先取りすることができる。したがって、施設利用に有益な情報を獲得することができ、利便性を向上させることができる。
【0033】
[5.変形例]
上述の実施形態では、図4に示すように、発話内容と発話位置とに基づいて情報の種類が選択されているが、発話時刻も考慮して情報の種類を選択する構成としてもよい。例えば、発話時刻が施設の営業時間内である場合には施設の営業内容情報を提供し、発話時刻が施設の営業時間外である場合にはその営業時間情報のみを提供することが考えられる。このように、時間帯に応じて情報の種類を変更することで、乗員にとってより適切な情報を提供することができ、利便性をさらに向上させることができる。
【0034】
また、上述の実施形態では、音声の認識から制御対象の制御までに至るすべての過程が音声認識制御装置1で統括管理されているが、音声認識制御装置1の機能の一部又は全部を車両10の外部に移設することも考えられる。例えば、音声認識制御装置1をインターネット,携帯電話機の無線通信網,その他のデジタル無線通信網などのネットワークに接続可能とし、ネットワーク上のサーバに音声認識制御装置1の機能の一部又は全部を実装してもよい。これにより、データベース5の管理や更新が容易となり、音声認識精度やジェスチャ認識精度を向上させることができる。
【0035】
なお、上述の実施形態の制御において、案内機能の実施条件に車速の条件を追加してもよい。例えば、車速検出部2で検出された車速が所定車速以下(例えば、10km/h以下)であることを条件として、案内機能を実施することとしてもよい。これにより、車両10が中高速で走行している状態では案内機能の発動に制限をかけることができ、音声コマンドの誤認識やジェスチャの誤検出をより確実に防止することができる。
【0036】
あるいは、車速に応じて、乗員に提供される情報の種類が選択されることとしてもよい。例えば、運転手が施設Aに対する案内の要求をしたときに、車速が所定の徐行車速以下(例えば、20km/h以下)である場合には、その運転者が施設Aに車両10を駐停車させようとしているものと判断し、駐停車設備情報を提供する。一方、車速が徐行車速を越えている場合には、駐停車の意図がないものと判断し、施設Aの営業内容情報を提供する。このように、車速に応じて情報の種類を選択,変更することで、車両10の走行状態に見合った情報を提供することができ、利便性を向上させることができる。
【符号の説明】
【0037】
1 音声認識制御装置
2 車速検出部
3 音声認識部
4 ジェスチャ検出部
5 データベース
6 制御部
10 車両
11 ナビゲーション装置
12 エアコン装置
13 カーオーディオ装置
14 運転席
15 助手席
16 ディスプレイ装置
21 マイクアレイ
22 室内カメラ
23 車速センサ
図1
図2
図3
図4
図5