IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日産自動車株式会社の特許一覧

<>
  • 特開-音声認識方法及び音声認識装置 図1
  • 特開-音声認識方法及び音声認識装置 図2
  • 特開-音声認識方法及び音声認識装置 図3
  • 特開-音声認識方法及び音声認識装置 図4
  • 特開-音声認識方法及び音声認識装置 図5
  • 特開-音声認識方法及び音声認識装置 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024128800
(43)【公開日】2024-09-24
(54)【発明の名称】音声認識方法及び音声認識装置
(51)【国際特許分類】
   G10L 15/10 20060101AFI20240913BHJP
   G10L 15/00 20130101ALI20240913BHJP
   G10L 25/51 20130101ALI20240913BHJP
【FI】
G10L15/10 500Z
G10L15/00 200J
G10L25/51 400
【審査請求】未請求
【請求項の数】15
【出願形態】OL
(21)【出願番号】P 2023038016
(22)【出願日】2023-03-10
(71)【出願人】
【識別番号】000003997
【氏名又は名称】日産自動車株式会社
(74)【代理人】
【識別番号】100103850
【弁理士】
【氏名又は名称】田中 秀▲てつ▼
(74)【代理人】
【識別番号】100114177
【弁理士】
【氏名又は名称】小林 龍
(74)【代理人】
【識別番号】100066980
【弁理士】
【氏名又は名称】森 哲也
(72)【発明者】
【氏名】神沼 充伸
(57)【要約】
【課題】車両を構成している複数の構成物のうち、利用者が発話により制御しようとする対象構成物を、発話内容に含まれる相対位置を表す文言に基づいて推定する。
【解決手段】音声認識方法では、発話内容から、対象構成物に対する制御内容を表す文言と、相対位置を表す文言と、を検出し(S3)、車両に設置されたセンサの検出信号に基づいて、対象構成物の候補である対象構成物候補と利用者により示されている基準位置とを特定し(S4)、対象構成物候補のうち基準位置に対する相対位置に位置する対象構成物を特定し(S5)、特定した対象構成物を制御内容に従って制御する制御信号を出力する(S6)。
【選択図】図4
【特許請求の範囲】
【請求項1】
車両の利用者の発話内容を取得して、前記車両を構成している複数の構成物のうち、前記利用者が発話により制御しようとする対象構成物を推定する音声認識方法であって、
前記発話内容から、前記対象構成物に対する制御内容を表す文言と、相対位置を表す文言と、を検出し、
前記車両に設置されたセンサの検出信号に基づいて、前記対象構成物の候補である対象構成物候補と、前記相対位置の基準となる基準位置とを特定し、
前記対象構成物候補のうち前記基準位置に対する前記相対位置に位置する前記対象構成物を特定し、特定した前記対象構成物を前記制御内容に従って制御する制御信号を出力する、
ことを特徴とする音声認識方法。
【請求項2】
前記基準位置として前記利用者の位置を特定することを特徴とする請求項1に記載の音声認識方法。
【請求項3】
車内カメラによる撮像画像、前記利用者の音声の音源定位、又は着席センサの少なくとも1つに基づいて前記利用者の位置を特定することを特徴とする請求項2に記載の音声認識方法。
【請求項4】
前記センサが検出した前記利用者の発話内容に基づいて、発話内容で言及された前記対象構成物候補を特定することを特徴とする請求項1に記載の音声認識方法。
【請求項5】
前記基準位置として、前記複数の構成物のうち前記利用者が操作した構成物の位置を特定することを特徴とする請求項1に記載の音声認識方法。
【請求項6】
前記複数の構成物のうち前記利用者が操作した構成物に基づいて、前記対象構成物候補を特定することを特徴とする請求項1に記載の音声認識方法。
【請求項7】
前記利用者の顔の向き、視線方向又はジェスチャに基づいて前記基準位置を特定することを特徴とする請求項1に記載の音声認識方法。
【請求項8】
前記利用者の顔の向き、視線方向又はジェスチャに基づいて前記対象構成物候補を特定することを特徴とする請求項1に記載の音声認識方法。
【請求項9】
車両の利用者の発話内容を取得して、前記車両を構成している複数の構成物のうち、前記利用者が発話により制御しようとする対象構成物を推定する音声認識方法であって、
前記発話内容から、前記対象構成物に対する制御内容を表す文言と、相対位置を表す文言と、前記対象構成物の候補である対象構成物候補を表す文言と、を検出し、
予め記憶装置に記憶した複数の前記対象構成物候補間の配列関係の情報と、前記相対位置とに基づいて前記対象構成物を特定し、特定した前記対象構成物を前記制御内容に従って制御する制御信号を出力する、
ことを特徴とする音声認識方法。
【請求項10】
前記対象構成物の制御を開始する前に、前記対象構成物の特定情報を前記利用者に提示することを特徴とする請求項1~9のいずれか一項に記載の音声認識方法。
【請求項11】
前記利用者による前記対象構成物に対する操作履歴に基づいて、前記対象構成物の制御量を設定することを特徴とする請求項1~9のいずれか一項に記載の音声認識方法。
【請求項12】
前記対象構成物の制御量の履歴の統計量に基づいて、前記対象構成物の制御量を設定することを特徴とする請求項11に記載の音声認識方法。
【請求項13】
前記発話内容から調整程度を表す文言を検出し、前記調整程度に基づいて前記対象構成物の制御量を調整することを特徴とする請求項1~9のいずれか一項に記載の音声認識方法。
【請求項14】
車両の利用者の発話内容を取得して、前記車両を構成している複数の構成物のうち、前記利用者が発話により制御しようとする対象構成物を推定する音声認識装置であって、
前記車両に設置されたセンサと、
前記発話内容から、前記対象構成物に対する制御内容を表す文言と、相対位置を表す文言と、を検出する処理と、前記センサの検出信号に基づいて、前記対象構成物の候補である対象構成物候補と、前記相対位置の基準となる基準位置とを特定する処理と、前記対象構成物候補のうち前記基準位置に対する前記相対位置に位置する前記対象構成物を特定し、特定した前記対象構成物を前記制御内容に従って制御する制御信号を出力する処理と、
を実行するコントローラを備えることを特徴とする音声認識装置。
【請求項15】
車両の利用者の発話内容を取得して、前記車両を構成している複数の構成物のうち、前記利用者が発話により制御しようとする対象構成物を推定する音声認識装置であって、
前記発話内容から、前記対象構成物に対する制御内容を表す文言と、相対位置を表す文言と、前記対象構成物の候補である対象構成物候補を表す文言と、を検出する処理と、予め記憶装置に記憶した複数の前記対象構成物候補間の配列関係の情報と、前記相対位置とに基づいて前記対象構成物を特定し、特定した前記対象構成物を前記制御内容に従って制御する制御信号を出力する処理と、
を実行するコントローラを備えることを特徴とする音声認識装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識方法及び音声認識装置に関する。
【背景技術】
【0002】
特許文献1には、車両で用いられている複数の機器のいずれかを操作する音声入力をユーザから受け付けた場合に、ユーザが直前に操作していた機器を操作対象機器として推定する車両用機器制御装置が提案されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2016-062129号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、車両を構成している複数の構成物のうち利用者が直前に操作していた構成物が、常に利用者が発話により制御しようとする対象構成物であるとは限らない。また、利用者は、発話により対象構成物を制御する場合に、相対的な位置を表す文言で対象構成物を指示することがある。
本発明は、車両を構成している複数の構成物のうち、利用者が発話により制御しようとする対象構成物を、発話内容に含まれる相対位置を表す文言に基づいて推定することを目的とする。
【課題を解決するための手段】
【0005】
本発明のいくつかの態様によれば、車両の利用者の発話内容を取得して、車両を構成している複数の構成物のうち、利用者が発話により制御しようとする対象構成物を推定する音声認識方法が与えられる。
本発明の一態様による音声認識方法では、発話内容から、対象構成物に対する制御内容を表す文言と、相対位置を表す文言と、を検出し、車両に設置されたセンサの検出信号に基づいて、対象構成物の候補である対象構成物候補と利用者により示されている基準位置とを特定し、対象構成物候補のうち基準位置に対する相対位置に位置する対象構成物を特定し、特定した対象構成物を制御内容に従って制御する制御信号を出力する。
また、本発明の他の態様による音声認識方法では、発話内容から、対象構成物に対する制御内容を表す文言と、相対位置を表す文言と、対象構成物の候補である対象構成物候補を表す文言と、を検出し、予め記憶装置に記憶した複数の対象構成物候補間の配列関係の情報と、相対位置とに基づいて対象構成物を特定し、特定した対象構成物を制御内容に従って制御する制御信号を出力する。
【発明の効果】
【0006】
本発明によれば、車両を構成している複数の構成物のうち、利用者が発話により制御しようとする対象構成物を、発話内容に含まれる相対位置を表す文言に基づいて推定できる。
【図面の簡単な説明】
【0007】
図1】実施形態の音声認識装置を備えた車両の一例の概略構成図である。
図2】第1実施形態の音声認識装置の機能構成の一例を示すブロック図である。
図3】第1実施形態の対象構成物テーブルの模式図である。
図4】第1実施形態の音声認識方法のフローチャートである。
図5】第2実施形態の対象構成物テーブルの模式図である。
図6】第2実施形態の音声認識方法のフローチャートである。
【発明を実施するための形態】
【0008】
以下、本発明の実施形態について、図面を参照しつつ説明する。なお、各図面は模式的なものであって、現実のものとは異なる場合がある。また、以下に示す本発明の実施形態は、本発明の技術的思想を具体化するための装置や方法を例示するものであって、本発明の技術的思想は、構成部品の構造、配置等を下記のものに特定するものではない。本発明の技術的思想は、特許請求の範囲に記載された請求項が規定する技術的範囲内において、種々の変更を加えることができる。
【0009】
(第1実施形態)
(構成)
図1は、実施形態の音声認識装置を備えた車両の一例の概略構成図である。車両1には、車載機器2と、車載機器コントローラ3と、車内センサ4と、音声入力装置5と、ヒューマンマシンインタフェース(以下「HMI」と表記する)6と、音声認識装置7を備える。
車載機器2は、車両1を構成している構成物として車両1に搭載されている各種機器である。車載機器2は、例えば、車両1の異なる場所に各々配置された同じ種類の複数の機器を含んでもよい。例えば車載機器2は、車両1の異なる場所に各々配置された複数の窓(運転席窓、助手席窓、右後席窓、左後席窓)や、これらの窓に各々配置された電子サンシェード、車両1の異なる場所に各々配置された後写鏡(右ドアミラー、左ドアミラー)、車両1の異なる座席に各々設けられた空気吹き出し口(エアダクト)から供給する空調風の温度及び風量を調整する空調装置、車両1のダッシュボードの異なる場所に各々配置された複数のディスプレイ装置(メータディスプレイ装置、ナビディスプレイ装置、ヘッドアップディスプレイ装置)であってよい。
【0010】
車載機器コントローラ3は、車載機器2の動作を制御する電子制御ユニット(ECU:Electronic Control Unit)であり、車載機器2を制御するための制御信号を生成する。車載機器コントローラ3は、例えばプロセッサと、記憶装置等の周辺部品とを含む。プロセッサは、例えばCPU(Central Processing Unit)やMPU(Micro-Processing Unit)であってよい。
記憶装置は、半導体記憶装置や、磁気記憶装置、光学記憶装置等を備えてよい。記憶装置は、レジスタ、キャッシュメモリ、主記憶装置として使用されるROM(Read Only Memory)及びRAM(Random Access Memory)等のメモリを含んでよい。
【0011】
なお、車載機器コントローラ3を、以下に説明する各情報処理を実行するための専用のハードウエアにより形成してもよい。例えば、車載機器コントローラ3は、汎用の半導体集積回路中に設定される機能的な論理回路を備えてもよい。例えば車載機器コントローラ3はフィールド・プログラマブル・ゲート・アレイ(FPGA:Field-Programmable Gate Array)等のプログラマブル・ロジック・デバイス(PLD:Programmable Logic Device)等を有していてもよい。
【0012】
車内センサ4は、車両1の車内の状態を検出するセンサである。例えば車内センサ4は、車内を撮影する車内カメラであってもよく、座席に設けられて乗員が着座しているか否かを判定するための着席センサ(例えば座面圧力を検出する圧力センサやシートベルトセンサ)であってもよい。また車内センサ4は、車載機器2に対する車両1の利用者(例えば、運転者や同乗者等の乗員)の操作入力を受け付ける操作器(スイッチ、レバー、ノブ等)であってもよい。
【0013】
音声入力装置5は、車両1の利用者の音声入力を取得して音声データを生成するセンサである。例えば音声入力装置5は、マイクロフォンであってよい。例えば音声入力装置5は、音源の方向を推定できるマイクロフォンアレイであってもよい。
車内センサ4と音声入力装置5は、特許請求の範囲に記載の「センサ」の一例である。
【0014】
HMI6は、音声認識装置7と利用者との間で情報を授受するインタフェース装置である。HMI6は、車両1の利用者が視認可能な表示装置(例えば、ナビゲーションシステムの表示画面)や、警報音や通知音、音声情報を出力するためのスピーカやブザーを備える。
音声認識装置7は、車両1の利用者の発話内容を認識する音声認識を実行するコントローラとして動作する電子制御ユニット(ECU)である。音声認識装置7は、利用者の発話内容に基づいて、利用者が発話により制御しようとする車載機器2を推定する。以下の説明において、車両1を構成している複数の車載機器2のうち、利用者が発話により制御しようとする構成物を「対象構成物」と表記する。
【0015】
さらに、音声認識装置7は、利用者の発話内容から車載機器2に対する制御内容を表す文言を認識する。音声認識装置7は、認識した制御内容に従って対象構成物を制御する制御信号を車載機器コントローラ3に出力する。
音声認識装置7は、プロセッサ8と、記憶装置9等の周辺部品とを含む。プロセッサ8は、例えばCPUやMPUであってよい。
【0016】
記憶装置9は、半導体記憶装置や、磁気記憶装置、光学記憶装置等を備えてよい。記憶装置9は、レジスタ、キャッシュメモリ、主記憶装置として使用されるROM及びRAM等のメモリを含んでよい。以下に説明する音声認識装置7の機能は、例えばプロセッサ8が、記憶装置9に格納されたコンピュータプログラムを実行することにより実現される。
音声認識装置7を、以下に説明する各情報処理を実行するための専用のハードウエアにより形成してもよい。例えば、音声認識装置7は、汎用の半導体集積回路中に設定される機能的な論理回路を備えてもよい。例えば音声認識装置7はフィールド・プログラマブル・ゲート・アレイ等のプログラマブル・ロジック・デバイス等を有していてもよい。
【0017】
図2は、音声認識装置7の機能構成の一例を示すブロック図である。音声認識装置7は、音声認識部10と、自然言語理解部11と、基準位置特定部12と、対象構成物候補特定部13と、対象構成物特定部14と、応答生成部15と、対象構成物テーブル16を備える。
音声認識部10は、音声入力装置5が取得した利用者からの音声入力を認識してテキストなどの言語情報に変換する。音声認識部10は、音声入力を変換して生成した言語情報を自然言語理解部11に出力する。
【0018】
自然言語理解部11は、音声認識部10から出力された言語情報を自然言語処理によって解析し、利用者の発話意図(すなわち「インテント」)を表すキーワードと、対象構成物である車載機器2を特定するために使用可能なキーワードを取得する。
例えば自然言語理解部11は、発話意図として、車載機器2に対する制御内容を表すキーワードを取得してよい。例えば自然言語理解部11は、窓に対する制御内容を表すキーワード「開ける」、「閉める」等を取得してよい。例えば利用者が「ここの窓、開けて」や「反対側も開けて」と発話した場合に、制御内容を表すキーワードとして「開ける」を取得してよい。また例えば、電子サンシェードに対する制御内容を表すキーワード「見えなくする」、「隠す」、「透明にして」等を取得してよい。
【0019】
なお、自然言語理解部11は、キーワードとその類義語を予め定義しておき、利用者の発話内容に含まれている類義語をキーワードに変換してよい。例えばキーワード「開ける」の類義語として「開けて」、「開く」、「開放する」等を予め定義し、発話内容に含まれている類義語「開けて」をキーワード「開ける」に変換してよい。車載機器2を特定するために使用可能なキーワードについても同様である。
【0020】
また例えば、自然言語理解部11は、後写鏡に対する制御内容を表すキーワード「右へ向ける」、「左へ向ける」、「上へ向ける」、「下へ向ける」等を取得してよい。例えば利用者が「こっちを、もう少し右へ向けて」や「そっちをもう少し右へ向けて」と発話した場合に、制御内容を表すキーワード「右へ向ける」を取得してよい。
また例えば、自然言語理解部11は、各座席に個別に空調風を供給する空調装置に対する制御内容を表すキーワード「温度を上げる」、「温度を下げる」、「風量を強くする」、「風量を弱くする」等を取得してよい。例えば利用者が「ここのエアコン、温度を上げて」や「反対側も温度を上げて」と発話した場合に、制御内容を表すキーワードとして「温度を上げる」を取得してよい。
また例えば、自然言語理解部11は、発話内容から車載機器2に対する制御内容の制御量の調整程度を表す文言「もう少し」を取得してもよい。
【0021】
自然言語理解部11は、対象構成物である車載機器2を特定するために使用可能なキーワードとして、相対位置を表すキーワード(以下「相対位置キーワード」と表記することがある)を取得する。
例えば相対位置キーワードは、基準位置に対する相対位置関係を表現する文言であってよい。
【0022】
例えば相対位置キーワードは、基準位置の近傍の位置を表現するキーワード「ここ」、「こっち」を含んでよい。また例えば相対位置キーワードは、基準位置から比較的離れた位置を表現するキーワード「そこ」、「そっち」、「あっち」を含んでよい。また例えば相対位置キーワードは、車両1の車幅方向又は前後方向において基準位置と反対位置を表現するキーワード「反対側」、「反対」を含んでもよい。
【0023】
さらに相対位置キーワードは、複数個配列された同じ種類の車載機器2のうちの対象構成物かを特定するために利用者によって使用される相対的な位置関係を表現する文言であればよく、必ずしも厳密な意味で特定の基準位置に対する相対位置を表す文言でなくてもよい。
例えば、車両1のダッシュボードにメータディスプレイ装置、ナビディスプレイ装置、ヘッドアップディスプレイ装置等の複数のディスプレイ装置が配列されており、運転席に着座する利用者が「真ん中のディスプレイ」と発話した場合に、メータディスプレイ装置の位置を特定するキーワードとして相対位置キーワード「真ん中」を取得する一方で、助手席に着座する利用者が「真ん中のディスプレイ」と発話した場合に、ナビディスプレイ装置の位置を特定するキーワードとして相対位置キーワード「真ん中」を取得してよい。
【0024】
また自然言語理解部11は、対象構成物である車載機器2を特定するために使用可能なキーワードとして、対象構成物の候補である対象構成物候補を表すキーワードを取得してもよい。例えば利用者が「ここの窓、開けて」と発話した場合に、対象構成物候補を表すキーワードとして、複数の窓である運転席窓、助手席窓、右後席窓、左後席窓のいずれかを表すキーワード「窓」を取得してよい。
また自然言語理解部11は、対象構成物である車載機器2を特定するために使用可能なキーワードとして、対象構成物の絶対位置を表すキーワードを取得してもよい。例えば利用者が「運転席の窓、開けて」と発話した場合に、絶対位置を表すキーワード「運転席」を取得してよい。また例えば利用者が「前の座席の窓、開けて」と発話した場合に、運転席窓と助手席窓の両方の絶対位置を表すキーワード「前の座席」を取得してもよい。
また自然言語理解部11は、対象構成物それ自体を表すキーワードを取得してもよい。
【0025】
基準位置特定部12は、利用者が相対位置キーワードで対象構成物を指示した場合に、相対位置の基準となる基準位置を特定する。
例えば基準位置特定部12は、音声入力装置5に入力された音声を発話した利用者の位置(例えば発話した利用者が着座する座席)を基準位置として特定してもよい。例えば基準位置特定部12は、車内カメラで撮影した利用者の画像に基づいて、発話した利用者の位置を特定してよい。車両内に複数の利用者が存在する場合には、利用者の顔画像に基づいて、いずれの利用者が発話したのか判定してもよい。また、基準位置特定部12は、車内カメラで撮影した利用者の画像に基づいて利用者の発話タイミングを取得してもよい。
【0026】
また例えば、基準位置特定部12は、利用者により操作された操作器の設置位置に基づいて、発話した利用者の位置を特定してもよい。言い換えれば、利用者により操作された操作器の設置位置を基準位置して特定してよい。
また例えば、基準位置特定部12は、着席センサに基づいて、発話した利用者の位置を特定してもよい。また例えば基準位置特定部12は、音声入力装置5として利用されるマイクロフォンアレイにより、利用者が発話した音声の音源の方向を定位して、発話した利用者の位置を特定してもよい。マイクロフォンアレイによる音源方向の判定結果と着席センサの検出結果とを組み合わせて発話した利用者の位置を特定してもよい。例えば車両内1に複数の利用者が存在する場合に、音源方向の判定結果と着席センサの検出結果とを組み合わせて発話した利用者の位置を特定してもよい。
【0027】
また例えば、基準位置特定部12は、利用者により操作された操作器により操作された車載機器2の設置位置に基づいて基準位置を特定してもよい。例えば操作器により操作された車載機器2の設置位置を基準位置として特定してもよい。
例えば、運転者が運転席窓を開閉する操作器を操作した場合に、運転席や運転席窓が基準位置であると特定してもよい。また運転者が助手席窓を開閉する操作器を操作した場合に、助手席や助手席窓が基準位置であると特定してもよい。
【0028】
また基準位置特定部12は、音声入力装置5に入力された音声を発話した利用者により示されている位置を基準位置として特定してもよい。例えば基準位置特定部12は、車内カメラで撮影した利用者の画像に基づいて、利用者の顔の向きや視線方向を検出してよい。基準位置特定部12は、利用者が顔を向けている方向や視線方向の先に存在する車載機器2の設置位置を基準位置として特定してよい。
例えば、利用者が右ドアミラーの方向を向きながら「こっちを、もう少し右へ向けて」と発話した場合には、基準位置特定部12は、右ドアミラーの設置位置を基準位置として特定してもよい。
例えば基準位置特定部12は、車内カメラで撮影した利用者の画像に基づいて、利用者のジェスチャ(例えば指やあごで指す)を認識し、ジェスチャにより示されている方向の先に存在する車載機器2の位置を基準位置として特定してもよい。
【0029】
対象構成物候補特定部13は、対象構成物の候補である対象構成物候補を特定する。例えば、自然言語理解部11が対象構成物候補を表すキーワードを取得した場合には、自然言語理解部11が抽出したキーワードに基づいて対象構成物候補を特定してよい。例えば、利用者の発話「ここの窓、開けて」から対象構成物候補を表すキーワード「窓」を取得した場合には、複数の窓である運転席窓、助手席窓、右後席窓、左後席窓のいずれかの窓を対象構成物候補として特定してよい。
【0030】
また対象構成物候補特定部13は、操作器によって利用者が操作した車載機器2に基づいて対象構成物候補を特定してもよい。例えば利用者が操作器によって運転席窓や助手席窓を操作した場合に、運転席窓、助手席窓、右後席窓、左後席窓のいずれかの窓を対象構成物候補として特定してよい。
また対象構成物候補特定部13は、車内カメラで撮影した利用者の画像に基づいて、利用者の顔の向きや視線方向を検出してもよい。利用者が顔を向けている方向や視線方向の先に存在する車載機器2に基づいて対象構成物候補を特定してもよい。例えば利用者が顔を向けている方向や視線方向の先に右ドアミラーや左ドアミラーが存在する場合に、右ドアミラー、左ドアミラーのいずれかのドアミラーを対象構成物候補として特定してよい。例えば、利用者が右ドアミラーの方向を向きながら「こっちを、もう少し右へ向けて」と発話した場合には、ドアミラーを対象構成物候補として特定してよい。
また対象構成物候補特定部13は、車内カメラで撮影した利用者の画像に基づいて、利用者のジェスチャ(例えば指やあごで指す)を認識し、利用者により示されている方向の先に存在する車載機器2に基づいて対象構成物候補を特定してもよい。
【0031】
対象構成物特定部14は、自然言語理解部11が取得した相対位置キーワードと、基準位置特定部12が特定した基準位置と、対象構成物候補特定部13が特定した対象構成物候補と、に基づいて、利用者が発話により制御しようとする対象構成物を特定する。例えば対象構成物特定部14は、対象構成物候補のうち基準位置に対する相対位置に位置する車載機器2を、対象構成物として特定してよい。
【0032】
例えば対象構成物特定部14は、記憶装置9に予め記憶した対象構成物テーブルに従って、対象構成物候補のうち基準位置に対する相対位置に位置する車載機器2を特定してよい。
図3は、第1実施形態の対象構成物テーブル16の模式図である。対象構成物テーブル16は、基準位置と対象構成物候補と相対位置キーワードとの組み合わせに対象構成物を対応付けるテーブルである。すなわち、対象構成物テーブル16の各レコードには、基準位置と、対象構成物候補と、相対位置キーワードと、対象構成物とが記録されている。
【0033】
対象構成物特定部14は、自然言語理解部11が取得した相対位置キーワードと、基準位置特定部12が特定した基準位置と、対象構成物候補特定部13が特定した対象構成物候補に関連付けて記憶された対象構成物を取得する。
例えば、運転席に着座する利用者が「ここの窓、開けて」と発話した場合を想定する。この場合に自然言語理解部11は、相対位置キーワード「ここ」を検出する。基準位置特定部12は運転席が基準位置であると特定する。対象構成物候補特定部13は、発話内容から取得したキーワード「窓」に基づいて、対象構成物候補が窓であると特定する。このため、対象構成物特定部14は、基準位置「運転席」と、対象構成物候補「窓」と、相対位置キーワード「ここ」の組合せに対応付けられた「運転席窓」が対象構成物であると特定する。
【0034】
例えば、運転席に着座する利用者が「反対側の窓も開けて」と発話した場合を想定する。この場合に自然言語理解部11は、相対位置キーワード「反対側」を検出する。基準位置特定部12は運転席が基準位置であると特定する。対象構成物候補特定部13は、対象構成物候補が窓であると特定する。このため、対象構成物特定部14は、基準位置「運転席」と、対象構成物候補「窓」と、相対位置キーワード「反対側」の組合せに対応付けられた「助手席窓」が対象構成物であると特定する。
【0035】
また例えば、運転席に着座する利用者が「真ん中のディスプレイ」と発話した場合を想定する。この場合に自然言語理解部11は、相対位置キーワード「真ん中」を検出する。基準位置特定部12は運転席が基準位置であると特定する。対象構成物候補特定部13は、対象構成物候補がディスプレイ装置であると特定する。このため、対象構成物特定部14は、基準位置「運転席」と、対象構成物候補「ディスプレイ装置」と、相対位置キーワード「真ん中」の組合せに対応付けられたメータディスプレイ装置が対象構成物であると特定する。
【0036】
一方で、助手席に着座する利用者が「真ん中のディスプレイ」と発話した場合には、対象構成物特定部14は、基準位置「助手席」と、対象構成物候補「ディスプレイ装置」と、相対位置キーワード「真ん中」の組合せに対応付けられたナビディスプレイ装置が対象構成物であると特定する。
このように、相対位置キーワードは複数個配列された同じ種類の車載機器2のうちの対象構成物かを特定するために利用者によって使用される相対的な位置関係を表現する文言であればよい。すなわち、対象構成物特定部14によって特定される対象構成物の実際の位置は、必ずしも基準位置特定部12が特定した基準位置に対して相対位置キーワードが表す相対位置と一致しなくてもよい。
【0037】
また例えば、利用者が右ドアミラーの方向を向きながら「こっちを、もう少し右へ向けて」と発話した場合を想定する。この場合に自然言語理解部11は、相対位置キーワード「こっち」を検出する。基準位置特定部12は右ドアミラーの設置位置が基準位置であると特定する。対象構成物候補特定部13は、対象構成物候補がドアミラーであると特定する。このため、対象構成物特定部14は、基準位置「右ドアミラー設置位置」と、対象構成物候補「ドアミラー」と、相対位置キーワード「こっち」の組合せに対応付けられた「右ドアミラー」が対象構成物であると特定する。
【0038】
なお、利用者が異なる車載機器2を制御する音声を連続して発話した場合(例えば、所定長の期間内に複数回、車載機器2を制御する音声を発話した場合)に、対象構成物特定部14は、先発の発話内容で特定された対象構成物に基づいて、後続の発話内容の対象構成物候補を特定してもよい。
例えば運転席に着座する利用者が「ここの窓、開けて」と発話することにより運転席窓が対象構成物であると特定された後に、連続して「反対側も開けて」と発話した場合に、先発の発話内容の対象構成物であると特定された「運転席窓」に基づいて、後続の発話内容の対象構成物候補が窓であると特定してもよい。この結果、対象構成物特定部14は、基準位置特定部12が特定した基準位置「運転席」と、対象構成物候補「窓」と、後続の発話内容の相対位置キーワード「反対側」の組合せに対応付けられた「助手席窓」が、後続の発話内容の対象構成物であると特定してもよい。
【0039】
また、利用者が異なる車載機器2を制御する音声を連続して発話した場合に、対象構成物特定部14は、先発の発話内容で特定された対象構成物に基づいて後続の発話内容の基準位置を特定してもよい。
例えば運転席に着座する利用者が「ここの窓、開けて」と発話することにより運転席窓が対象構成物であると特定された後に、連続して「反対側も開けて」と発話した場合に、対象構成物特定部14は、先発の発話内容の対象構成物であると特定された「運転席窓」に基づいて、後続の発話内容の対象構成物候補が窓であると特定するとともに、基準位置が運転席であると特定してもよい。
【0040】
また例えば、利用者が「前の座席の窓、開けて」と発話した場合に、対象構成物特定部14は、運転席窓と助手席窓の両方の絶対位置を表すキーワード「前の座席」と、対象構成物候補を表すキーワード「窓」とに基づいて、運転席窓と助手席窓の両方が対象構成物であると特定してよい。その後に利用者が「そっちも開けて」と発話した場合に、先発の発話内容で対象構成物であると特定された「運転席窓」と「助手席窓」に基づいて、後続の発話内容の対象構成物候補が窓であると特定するとともに、基準位置が運転席と助手席であると特定してもよい。この場合に対象構成物特定部14は、基準位置「運転席窓、助手席窓」と、対象構成物候補「窓」と、相対位置キーワード「そっち」の組合せに対応付けられた「右後席窓、左後席窓」が対象構成物であると特定する。
【0041】
図2を参照する。応答生成部15は、自然言語理解部11が発話内容から発話意図として取得したキーワードが表す制御内容に従って、対象構成物特定部14により対象構成物として特定された車載機器2を制御する制御信号を出力する。
例えば、運転席に着座する利用者が「ここの窓、開けて」と発話することにより、運転席窓が対象構成物であると特定され、制御内容を表すキーワード「開ける」が取得された場合には、応答生成部15は、運転席窓を開ける制御信号を生成して車載機器コントローラ3へ出力する。車載機器コントローラ3は、応答生成部15から出力された制御信号に従って運転席窓を開ける。
【0042】
また例えば、利用者が右ドアミラーの方向を向きながら「こっちを、もう少し右へ向けて」と発話することにより、右ドアミラーが対象構成物であると特定され、制御内容を表すキーワード「右へ向ける」が取得された場合には、応答生成部15は、右ドアミラーの光軸方向を現在の方向よりも右側へ変化させる制御信号を生成して車載機器コントローラ3へ出力する。車載機器コントローラ3は、応答生成部15から出力された制御信号に従って右ドアミラーの向きを変更する。
【0043】
また例えば、運転席に着座する利用者が「ここのエアコンの温度上げて」と発話することにより、運転席の空気吹き出し口から空調風を供給する空調装置が対象構成物であると特定され、制御内容を表すキーワード「温度を上げる」が取得された場合には、応答生成部15は、運転席の空気吹き出し口から供給される空調風の温度を上昇させる制御信号を生成して、車載機器コントローラ3へ出力する。車載機器コントローラ3は、応答生成部15から出力された制御信号に従って、運転席の空気吹き出し口へ空調風を供給する空調装置を制御する。
【0044】
なお、応答生成部15は、対象構成物特定部14によって対象構成物として特定された車載機器2の制御を開始する前に(すなわち車載機器2の制御信号を出力する前に)、対象構成物として特定された車載機器2の特定情報を利用者に提示してもよい。例えば、応答生成部15は、対象構成物として特定された車載機器2の特定情報をHMI6の表示装置に表示してもよい。
【0045】
また、車両1の利用者毎に、利用者が車載機器2を操作した操作履歴情報を記憶装置9に記憶してもよい。音声入力装置5が車載機器2を制御する音声を取得した場合に、応答生成部15は、発話した利用者を識別して、当該利用者の操作履歴情報を記憶装置9から読み込んでよい。応答生成部15は、対象構成物として特定された車載機器2に対する利用者の操作履歴に基づいて、発話内容に応じて車載機器2を制御する際の制御量を設定してもよい。例えば車載機器2の制御量の履歴の統計量(平均値、中間値、最大値又は最小値)を制御量とする制御信号を生成してよい。
【0046】
また自然言語理解部11が、利用者の発話内容から車載機器2に対する制御内容の制御量の調整程度を表すキーワード(例えば「もう少し」)を取得した場合には、キーワードが表す調整程度に基づいて、発話内容に応じて車載機器2を制御する際の制御量を設定してもよい。例えば、調整程度を表すキーワードと制御量の調整量(変更量)との間の対応関係を、車載機器2毎に設定して記憶装置9に予め記憶しておき、予め記憶した対応関係に基づいて、車載機器2を制御する際の制御量を調整してもよい。
【0047】
(動作)
図4は、第1実施形態の音声認識方法のフローチャートである。ステップS1において音声認識装置7は、車内センサ4の検出信号と音声入力装置5から入力された音声データを取得する。ステップS2において音声認識装置7の音声認識部10は、音声入力装置5が取得した音声入力を認識してテキストなどの言語情報に変換する。ステップS3において自然言語理解部11は、音声認識部10から出力された言語情報から、利用者の発話意図を表すキーワードと、対象構成物である車載機器2を特定するために使用可能な相対位置キーワードを抽出する。
【0048】
ステップS4において、対象構成物候補特定部13は対象構成物候補を特定する。また基準位置特定部12は基準位置を特定する。ステップS5において対象構成物特定部14は、自然言語理解部11が取得した相対位置キーワードと、基準位置特定部12が特定した基準位置と、対象構成物候補特定部13が特定した対象構成物候補と、に基づいて対象構成物を特定する。ステップS6において応答生成部15は、自然言語理解部11が発話内容から取得した制御内容に従って、対象構成物特定部14により対象構成物として特定された車載機器2を制御する制御信号を出力する。その後に処理は終了する。
【0049】
(第2実施形態)
第2実施形態の対象構成物特定部14は、基準位置特定部12が特定した基準位置に代えて、予め記憶装置9に記憶した複数の対象構成物候補間の配列関係の情報に基づいて対象構成物を特定する。第2実施形態の対象構成物テーブル16は、複数の対象構成物候補間の配列関係を記憶してもよい。
図5は、第2実施形態の対象構成物テーブル16の模式図である。図5の例では、車両1のダッシュボードに、右側から順に、右サブディスプレイ、メインディスプレイ装置、左サブディスプレイを含む複数のディスプレイ装置が車幅方向に沿って配列されている場合を想定する。
【0050】
自然言語理解部11は、これら複数のディスプレイ装置の配列関係における各々のディスプレイの相対位置(すなわち、複数のディスプレイ装置間の相対位置)を表す文言を相対位置キーワードとして取得してよい。例えばメインディスプレイ装置の相対位置を表す相対位置キーワードとして、キーワード「真ん中」、「中央」を抽出し、右サブディスプレイ装置の相対位置を表す相対位置キーワードとして、キーワード「運転席側」、「右側」を抽出し、左サブディスプレイ装置の相対位置を表す相対位置キーワードとして、キーワード「助手席側」、「左側」を抽出してよい。
【0051】
すなわち、自然言語理解部11は、車幅方向に沿って配列されている複数の対象構成物候補間の相対位置を表す文言を相対位置キーワードとして取得してよい。
同様に、自然言語理解部11は、車両1の前後方向に沿って配列されている複数の対象構成物候補間の相対位置を表す文言(「前側」、「後ろ側」等)を相対位置キーワードとして取得してもよい。垂直方向に沿って配列されている複数の対象構成物候補間の相対位置を表す文言(「上」、「下」等)を相対位置キーワードとして取得してもよい。
【0052】
対象構成物特定部14は、対象構成物テーブル16に記憶された対象構成物候補間の配列関係の情報に従って、自然言語理解部11が取得した対象構成物候補を表すキーワードと、相対位置キーワードとに基づいて対象特定物を特定する。
例えば利用者が「真ん中のディスプレイ消して」と発話した場合に、対象構成物特定部14はメインディスプレイ装置が対象特定物であると特定してよい。また、利用者が「右側のディスプレイ消して」と発話した場合に、対象構成物特定部14は右ディスプレイ装置が対象特定物であると特定してよい。また、利用者が「左側のディスプレイ消して」と発話した場合に、対象構成物特定部14は左ディスプレイ装置が対象特定物であると特定してよい。
【0053】
図6は、第2実施形態の音声認識方法のフローチャートである。ステップS11~S12の処理は、図4のステップS1~S2の処理と同様である。
ステップS13において自然言語理解部11は、音声認識部10から出力された言語情報から対象構成物候補を表すキーワードを抽出する。ステップS14において自然言語理解部11は、相対位置キーワードを抽出する。
ステップS15において対象構成物特定部14は、対象構成物テーブル16に記憶された対象構成物候補間の配列関係の情報に従って、自然言語理解部11が取得した対象構成物候補を表すキーワードと、相対位置キーワードとに基づいて対象特定物を特定する。
ステップS16の処理は、図4のステップS6の処理と同様である。その後に処理は終了する。
【0054】
(実施形態の効果)
(1)音声認識装置7は、車両1の利用者の発話内容を取得して、車両1を構成している複数の構成物のうち、利用者が発話により制御しようとする対象構成物を推定する。音声認識装置7は、発話内容から、対象構成物に対する制御内容を表す文言と、相対位置を表す文言と、を検出し、車両1に設置されたセンサの検出信号に基づいて、対象構成物の候補である対象構成物候補と、相対位置の基準となる基準位置とを特定し、対象構成物候補のうち基準位置に対する相対位置に位置する対象構成物を特定し、特定した対象構成物を制御内容に従って制御する制御信号を出力する。
これにより、車両1を構成している複数の構成物のうち、利用者が発話により制御しようとする対象構成物を、発話内容に含まれる相対位置を表す文言に基づいて推定できる。
【0055】
(2)音声認識装置7は、基準位置として利用者の位置を特定してよい。これにより、相対位置を表す文言に基づいて対象構成物を特定する際に用いる基準位置を特定できる。
(3)音声認識装置7は、車内カメラによる撮像画像、利用者の音声の音源定位、又は着席センサの少なくとも1つに基づいて利用者の位置を特定してよい。これにより、基準位置として用いる利用者の位置を特定できる。
【0056】
(4)音声認識装置7は、センサが検出した利用者の発話内容に基づいて、発話内容で言及された対象構成物候補を特定してよい。これにより、車両1を構成している複数の構成物の中から対象構成物の候補を限定できる。
(5)音声認識装置7は、基準位置として、複数の構成物のうち利用者が操作した構成物の位置を特定してよい。これにより、相対位置を表す文言に基づいて対象構成物を特定する際に用いる基準位置を特定できる。
【0057】
(6)音声認識装置7は、複数の構成物のうち利用者が操作した構成物に基づいて、対象構成物候補を特定してよい。これにより、車両1を構成している複数の構成物の中から対象構成物の候補を限定できる。
(7)音声認識装置7は、利用者の顔の向き、視線方向又はジェスチャに基づいて基準位置を特定してよい。これにより、相対位置を表す文言に基づいて対象構成物を特定する際に用いる基準位置を特定できる。
(8)音声認識装置7は、利用者の顔の向き、視線方向又はジェスチャに基づいて対象構成物候補を特定してよい。これにより、車両1を構成している複数の構成物の中から対象構成物の候補を限定できる。
【0058】
(9)音声認識装置7は、発話内容から、対象構成物に対する制御内容を表す文言と、相対位置を表す文言と、対象構成物の候補である対象構成物候補を表す文言と、を検出し、予め記憶装置9に記憶した複数の対象構成物候補間の配列関係の情報と、相対位置とに基づいて対象構成物を特定し、特定した対象構成物を制御内容に従って制御する制御信号を出力してよい。
これにより、車両1を構成している複数の構成物のうち、利用者が発話により制御しようとする対象構成物を、発話内容に含まれる相対位置を表す文言に基づいて推定できる。
【0059】
(10)音声認識装置7は、対象構成物の制御を開始する前に、対象構成物の特定情報を利用者に提示してもよい。これにより、発話内容から推定された対象構成物が適正であるか否かを利用者が確認できる。
(11)音声認識装置7は、利用者による対象構成物に対する操作履歴に基づいて、対象構成物の制御量を設定してよい。例えば対象構成物の制御量の履歴の統計量に基づいて、対象構成物の制御量を設定してよい。これにより、対象構成物の制御量を設定できる。
(12)音声認識装置7は、発話内容から調整程度を表す文言を検出し、調整程度に基づいて対象構成物の制御量を調整してもよい。これにより、対象構成物の制御量を設定できる。
【符号の説明】
【0060】
1…車両、2…車載機器、3…車載機器コントローラ、4…車内センサ、5…音声入力装置、6…ヒューマンマシンインタフェース、7…音声認識装置、8…プロセッサ、9…記憶装置、10…音声認識部、11…自然言語理解部、12…基準位置特定部、13…対象構成物候補特定部、14…対象構成物特定部、15…応答生成部、16…対象構成物テーブル
図1
図2
図3
図4
図5
図6