特開2016-218361(P2016-218361A)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ クラリオン株式会社の特許一覧
特開2016-218361音声認識システム、車載器およびサーバ装置
<>
  • 特開2016218361-音声認識システム、車載器およびサーバ装置 図000003
  • 特開2016218361-音声認識システム、車載器およびサーバ装置 図000004
  • 特開2016218361-音声認識システム、車載器およびサーバ装置 図000005
  • 特開2016218361-音声認識システム、車載器およびサーバ装置 図000006
  • 特開2016218361-音声認識システム、車載器およびサーバ装置 図000007
  • 特開2016218361-音声認識システム、車載器およびサーバ装置 図000008
  • 特開2016218361-音声認識システム、車載器およびサーバ装置 図000009
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】特開2016-218361(P2016-218361A)
(43)【公開日】2016年12月22日
(54)【発明の名称】音声認識システム、車載器およびサーバ装置
(51)【国際特許分類】
   G10L 15/06 20130101AFI20161125BHJP
   G10L 15/00 20130101ALI20161125BHJP
   G10L 15/30 20130101ALI20161125BHJP
【FI】
   G10L15/06 300M
   G10L15/00 200Q
   G10L15/30
【審査請求】未請求
【請求項の数】10
【出願形態】OL
【全頁数】16
(21)【出願番号】特願2015-105783(P2015-105783)
(22)【出願日】2015年5月25日
(71)【出願人】
【識別番号】000001487
【氏名又は名称】クラリオン株式会社
(74)【代理人】
【識別番号】110000198
【氏名又は名称】特許業務法人湘洋内外特許事務所
(72)【発明者】
【氏名】山口 敦史
(72)【発明者】
【氏名】荒川 亜紀子
(72)【発明者】
【氏名】竹内 良輔
(57)【要約】
【課題】通信コストの負担を低減しつつ、ユーザ発話に対する応答速度を向上させることができる。
【解決手段】 車載器は、ユーザ発話の言葉が、車両機器および操作内容を特定する追加辞書情報に登録されていない場合、該ユーザ発話の音声情報を前記サーバ装置に送信し、サーバ装置は、前記車載器から取得した前記音声情報が前記車両機器の操作を意図するものであるか否かを判定し、判定の結果、前記車両機器の操作を意図するものであると判定した場合、前記ユーザ発話の言葉と、前記車両機器の操作コマンドを示す情報とを対応付けた追加辞書登録情報を前記車載器に送信し、前記車載器は、前記サーバ装置から取得した前記追加辞書登録情報を用いて、前記ユーザ発話の言葉と前記操作コマンドとを対応付けた追加辞書情報を生成し、前記操作コマンドを用いて、対応する前記車両機器に対して操作の実行指示を出力する。
【選択図】図3
【特許請求の範囲】
【請求項1】
車載器およびサーバ装置を備えた音声認識システムであって、
前記車載器は、
ユーザ発話の言葉が、車両機器および操作内容を特定する追加辞書情報に登録されていない場合、該ユーザ発話の音声情報を前記サーバ装置に送信し、
前記サーバ装置は、
前記車載器から取得した前記音声情報が前記車両機器の操作を意図するものであるか否かを判定し、判定の結果、前記車両機器の操作を意図するものであると判定した場合、前記ユーザ発話の言葉と、前記車両機器の操作コマンドを示す情報とを対応付けた追加辞書登録情報を前記車載器に送信し、
前記車載器は、
前記サーバ装置から取得した前記追加辞書登録情報を用いて、前記ユーザ発話の言葉と前記操作コマンドとを対応付けた追加辞書情報を生成し、
前記操作コマンドを用いて、対応する前記車両機器に対して操作の実行指示を出力する
ことを特徴とする音声認識システム。
【請求項2】
請求項1に記載の音声認識システムであって、
前記車載器は、
車両機器の操作を示す言葉と、車両機器および操作内容の識別情報を組合せた操作コマンドと、を対応付けた追加辞書情報を記憶した記憶部と、
ユーザ発話の音声情報の入力を受け付ける入力受付部と、
前記音声情報をテキスト変換した発話テキスト情報を生成し、該発話テキスト情報を用いて前記追加辞書情報を検索する音声認識部と、
前記検索の結果、前記テキスト情報が示すユーザ発話の言葉が前記追加辞書情報に登録されていない場合、前記ユーザ発話の音声情報を前記サーバ装置に送信する通信部と、を備え、
前記サーバ装置は、
車載器から取得したユーザ発話の音声情報を音声認識し、該音声情報をテキスト変換した発話テキスト情報を生成する操作コマンド特定部を備え、
前記操作コマンド特定部は、
前記発話テキスト情報を用いて、前記ユーザ発話が示す言葉が前記車載器に搭載された車両機器の操作を意図するものであるか否かを判定する
ことを特徴とする音声認識システム。
【請求項3】
請求項2に記載の音声認識システムであって、
前記サーバ装置は、
前記車両機器および操作内容を識別情報と共に対応付けた操作コマンド情報を格納した情報格納部と、
前記車両機器の操作コマンドに関する情報を含む追加辞書登録情報を生成する追加辞書登録情報生成部と、をさらに備え、
前記操作コマンド特定部は、
前記ユーザ発話が示す言葉が前記車両機器の操作を意図するものであると判定した場合、前記操作コマンド情報を用いて前記車両機器の操作コマンドを特定し、
前記追加辞書登録情報生成部は、
前記発話テキスト情報に前記操作コマンドを対応付けた追加辞書登録情報を前記車載器に送信し、
前記車載器は、
前記通信部を介して前記サーバ装置から追加辞書登録情報を取得すると、該追加辞書登録情報を用いて、前記追加辞書情報を生成および更新する追加辞書生成部をさらに備える
ことを特徴とする音声認識システム。
【請求項4】
請求項3に記載の音声認識システムであって、
前記音声認識部は、
前記発話テキスト情報、前記追加辞書情報および前記操作コマンド情報を用いて、対象となる車両機器および操作内容を特定し、
特定した前記車両機器に対して前記操作内容の実行指示を出力する
ことを特徴とする音声認識システム。
【請求項5】
車両機器の操作を示す言葉と、車両機器および操作内容の識別情報を組合せた操作コマンドと、を対応付けた追加辞書情報を記憶した記憶部と、
ユーザ発話の音声情報の入力を受け付ける入力受付部と、
前記音声情報をテキスト変換した発話テキスト情報を生成し、該発話テキスト情報を用いて前記追加辞書情報を検索する音声認識部と、
前記検索の結果、前記テキスト情報が示すユーザ発話の言葉が前記追加辞書情報に登録されていない場合、前記ユーザ発話の音声情報を所定のサーバ装置に送信する通信部と、を備える
ことを特徴とする車載器。
【請求項6】
請求項5に記載の車載器であって、
前記記憶部は、
車両機器および操作内容を識別情報と共に対応付けた操作コマンド情報をさらに有し、
前記音声認識部は、
前記発話テキスト情報が示すユーザ発話の言葉が前記追加辞書情報に登録されている場合、該追加辞書情報および前記操作コマンド情報を用いて、対象となる車両機器および操作内容を特定し、
特定した前記車両機器に対して前記操作内容の実行指示を出力する
ことを特徴とする車載器。
【請求項7】
請求項6に記載の車載器であって、
前記通信部を介して前記サーバ装置から追加辞書登録情報を取得すると、該追加辞書登録情報を用いて、前記追加辞書情報を生成および更新する追加辞書生成部をさらに備える
ことを特徴とする車載器。
【請求項8】
請求項7に記載の車載器であって、
前記記憶部は、
前記追加辞書情報を更新する際、前記追加辞書情報に登録された情報が所定数以上であるか否かを判定し、所定数以上であると判定した場合、所定の語彙が登録された待受語彙情報から使用頻度の低い語彙を削除する
ことを特徴とする車載器。
【請求項9】
車載器から取得したユーザ発話の音声情報を音声認識し、該音声情報をテキスト変換した発話テキスト情報を生成する操作コマンド特定部を備え、
前記操作コマンド特定部は、
前記発話テキスト情報を用いて、前記ユーザ発話が示す言葉が前記車載器に搭載された車両機器の操作を意図するものであるか否かを判定する
ことを特徴とするサーバ装置。
【請求項10】
請求項9に記載のサーバ装置であって、
前記車両機器および操作内容を識別情報と共に対応付けた操作コマンド情報を格納した情報格納部と、
前記車両機器の操作コマンドに関する情報を含む追加辞書登録情報を生成する追加辞書登録情報生成部と、をさらに備え、
前記操作コマンド特定部は、
前記ユーザ発話が示す言葉が前記車両機器の操作を意図するものであると判定した場合、前記操作コマンド情報を用いて前記車両機器の操作コマンドを特定し、
前記追加辞書登録情報生成部は、
前記発話テキスト情報に前記操作コマンドを対応付けた追加辞書登録情報を生成する
ことを特徴とするサーバ装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識システム、車載器およびサーバ装置に関する。
【背景技術】
【0002】
特許文献1には、音声入力部に入力された音声コマンドの発話データと発話データをもとに情報センタで得られた認識結果とを少なくとも対応付けた対応関係リスト登録していくことによって音声認識用の辞書としての簡易辞書を作成・更新するとともに、情報センタで音声認識を行わせることが可能でないと判定した場合には、音声入力部に入力された音声コマンドの発話データをもとに、最新の簡易辞書を用いてこの発話データに対応する認識結果を得ることによってナビゲーション装置側で音声認識を行う音声認識システムが記載されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2010−224301号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1の音声認識システムでは、車載端末と音声認識サーバとの間の通信が確立できない等の場合を除き、ユーザから受け付けた発話データを音声認識サーバに送信し、音声認識結果を受け取っている。すなわち、ユーザ発話と一致する発話データが簡易辞書に登録されている場合でも、所定の場合を除いてユーザの発話データは音声認識サーバに送信される。しかしながら、都度、発話データを音声認識サーバに送信すれば、その分、通信時間がかかるためユーザ発話に対する応答速度が遅くなり、通信コストの負担も増大するという問題がある。
【0005】
そこで、本発明は、通信コストの負担を低減しつつ、ユーザ発話に対する応答速度を向上させる音声認識システムの提供を目的とする。
【課題を解決するための手段】
【0006】
上記課題を解決するため、本発明に係る音声認識システムは、車載器およびサーバ装置を備えた音声認識システムであって、前記車載器は、ユーザ発話の言葉が、車両機器および操作内容を特定する追加辞書情報に登録されていない場合、該ユーザ発話の音声情報を前記サーバ装置に送信し、前記サーバ装置は、前記車載器から取得した前記音声情報が前記車両機器の操作を意図するものであるか否かを判定し、判定の結果、前記車両機器の操作を意図するものであると判定した場合、前記ユーザ発話の言葉と、前記車両機器の操作コマンドを示す情報とを対応付けた追加辞書登録情報を前記車載器に送信し、前記車載器は、前記サーバ装置から取得した前記追加辞書登録情報を用いて、前記ユーザ発話の言葉と前記操作コマンドとを対応付けた追加辞書情報を生成し、前記操作コマンドを用いて、対応する前記車両機器に対して操作の実行指示を出力する。
【0007】
また、本発明に係る車載器は、車両機器の操作を示す言葉と、車両機器および操作内容の識別番号を組合せた操作コマンドと、を対応付けた追加辞書情報を記憶した記憶部と、ユーザ発話の音声情報の入力を受け付ける入力受付部と、前記音声情報をテキスト変換した発話テキスト情報を生成し、該発話テキスト情報を用いて前記追加辞書情報を検索する音声認識部と、前記検索の結果、前記テキスト情報が示すユーザ発話の言葉が前記追加辞書情報に登録されていない場合、前記ユーザ発話の音声情報を所定のサーバ装置に送信する通信部とを備える。
【0008】
また、本発明に係るサーバ装置は、車載器から取得したユーザ発話の音声情報を音声認識し、該音声情報をテキスト変換した発話テキスト情報を生成する操作コマンド特定部を備え、前記操作コマンド特定部は、前記発話テキスト情報を用いて、前記ユーザ発話が示す言葉が前記車載器に搭載された車両機器の操作を意図するものであるか否かを判定する
【発明の効果】
【0009】
本発明に係る音声認識システムによれば、通信コストの負担を低減しつつ、ユーザ発話に対する応答速度を向上させることができる。
【0010】
なお、上記以外の課題、構成および効果等は、以下の実施形態の説明により明らかにされる。
【図面の簡単な説明】
【0011】
図1】本発明の一実施形態に係るヘッドユニットを実現する車載器のハードウェア構成の一例を示した図である。
図2】本発明の一実施形態に係るサーバ装置のハードウェア構成の一例を示した図である。
図3】本発明の一実施形態に係る車載器およびサーバ装置の機能ブロックの一例を示した図である。
図4図4(a)は、本発明の一実施形態に係る操作コマンド情報の一例を示した図である。図4(b)は、本発明の一実施形態に係る追加辞書情報の一例を示す情報である。
図5】本発明の一実施形態に係る音声認識処理の流れの一例を示したフロー図である。
図6】本発明の一実施形態に係る操作コマンド特定処理の流れの一例を示したフロー図である。
図7】本発明の一実施形態に係る追加辞書登録処理の流れの一例を示したフロー図である。
【発明を実施するための形態】
【0012】
以下、本発明の一実施形態について説明する。
【0013】
本実施形態に係る音声認識(VR)システムは、ヘッドユニット(H/U)とサーバ装置とを有する。図1は、ヘッドユニットを実現する車載器100のハードウェア構成の一例を示した図である。車載器100は、車に搭載されうる電子機器のことであり、非搭載状態で流通されるものを含む。また、本実施形態に係る車載器100は、推奨経路の探索や、地図情報および交通情報の表示等、いわゆるナビゲーション機能を備えたナビゲーション装置である。ただし、車載器100は、ナビゲーション装置に限られるものではなく、音声の入出力機能、音声認識機能およびサーバ装置との通信機能を備えたコンポーネント(例えば、車載オーディオシステムなど)であればどのような種類の機器であっても良い。
【0014】
車載器100は、演算処理装置1と、ディスプレイ2と、記憶装置3と、音声入出力装置4(音声入力装置としてのマイクロフォン41と、音声出力装置としてのスピーカ42とを有する)と、入力装置5と、ROM装置6と、車速センサ7と、ジャイロセンサ8と、GPS(Global Positioning System)受信装置9と、FM多重放送受信装置10と、ビーコン受信装置11と、通信装置12と、CAN I/F(コントローラエリアネットワーク インターフェース)13とを有している。
【0015】
演算処理装置1は、車載器100の様々な処理を行う中心的なユニットである。演算処理装置1は、例えば、車速センサ7などの各種センサおよびGPS受信装置9から出力された情報を用いて現在地を検出する。また、演算処理装置1は、得られた現在地情報に基づいて、表示に必要な地図情報を記憶装置3あるいはROM装置6から読み出す。また、演算処理装置1は、読み出した地図情報をグラフィックス展開し、そこに現在地を示すマークを重ねてディスプレイ2へ表示させる信号を出力する。また、演算処理装置1は、記憶装置3あるいはROM装置6に記憶されている地図情報などを用いて、ユーザから指示された出発地と目的地とを結ぶ推奨経路を探索する。また、演算処理装置1は、スピーカ42やディスプレイ2に所定の信号を出力して経路誘導を行う。
【0016】
また、演算処理装置1は、マイクロフォン41を介して入力されたユーザ発話の音声情報を用いて音声認識処理を行う。また、演算処理装置1は、所定の場合に、通信装置12を介してユーザ発話の音声情報をサーバ装置に送信する。
【0017】
また、演算処理装置1は、通信装置12を介して、ユーザ発話の音声情報をテキスト変換したテキスト情報と、車両機器の操作コマンドとを含む追加辞書登録情報をサーバ装置から取得する。また、演算処理装置1は、追加辞書登録情報を用いて追加辞書を生成および更新し、操作コマンドにより特定される車両機器操作の実行指示を出力する。
【0018】
なお、車両機器とは、エアコン、オーディオ、ナビゲーション装置、ウィンカーおよびワイパーなど、CAN(Controller Area Network)で相互に電機接続されている機器や、ユーザにより操作可能な機器である。
【0019】
このような演算処理装置1は、各デバイス間をバスで接続した構成となっている。具体的には、演算処理装置1は、数値演算及び各デバイスを制御するなど様々な処理を実行するCPU21(Central Processing Unit)と、記憶装置3またはROM23から読み出した地図情報や演算データなどを格納するRAM22(Random Access Memory)と、CPU21が実現するブートプログラムやCPU21が実行するプログラム(例えば、音声認識(VR)機能を実現するプログラム)などを格納するROM23(Read Only Memory)と、演算処理装置1に各種ハードウェアを接続するためのI/F24(インターフェイス)と、これらを相互に接続するバス25とを有している。
【0020】
ディスプレイ2は、グラフィックス情報を表示するユニットである。ディスプレイ2は、例えば、液晶ディスプレイや有機ELディスプレイなどで構成される。
【0021】
記憶装置3は、HDD(Hard Disk Drive)や不揮発性メモリカードといった、少なくとも読み書きが可能な記憶媒体で構成される。記憶装置3には、例えば、演算処理装置1によって用いられる様々な情報(例えば、地図情報など)が格納されている。
【0022】
音声入出力装置4は、音声入力装置としてのマイクロフォン41と、音声出力装置としてのスピーカ42とを有する。マイクロフォン41は、運転者や同乗者の発した声(ユーザ発話)など、車載器100の外部の音声を取得する。また、スピーカ42は、演算処理装置1で生成された運転者などへの案内を音声として出力する。
【0023】
入力装置5は、ユーザからの指示入力を受け付ける装置である。入力装置5は、タッチパネル51と、ダイヤルスイッチ52と、その他のハードスイッチであるスクロールキー、など(図示せず)で構成されている。入力装置5は、各キーや各スイッチの操作に応じた情報を演算処理装置1など他の装置に出力する。
【0024】
ROM装置6は、CD-ROMやDVD-ROMなどのROM、IC(Integrated Circuit)カードなどの、少なくとも読み取りが可能な記憶媒体で構成されている。この記憶媒体には、例えば、動画データや、音声データなどが記憶されている。
【0025】
車速センサ7は、車速を算出するのに用いる値を出力するセンサである。ジャイロセンサ8は、光ファイバジャイロや振動ジャイロなどで構成され、移動体の回転による角速度を検出するセンサである。GPS受信装置9は、GPS衛星からの信号を受信し移動体とGPS衛星間の距離と距離の変化率とを3個以上の衛星に対して測定することで移動体の現在地、進行速度および進行方位を測定するものである。これらの各装置は、車載器100が搭載された車両の現在地を検出するために演算処理装置で用いられる。
【0026】
FM多重放送受信装置10は、FM放送局から送られてくるFM多重放送信号を受信する。FM多重放送には、VICS(Vehicle Information Communication System:登録商標)情報の概略現況交通情報、規制情報、SA/PA(サービスエリア/パーキングエリア)情報、駐車場情報、天気情報およびFM多重一般情報としてラジオ局が提供する文字情報などが含まれている。
【0027】
ビーコン受信装置11は、VICS情報などの概略現況交通情報、規制情報、SA/PA(サービスエリア/パーキングエリア)情報、駐車場情報、天気情報および緊急警報などを受信する。ビーコン受信装置11には、例えば、光により通信する光ビーコン、電波により通信する電波ビーコンなどがある。
【0028】
通信装置12は、外部装置(本例では、サーバ装置)との間で情報通信を行う。具体的には、通信装置12は、ユーザ発話の音声情報を所定のサーバ装置に送信する。また、通信装置12は、追加辞書登録情報をサーバ装置から受信する。
【0029】
CAN I/F13は、車両内に設置されている各種車両機器との間で多重通信を行う車載ネットワーク(CAN)に対して、情報の入出力を行うインターフェースである。なお、CAN I/F13は、前述のI/F24によって実現されても良い。
【0030】
以上、車載器100のハードウェア構成について説明した。
【0031】
次に、サーバ装置200のハードウェア構成について説明する。図2は、サーバ装置200のハードウェア構成の一例を示した図である。サーバ装置200は、例えば、ワークステーションやPC(パーソナルコンピュータ)などの情報処理装置である。
【0032】
図示するように、サーバ装置200は、演算装置201と、外部記憶装置202と、送受信装置203と、各々の装置を相互に接続するバス204とを有している。
【0033】
演算装置201は、数値演算及び各デバイスを制御するなど様々な処理を実行するCPU211と、外部記憶装置202または後述のROM213から読み出した地図情報や演算データなどを格納するRAM212と、CPU211が実現するブートプログラムやCPU211が実行するプログラム(例えば、音声認識(VR)機能を実現するプログラム)などを格納するROM213と、各装置を相互に接続するバス204とを有している。
【0034】
外部記憶装置202は、例えば、ハードディスク装置やフラッシュメモリなどの不揮発性記憶装置である。
【0035】
送受信装置203は、例えば、外部装置(本例では、車載器100)との間で情報通信を行う通信モジュールなどの装置である。
【0036】
以上、サーバ装置200のハードウェア構成について説明した。
【0037】
次に、車載器100およびサーバ装置200の機能構成を示す機能ブロックについて説明する。図3は、車載器100およびサーバ装置200の機能ブロックの一例を示した図である。車載器100は、入力受付部301と、出力処理部302と、音声認識部303と、追加辞書登録部304と、記憶部305と、通信部306とを有している。
【0038】
入力受付部301は、車載器100が備える入力装置5を介して、ユーザからの指示や情報の入力を受け付ける機能部である。具体的には、入力受付部301は、ハードスイッチなどの入力装置5を介して音声認識処理の実行指示をユーザから受け付ける。より具体的には、入力受付部301は、ユーザによって所定のハードスイッチが押下されたことを検出すると、それを音声認識部303に通知してPTT(Push To Talk)機能を開始する。
【0039】
出力処理部302は、車載器100が備えるディスプレイ2に表示させる画面情報を生成する機能部である。具体的には、出力処理部302は、音声認識の結果を示す画面情報を生成し、これをディスプレイ2に出力する。例えば、ユーザ発話が「レストラン」や「銀行」など特定の場所についての表示要求である場合、出力処理部302は、地図情報から座標情報を取得し、かかる場所を示すアイコンを地図上に重ねて表示する画面情報を生成してディスプレイ2に出力する。
【0040】
音声認識部303は、入力音声の音声認識を行う機能部である。具体的には、音声認識部303は、マイクロフォン41を介して入力されたユーザ発話の音声情報を取得すると、音響モデルを用いて音響分析を行い、VR辞書を用いて入力音声の音声認識処理を実行する。また、音声認識部303は、音声認識処理の結果、ユーザ発話の音声情報をテキスト情報に変換する。なお、音声認識処理の方法については特に限定されるものではなく、公知の音声認識技術が用いられれば良い。
【0041】
追加辞書登録部304は、追加辞書情報315を生成および更新する機能部である。具体的には、追加辞書登録部304は、通信部306を介してサーバ装置200から取得した追加辞書登録情報を用いて、追加辞書情報315を生成および更新する。
【0042】
記憶部305は、様々な情報を記憶する機能部である。具体的には、記憶部305は、地図情報311と、VR辞書312と、操作コマンド情報313と、待受語彙情報314と、追加辞書情報315とを有している。
【0043】
地図情報311は、地図上の道路に関するリンク情報などを含むメッシュ領域情報を格納した道路の構成情報である。
【0044】
VR辞書312は、音素と単語とが対応付けられて登録されている辞書情報であり、音声認識部303がユーザ発話の音声情報を用いて音声認識処理を行う際に用いられる。
【0045】
操作コマンド情報313は、車両機器の操作に関する情報である。図4(a)は、操作コマンド情報313の一例を示した図である。操作コマンド情報313は、コマンド群1およびコマンド群2から構成され、コマンド群1には車両機器を特定する情報が登録され、コマンド群2にはコマンド群1で特定された車両機器の操作内容を特定する情報が登録されている。
【0046】
具体的には、コマンド群1には、車両機器の識別情報である識別番号および車両機器名とが対応付けて登録されている。例えば、コマンド群1には、「1.エアコン」、「2.オーディオ」および「3.ナビゲーション」といった情報が登録されており、「1.」〜「3.」が車両機器の識別番号である。また、「エアコン」、「オーディオ」および「ナビゲーション」が車両機器名である。
【0047】
また、コマンド群2には、コマンド群1で特定された車両機器ごとに、操作識別番号と操作内容とが対応付けて登録されている。例えば、コマンド群1の「1.エアコン」に対応付けられたコマンド群2には、「1.ON」、「2.OFF」、「3.温度を上げる」、「4.温度を下げる」、「5.風量強く」、「6.風量弱く」といった情報が登録されている。ここで、「1.」〜「6.」が操作識別番号である。また、「ON」、「温度を上げる」などが操作内容である。
【0048】
各車両機器の操作コマンドは、コマンド群1およびコマンド群2の識別番号の組合せにより特定される。例えば、「エアコンの温度を下げる」といった場合の操作コマンドは、(コマンド群1=1、コマンド群2=4)という識別番号の組合せによって特定される。
【0049】
図3に戻って説明する。待受語彙情報314は、所定の語彙が登録された情報である。例えば、待受語彙情報314には、「目的地」、「自宅」、「画面明るさ」、「マップ(MAP)」、「ルート」、「レストラン」および「銀行」といった所定の語彙が登録されており、音声認識部303により生成された発話テキスト情報の検索対象として用いられる。
【0050】
追加辞書情報315は、テキスト情報であるユーザの発話音声と車両機器の操作コマンドとが対応付けられた情報である。図4(b)は、追加辞書情報315の一例を示す情報である。具体的には、追加辞書情報315は、発話音声欄321と、コマンド群1欄322と、コマンド群2欄323とが対応付けられたレコードを有している。
【0051】
発話音声欄321に登録されている情報は、音声認識部303によってテキスト変換されたユーザ発話の内容を示す情報である。発話音声欄321には、例えば、「寒い」、「暑い」、「エアコン下げて」といったユーザ発話の内容を示す情報が登録されている。コマンド群1欄322に登録されている情報は、車両機器を特定する識別番号であり、操作コマンド情報313のコマンド群1の識別番号に対応している。コマンド群2欄323に登録されている情報は、車両機器の操作内容を特定する操作識別番号であり、操作コマンド情報313のコマンド群2の操作識別番号に対応している。このような追加辞書情報315は、サーバ装置200から取得した追加辞書登録情報を用いて、追加辞書登録部304により生成される。
【0052】
図3に戻って説明する。通信部306は、外部装置(本例では、サーバ装置200)との間で情報のやり取りを行う機能部である。具体的には、通信部306は、インターネットなどの所定のネットワーク網Nを介して、ユーザ発話の音声情報を所定のサーバ装置200に送信する。また、通信部306は、ネットワーク網Nを介して、ユーザ発話のテキスト情報と車両機器の操作コマンドとを含む追加辞書登録情報をサーバ装置200から受信する。
【0053】
サーバ装置200は、操作コマンド特定部401と、出力部402と、追加辞書登録情報生成部403と、情報格納部404と、送受信部405とを有している。
【0054】
操作コマンド特定部401は、ユーザ発話の音声情報を用いて車両機器の操作コマンドを特定する機能部である。具体的には、操作コマンド特定部401は、送受信部405を介してユーザ発話の音声情報を車載器100から取得すると、音声認識処理を行い、ユーザ発話の音声情報をテキスト情報に変換する。また、操作コマンド特定部401は、かかるテキスト情報を用いて、ユーザ発話が車両機器の操作を意図するものであるか否かを判定する。また、操作コマンド特定部401は、操作コマンド情報414を用いて、ユーザ発話が示す車両機器の操作コマンドを特定する。
【0055】
出力部402は、ユーザ発話によって求められた情報を特定し、送受信部405を介して車載器100に送信する機能部である。具体的には、出力部402は、ユーザ発話が車両機器の操作コマンドを示すものではなく、特定地点の表示要求である場合、地図情報411を用いて地点座標を特定し、送受信部405を介して車載器100に送信する。
【0056】
追加辞書登録情報生成部403は、車載器100の追加辞書情報に登録される情報を生成する機能部である。具体的には、追加辞書登録情報生成部403は、ユーザ発話のテキスト情報と、車両機器の操作コマンドとを含む追加辞書登録情報を生成し、送受信部405を介して車載器100に送信する。
【0057】
情報格納部404は、様々な情報を格納する機能部である。具体的には、情報格納部404は、地図情報411と、VR辞書412と、文脈辞書413と、操作コマンド情報414とを格納している。なお、地図情報411、VR辞書412および操作コマンド情報414の各々は、車載器100の記憶部305に格納されているものと同様であるため、説明を省略する。
【0058】
文脈辞書413は、文脈に応じた単語同士の結びつきを登録した辞書情報であり、操作コマンド特定部401がユーザ発話の音声情報を用いて音声認識処理を行う際に用いられる。
【0059】
以上、車載器100およびサーバ装置200の機能ブロックについて説明した。なお、車載器100の入力受付部301、出力処理部302、音声認識部303および追加辞書登録部304と、サーバ装置200の操作コマンド特定部401、出力部402および追加辞書登録情報生成部403とは、各々のCPU21、CPU211に処理を行わせるプログラムによって実現される。このプログラムは各々、車載器100のROM23または記憶装置3と、サーバ装置200のROM213または外部記憶装置202に格納されており、実行にあたってRAM22、RAM212上にロードされ、CPU21、CPU211により実行される。なお、車載器100のVR辞書312は、記憶装置3に格納される場合に限られず、ROM23に格納されていても良い。また、サーバ装置200のVR辞書412および文脈辞書413は、外部記憶装置202に格納される場合に限られず、ROM213に格納されていても良い。
【0060】
また、各機能ブロックは、本実施形態において実現される車載器100およびサーバ装置200の機能を理解容易にするために、主な処理内容に応じて分類したものである。したがって、各機能の分類の仕方やその名称によって、本発明が制限されることはない。また、車載器100およびサーバ装置200の各構成は、処理内容に応じて、さらに多くの構成要素に分類することもできる。また、1つの構成要素がさらに多くの処理を実行するように分類することもできる。
【0061】
また、各機能部の全部または一部は、コンピュータに実装されるハードウェア(ASICといった集積回路など)により構築されてもよい。また、各機能部の処理が1つのハードウェアで実行されてもよいし、複数のハードウェアで実行されてもよい。
【0062】
なお、車載器100の記憶部305は、記憶装置3によって実現される。また、車載器100の通信部306は、通信装置12によって実現される。また、サーバ装置200の記憶部305は、外部記憶装置202によって実現される。また、サーバ装置200の送受信部405は、送受信装置203によって実現される。
【0063】
[動作の説明]
次に、車載器100で実行される音声認識処理について説明する。図5は、音声認識処理の流れの一例を示したフロー図である。入力受付部301は、入力装置5を介してユーザから音声認識処理の開始指示を受け付けると、かかる処理を開始する。
【0064】
音声認識処理が開始されると、入力受付部301は、マイクロフォン41を介してユーザ発話の音声入力を受け付けたか否かを判定する(ステップS001)。また、入力受付部301は、ユーザ発話の音声入力を受け付けた場合(ステップS001でYes)、入力された音声情報を音声認識部303に受け渡す。
【0065】
音声認識部303は、所定の音響モデルやVR辞書を用いて音声認識処理を行い、入力受付部301を介して取得したユーザ発話の音声情報をテキスト変換した発話テキスト情報を生成する(ステップS002)。
【0066】
次に、音声認識部303は、発話テキスト情報に変換したユーザ発話の言葉が待受語彙情報314に登録されているか否かを判定する(ステップS003)。具体的には、音声認識部303は、発話テキスト情報を用いて待受語彙情報314を検索する。待受語彙情報314に発話テキスト情報が示すユーザ発話の言葉が登録されている場合(ステップS003でYes)、出力処理部302は、検索された待受語彙に応じた所定の処理を実行する(ステップS004)。例えば、発話テキスト情報が示すユーザ発話の言葉が「銀行」である場合、出力処理部302は、地図情報を用いて現在地周辺にある銀行の地点座標を取得し、かかる地点を示すマークを地図上に重ねた画面情報を生成する。また、出力処理部302は、生成した画面情報をディスプレイに出力する。
【0067】
一方で、発話テキスト情報が示すユーザ発話の言葉が待受語彙情報314に登録されていない場合(ステップS003でNo)、音声認識部303は、かかる言葉が追加辞書情報315に登録されているか否かを判定する(ステップS005)。具体的には、音声認識部303は、発話テキスト情報を用いて追加辞書情報315を検索する。
【0068】
追加辞書情報315に発話テキスト情報が示すユーザ発話の言葉が登録されている場合(ステップS005でYes)、音声認識部303は、車両機器の操作指示を出力する(ステップS006)。具体的には、音声認識部303は、発話テキスト情報と一致する発話音声が対応付けられた追加辞書情報315のレコードを特定する。また、音声認識部303は、特定したレコードのコマンド群1欄322およびコマンド群2欄323に格納されている識別番号を用いて操作コマンド情報313を参照し、対象となる車両機器および操作内容を特定する。また、音声認識部303は、CAN I/F13を介して、特定した車両機器に対し、特定した操作内容の実行指示を出力する。
【0069】
一方で、発話テキスト情報が示すユーザ発話の言葉が追加辞書情報315に登録されていない場合(ステップS005でNo)、音声認識部303は、入力受付部301から取得した音声情報を、通信部306を介してサーバ装置200に送信し、本フローの処理を終了する。
【0070】
以上、車載器100で実行される音声認識処理について説明した。
【0071】
次に、ユーザ発話の音声情報を車載器100から取得したサーバ装置200の操作コマンド特定処理について説明する。図6は、操作コマンド特定処理の流れの一例を示したフロー図である。かかる処理は、サーバ装置200の操作コマンド特定部401が、送受信部405を介して、ユーザ発話の音声情報を車載器100から取得すると開始される。すなわち、コマンド特定処理401は、ユーザ発話の言葉が車載器100の待受語彙情報314および追加辞書情報315に登録されていない場合に行われる。
【0072】
ユーザ発話の音声情報を取得すると、サーバ装置200の操作コマンド特定部401は、所定の音響モデル、VR辞書412および文脈辞書413を用いて音声認識処理を行い、ユーザ発話の音声情報をテキスト変換した発話テキスト情報を生成する(ステップS011)。
【0073】
次に、操作コマンド特定部401は、発話テキスト情報を用いて、ユーザ発話の音声情報が車両機器の操作を示すものであるか否かを判定する(ステップS012)。具体的には、操作コマンド特定部401は、発話テキスト情報を用いて、ユーザ発話の内容が車両機器の操作を意図するものであるか、または、それ以外であるかを判定する。そして、車両機器の操作を意図するものではないと判定した場合(ステップS012でNo)、操作コマンド特定部401は、音声情報に応じた所定の処理を実行する(ステップS013)。例えば、発話テキスト情報が「この辺りにある銀行3つ」である場合、操作コマンド特定部401は、現在地から最も近い3つの銀行の地点座標を地図情報411から取得し、送受信部405を介して車載器100に送信する。
【0074】
一方で、ユーザ発話の内容が車両機器の操作を意図するものであると判定した場合(ステップS012でYes)、操作コマンド特定部401は、操作コマンド情報414を用いて車両機器の操作コマンドを特定する(ステップS014)。例えば、発話テキスト情報が「暑い」である場合、操作コマンド特定部401は、操作対象の車両機器が室温調整を行う「エアコン」であることを特定し、コマンド群1から識別番号「1」を特定する。また、操作コマンド特定部401は、かかる発話テキスト情報から、操作内容が「温度を下げる」であることを特定し、コマンド群2から操作識別番号「4」を特定する。このようにして、操作コマンド特定部401は、「暑い」というユーザ発話に対応する操作コマンド「1」および「4」を特定する。
【0075】
次に、追加辞書登録情報生成部403は、追加辞書登録情報を生成し(ステップS015)、送受信部405を介して車載器100に送信する(ステップS016)。具体的には、追加辞書登録情報生成部405は、ユーザ発話の音声情報に基づいて生成した発話テキスト情報と、発話テキスト情報を用いて特定した車両機器の操作コマンドとを含む追加辞書登録情報を生成し、送受信部405を介して車載器100に送信する。
【0076】
以上、サーバ装置200で実行される車両機器の操作コマンド特定処理について説明した。
【0077】
次に、追加辞書登録情報をサーバ装置200から取得した車載器100の追加辞書登録処理について説明する。図7は、追加辞書登録処理の流れの一例を示したフロー図である。かかる処理は、車載器100の追加辞書登録部304が、通信部306を介して、追加辞書登録情報をサーバ装置200から取得すると開始される。
【0078】
車載器100の追加辞書登録部304は、取得した追加辞書登録情報を用いて追加辞書情報315を生成および更新する(ステップS021)。具体的には、追加辞書登録部304は、追加辞書登録情報から発話テキスト情報を抽出し、追加辞書情報315の発話音声欄321に格納する。また、追加辞書登録部304は、追加辞書登録情報から操作コマンドを抽出し、コマンド群1欄322およびコマンド群2欄323に各々格納する。例えば、本例では、追加辞書登録部304は、「暑い」という発話テキスト情報を追加辞書情報315の発話音声欄321に格納し、操作コマンド「1」および「4」を各々、コマンド群1欄322およびコマンド群2欄323に格納する。
【0079】
次に、音声認識部303は、コマンド群1およびコマンド群2によって特定された車両機器の操作の実行指示を対応する車両機器に出力する(ステップS022)。具体的には、音声認識部303は、追加辞書登録部304によって生成および更新された追加辞書情報315のレコードを特定する。また、音声認識部303は、特定したレコードのコマンド群1欄322およびコマンド群2欄323に格納されている識別番号を特定し、かかる識別番号を用いて、操作コマンド情報313から対象の車両機器および操作内容を特定する。また、音声認識部303は、特定した車両機器に対して、特定した操作内容の実行指示を出力する。本例では、音声認識部303は、対象の車両機器であるエアコンに対し、温度を下げる指示を出力する。また、音声認識部303は、実行指示を出力すると、本フローの処理を終了する。
【0080】
以上、追加辞書登録処理について説明した。
【0081】
このような音声認識システムによれば、車両機器の操作を指示するユーザ発話があった場合でも、追加辞書情報に車両機器の操作コマンドが登録されている場合には、サーバ装置200に音声情報を送信して操作コマンドを取得しなくても、車載器100側で車両機器を操作コマンドを特定することができる。これにより、本発明に係る音声認識システムでは、サーバ装置200に音声情報を送信する機会を減らすことができるため、通信コストの負担を低減させることができる。また、次回以降は車載器100側で操作コマンドを特定できるため、サーバ装置200からの応答時間を省略でき、ユーザ発話に対する応答速度を向上させることができる。
【0082】
また、音声認識システムでは、ユーザ発話の音声情報を音声認識し、ユーザ発話のテキスト情報に車両機器の操作コマンドを対応付けた追加辞書情報を生成する。したがって、言い回しの違う複数の言葉の各々に対して、共通する1つの操作コマンドを対応付けることができる。このような追加辞書情報を用いることで、車載器100は、ユーザの言い回しの癖を吸収して、1つの操作コマンドを特定することができる。すなわち、車両機器の操作を指示する場合、ユーザは、操作コマンドとして特定の言葉を覚えている必要がなくなる。
【0083】
また、通常、地図情報のアップデートに伴い待受語彙情報に登録されている言葉も更新されるが、本発明では、車両機器の操作コマンドが登録されている追加辞書情報は、待受語彙情報から独立して格納されているため、かかるアップデートの影響を受けることもない。
【0084】
なお、本発明は前述の実施形態に限られるものではなく、様々な変形例が可能である。例えば、車載器100の記憶部305は、追加辞書情報315を更新する際、追加辞書情報315に登録された情報が所定数以上(例えば、100個以上)であるか否かを判定し、所定数以上であると判定した場合、待受語彙情報314から使用頻度の低い語彙を削除し、追加辞書情報315の使用領域を増加させても良い。
【0085】
また、記憶部305は、追加辞書情報315に登録された発話音声および操作コマンドが所定数以上(例えば、100個以上)となった場合、使用頻度の低い情報から順に削除しても良い。
【0086】
このような音声認識システムの車載器によれば、追加辞書情報315の使用領域を必要に応じて増加させることができる。
【0087】
また、本発明は、上記の実施形態や変形例などに限られるものではなく、これら以外にも様々な実施形態および変形例が含まれる。例えば、上記の実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施形態の構成の一部を他の実施形態や変形例の構成に置き換えることが可能であり、ある実施形態の構成に他の実施形態の構成を加えることも可能である。また、各実施形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
【0088】
また、上記の各構成、機能、処理部および処理手段などは、それらの一部または全部を、プロセッサが各々の機能を実現するプログラムにより実現しても良い。各機能を実現するプログラム、テーブル、ファイルなどの情報は、メモリや、ハードディスク、SSD(Solid State Drive)などの記憶装置、または、ICカード、SD(Secure Digital)メモリカード、DVD(Digital Versatile Disk)などの記録媒体に置くことができる。なお、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。
【符号の説明】
【0089】
100・・・車載器、1・・・演算処理装置、2・・・ディスプレイ、3・・・記憶装置、4・・・音声入出力装置、41・・・マイクロフォン、42・・・スピーカ、
5・・・入力装置、51・・・タッチパネル、52・・・ダイヤルスイッチ、
6・・・ROM装置、7・・・車速センサ、8・・・ジャイロセンサ、
9・・・GPS受信装置、10・・・FM多重放送受信装置、11・・・ビーコン受信装置、
12・・・通信装置、13・・・CAN I/F、
200・・・サーバ装置、201・・・演算装置、211・・・CPU、
212・・・RAM、213・・・ROM、202・・・外部記憶装置、
203・・・送受信装置、204・・・バス
図1
図2
図3
図4
図5
図6
図7