(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-02-28
(45)【発行日】2023-03-08
(54)【発明の名称】音声認識装置及び音声認識方法
(51)【国際特許分類】
B60R 16/02 20060101AFI20230301BHJP
G10L 15/10 20060101ALI20230301BHJP
G10L 15/22 20060101ALI20230301BHJP
G10L 15/00 20130101ALI20230301BHJP
G06F 3/16 20060101ALI20230301BHJP
【FI】
B60R16/02 655A
G10L15/10 500Z
G10L15/10 500T
G10L15/22 453
G10L15/00 200J
G10L15/22 200V
G06F3/16 640
(21)【出願番号】P 2018076314
(22)【出願日】2018-04-11
【審査請求日】2021-03-01
(73)【特許権者】
【識別番号】000005348
【氏名又は名称】株式会社SUBARU
(74)【代理人】
【識別番号】110000936
【氏名又は名称】弁理士法人青海国際特許事務所
(72)【発明者】
【氏名】鹿野 達夫
【審査官】浅野 麻木
(56)【参考文献】
【文献】特開2015-074315(JP,A)
【文献】特表2016-535893(JP,A)
【文献】特開2012-121386(JP,A)
【文献】国際公開第2017/042906(WO,A1)
【文献】特開2003-330485(JP,A)
【文献】国際公開第2013/054375(WO,A1)
【文献】特開2018-207169(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
B60R 16/02
G10L 15/10
G10L 15/22
G10L 15/00
G06F 3/16
(57)【特許請求の範囲】
【請求項1】
発話者の発話音声が入力される音声入力部と、
前記発話者の年齢を推定する年齢推定部と
、
前記発話者の年齢カテゴリを判定する年齢カテゴリ判定部と、
前記発話音声から前記発話者の意図する操作を判別する操作判別部と、
前記年齢推定部
が推定した前記発話者の年
齢に基づいて、前記操作の許可又は不許可を判定する操作許可判定部と、
を備え
、
前記年齢推定部が推定した前記発話者の年齢が規定年齢以上である場合、
前記操作許可判定部は、前記操作を許可し、
前記年齢推定部が推定した前記発話者の年齢が前記規定年齢未満である場合、
前記年齢カテゴリ判定部は、前記年齢推定部が推定した前記発話者の年齢を、前記発話者の年齢を少なくとも前記規定年齢未満の領域において2つ以上の年齢カテゴリに分類した年齢カテゴリデータベースに当てはめて、前記発話者の年齢カテゴリを判定し、
前記操作許可判定部は、前記年齢カテゴリ判定部が判定した前記発話者の年齢カテゴリに基づいて、前記操作の許可又は不許可を判定することを特徴とする、音声認識装置。
【請求項2】
前記年齢推定部が推定した前記発話者の年齢が前記規定年齢未満である場合、
前記操作許可判定部は、前記年齢カテゴリ判定部が判定した前記発話者の年齢カテゴリに応じて許可される操作のリストにおいて前記操作が許可される場合、前記操作を許可し、前記リストにおいて前記操作が不許可とされる場合、前記操作を不許可とすることを特徴とする、請求項1に記載の音声認識装置。
【請求項3】
車両情報を取得する車両情報取得部と、
前記車両情報から車両余裕度を算出する車両余裕度算出部と、
前記発話者の年齢カテゴリ、前記車両余裕度、及び前記操作の許可又は不許可の関係を定めた操作許可データベースと、
前記発話音声から判別された前記発話者の意図する操作が、前記発話者の年齢カテゴリ及び前記車両余裕度から定まる、前記操作許可データベースの中の操作リストに含まれているか否かを判定する操作許可判定部と、を備え、
前記操作許可判定部は、前記発話音声から判別された前記発話者の意図する操作が前記操作リストに含まれている場合に、前記操作を許可する判定を行うことを特徴とする、請求項1
又は2に記載の音声認識装置。
【請求項4】
前記操作許可データベースは、前記年齢を少なくとも2つのカテゴリに分類し、前記車両余裕度を少なくとも2つのカテゴリに分類した、年齢カテゴリと前記車両余裕度のカテゴリに依存した操作リストを定めるデータベースであることを特徴とする、請求項
3に記載の音声認識装置。
【請求項5】
車両内の複数の乗員の中から前記発話者を特定する話者特定部を備える、請求項1~
4のいずれかに記載の音声認識装置。
【請求項6】
前記発話者を撮像した撮像画像に基づいて、前記発話者が人以外であるか否かを判定する判定部を備え、
前記発話者が人以外であれば前記操作を不許可とすることを特徴とする、請求項1~
5のいずれかに記載の音声認識装置。
【請求項7】
前記発話者の個人認証を行う個人認証部を備え、
前記個人認証に成功した場合、前記操作許可判定部は、前記発話者の年齢によらず前記操作を許可することを特徴とする、請求項1~
6のいずれかに記載の音声認識装置。
【請求項8】
特定の人について年齢判定の例外であることを登録した年齢判定例外データベースと、
前記年齢判定例外データベースに登録されている前記発話者に例外判定を行う例外判定部を備え、
前記操作許可判定部は、前記例外判定が行われた前記発話者については、年齢によらず前記操作を許可することを特徴とする、請求項1~
7のいずれかに記載の音声認識装置。
【請求項9】
前記年齢判定例外データベースは、外部のサーバとの通信により更新される、請求項
8に記載の音声認識装置。
【請求項10】
前記年齢カテゴリに応じて登録単語の重みづけを変更することができる音声認識用辞書を備え、
前記操作判別部は、前記音声認識用辞書に基づいて前記発話者の意図を理解することを特徴とする、請求項1
、2又は4に記載の音声認識装置。
【請求項11】
前記音声認識用辞書は、外部のサーバとの通信により更新される、請求項
10に記載の音声認識装置。
【請求項12】
前記操作許可判定部により許可判定された前記操作を実現する操作実行部を備える、請求項1~
11のいずれかに記載の音声認識装置。
【請求項13】
前記発話者が乗車している車両の車両情報に基づいて前記発話者の誤発話を判定する誤発話判定部を備え、
前記操作実行部は、前記発話者の前記誤発話を判定した場合は、前記操作を実行しないことを特徴とする、請求項
12に記載の音声認識装置。
【請求項14】
発話者の発話音声が入力される
第1ステップと、
前記発話者の年齢を推定する
第2ステップと
、
前記発話者の年齢カテゴリを判定する
第3ステップと、
前記発話音声から前記発話者の意図する操作を判別する
第4ステップと、
前記
第2ステップに
おいて推定した前記発話者の年
齢に基づいて、前記操作の許可又は不許可を判定する
第5ステップと、
を
含み、
前記第2ステップにおいて推定した前記発話者の年齢が規定年齢以上である場合、
前記第5ステップにおいて、前記操作を許可し、
前記第2ステップにおいて推定した前記発話者の年齢が前記規定年齢未満である場合、
前記第3ステップにおいて、前記第2ステップにおいて推定した前記発話者の年齢を、前記発話者の年齢を少なくとも前記規定年齢未満の領域において2つ以上の年齢カテゴリに分類した年齢カテゴリデータベースに当てはめて、前記発話者の年齢カテゴリを判定し、
前記第5ステップにおいて、前記第3ステップにおいて判定した前記発話者の年齢カテゴリに基づいて、前記操作の許可又は不許可を判定することを特徴とする、音声認識方法。
【請求項15】
前記第2ステップにおいて推定した前記発話者の年齢が前記規定年齢未満である場合、
前記第5ステップにおいて、前記第3ステップにおいて判定した前記発話者の年齢カテゴリに応じて許可される操作のリストにおいて前記操作が許可される場合、前記操作を許可し、前記リストにおいて前記操作が不許可とされる場合、前記操作を不許可とすることを特徴とする、請求項14に記載の音声認識方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識装置及び音声認識方法に関する。
【背景技術】
【0002】
従来、例えば下記の特許文献1には、運転者に適応したタイミングで通知処理を実行
する運転支援装置に関し、衝突に関する警告を行なう場合に年齢情報や運転暦情報を参照し、運転者の判断速度や反応速度、操作の正確さに応じたタイミングで警告出力を実行することが記載されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
近時においては、スマートフォンやPCなどにおいて、人の発話を認識する音声認識技術が利用されている。一方、自動車などの車両において、ドライバの発話に基づいて車両の操作を行うことを想定した場合、無制限に操作を受け付けると車両制御に支障が生じる。例えば、年齢的に運転免許証を取得できない若年層の乗員が発話により車両の発進、停止の操作を指示した場合に、車両が発話に応じて実際に発進、停止を行うと、運転者以外の乗員の指示に基づいて車両が適切でない動きをすることが考えられる。
【0005】
上記特許文献1に記載された技術では、年齢情報等を参照することで操作の正確さに応じたタイミングで警告出力を実行することが記載されている。しかし、上記特許文献1に記載された技術は、発話により操作指示を行う場合に、発話者の年齢に応じて操作内容を許可することは想定していない。
【0006】
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、発話者の年齢に応じて音声による操作入力を受け付けることが可能な、新規かつ改良された音声認識装置及び音声認識方法を提供することにある。
【課題を解決するための手段】
【0007】
上記課題を解決するために、本発明のある観点によれば、発話者の発話音声が入力される音声入力部と、前記発話者の年齢を推定する年齢推定部と、前記発話者の年齢カテゴリを判定する年齢カテゴリ判定部と、前記発話音声から前記発話者の意図する操作を判別する操作判別部と、前記年齢推定部が推定した前記発話者の年齢に基づいて、前記操作の許可又は不許可を判定する操作許可判定部と、を備え、前記年齢推定部が推定した前記発話者の年齢が規定年齢以上である場合、前記操作許可判定部は、前記操作を許可し、前記年齢推定部が推定した前記発話者の年齢が前記規定年齢未満である場合、前記年齢カテゴリ判定部は、前記年齢推定部が推定した前記発話者の年齢を、前記発話者の年齢を少なくとも前記規定年齢未満の領域において2つ以上の年齢カテゴリに分類した年齢カテゴリデータベースに当てはめて、前記発話者の年齢カテゴリを判定し、前記操作許可判定部は、前記年齢カテゴリ判定部が判定した前記発話者の年齢カテゴリに基づいて、前記操作の許可又は不許可を判定する音声認識装置が提供される。
前記年齢推定部が推定した前記発話者の年齢が前記規定年齢未満である場合、前記操作許可判定部は、前記年齢カテゴリ判定部が判定した前記発話者の年齢カテゴリに応じて許可される操作のリストにおいて前記操作が許可される場合、前記操作を許可し、前記リストにおいて前記操作が不許可とされる場合、前記操作を不許可としても良い。
【0009】
また、車両情報を取得する車両情報取得部と、前記車両情報から車両余裕度を算出する車両余裕度算出部と、前記発話者の年齢カテゴリ、前記車両余裕度、及び前記操作の許可又は不許可の関係を定めた操作許可データベースと、前記発話音声から判別された前記発話者の意図する操作が、前記発話者の年齢カテゴリ及び前記車両余裕度から定まる、前記操作許可データベースの中の操作リストに含まれているか否かを判定する操作許可判定部と、を備え、前記操作許可判定部は、前記発話音声から判別された前記発話者の意図する操作が前記操作リストに含まれている場合に、前記操作を許可する判定を行うものであっても良い。
【0010】
また、前記操作許可データベースは、前記年齢を少なくとも2つのカテゴリに分類し、前記車両余裕度を少なくとも2つのカテゴリに分類した、年齢カテゴリと前記車両余裕度のカテゴリに依存した操作リストを定めるデータベースであっても良い。
【0011】
また、車両内の複数の乗員の中から前記発話者を特定する話者特定部を備えるものであっても良い。
【0012】
また、前記発話者を撮像した撮像画像に基づいて、前記発話者が人以外であるか否かを判定する判定部を備え、前記発話者が人以外であれば前記操作を不許可とするものであっても良い。
【0013】
また、前記発話者の個人認証を行う個人認証部を備え、前記個人認証に成功した場合、前記操作許可判定部は、前記発話者の年齢によらず前記操作を許可するものであっても良い。
【0014】
また、特定の人について年齢判定の例外であることを登録した年齢判定例外データベースと、前記年齢判定例外データベースに登録されている前記発話者に例外判定を行う例外判定部を備え、前記操作許可判定部は、前記例外判定が行われた前記発話者については、年齢によらず前記操作を許可するものであっても良い。
【0015】
また、前記年齢判定例外データベースは、外部のサーバとの通信により更新されるものであっても良い。
【0016】
また、前記年齢カテゴリに応じて登録単語の重みづけを変更することができる音声認識用辞書を備え、前記操作判別部は、前記音声認識用辞書に基づいて前記発話者の意図を理解するものであっても良い。
【0017】
また、前記音声認識用辞書は、外部のサーバとの通信により更新されるものであっても良い。
【0018】
また、前記操作許可判定部により許可判定された前記操作を実現する操作実行部を備えるものであっても良い。
【0019】
また、前記発話者が乗車している車両の車両情報に基づいて前記発話者の誤発話を判定する誤発話判定部を備え、前記操作実行部は、前記発話者の前記誤発話を判定した場合は、前記操作を実行しないものであっても良い。
【0020】
また、上記課題を解決するために、本発明の別の観点によれば、発話者の発話音声が入力される第1ステップと、前記発話者の年齢を推定する第2ステップと、前記発話者の年齢カテゴリを判定する第3ステップと、前記発話音声から前記発話者の意図する操作を判別する第4ステップと、前記第2ステップにおいて推定した前記発話者の年齢に基づいて、前記操作の許可又は不許可を判定する第5ステップと、を含み、前記第2ステップにおいて推定した前記発話者の年齢が規定年齢以上である場合、前記第5ステップにおいて、前記操作を許可し、前記第2ステップにおいて推定した前記発話者の年齢が前記規定年齢未満である場合、前記第3ステップにおいて、前記第2ステップにおいて推定した前記発話者の年齢を、前記発話者の年齢を少なくとも前記規定年齢未満の領域において2つ以上の年齢カテゴリに分類した年齢カテゴリデータベースに当てはめて、前記発話者の年齢カテゴリを判定し、前記第5ステップにおいて、前記第3ステップにおいて判定した前記発話者の年齢カテゴリに基づいて、前記操作の許可又は不許可を判定する音声認識方法が提供される。
前記第2ステップにおいて推定した前記発話者の年齢が前記規定年齢未満である場合、前記第5ステップにおいて、前記第3ステップにおいて判定した前記発話者の年齢カテゴリに応じて許可される操作のリストにおいて前記操作が許可される場合、前記操作を許可し、前記リストにおいて前記操作が不許可とされる場合、前記操作を不許可としても良い。
【発明の効果】
【0021】
以上説明したように本発明によれば、発話者の年齢に応じて音声による操作入力を受け付けることが可能となる。
【図面の簡単な説明】
【0022】
【
図1】本発明の一実施形態に係るシステムの構成を示す模式図である。
【
図2】制御装置で行われる処理を示すフローチャートである。
【
図3】年齢カテゴリデータベースの例を示す模式図である。
【
図5】操作許可データベースに格納されたデータを示す模式図である。
【発明を実施するための形態】
【0023】
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
【0024】
図1は、本発明の一実施形態に係るシステム1000の構成を示す模式図である。このシステム1000は、自動車などの車両に搭載される。
図1に示すように、システム1000は、マイクロフォン100、カメラ200、ディスプレイ300、スピーカ310、CAN(Controller Area Network)400、制御装置(音声認識装置)500を備えている。
【0025】
マイクロフォン100、カメラ200、ディスプレイ300、スピーカ310は、車両の室内に配置されている。マイクロフォン100は、室内の音声、主に乗員の発話による音声を取得する。マイクロフォン100は、室内に複数設けられていても良い。カメラ200は、可視光カメラ、赤外線カメラ等から構成され、主に乗員の顔を撮像する。ディスプレイ300は、室内の乗員が視認できる位置に配置され、情報を表示することで乗員に対して情報を提示する。スピーカ310は、室内に配置され、乗員に対して音声により情報を提示する。
【0026】
制御装置500は、音声入力部510、話者特定部512、生物種判定部520、生物画像分類データベース522、例外処理部530、年齢推定部540、年齢カテゴリ判定部550、年齢制限設定部552、年齢カテゴリデータベース554、音声意図理解/操作判別部556、性別推定部558、音声認識用辞書559、操作許可判定部560、操作許可データベース562、車両余裕度算出部564、車両情報取得部566、誤発話判定部570、誤発話確認情報提示部572、操作実行部574を有して構成されている。
【0027】
例外処理部530は、個人認証部532、年齢判定例外判定部534、年齢判定例外データベース536を有している。なお、
図1に示す制御装置500の各構成要素は、回路(ハードウェア)、又はCPUなどの中央演算処理装置とこれを機能させるためのプログラム(ソフトウェア)から構成される。
【0028】
システム1000は、外部のサーバ600と通信可能とされている。通信方法として、例えばBluetooth(登録商標)、WiFi、4G等の方法を用いることができる。なお、通信方式は特に限定されるものではない。
【0029】
システム1000が備える生物画像分類データベース522、年齢カテゴリデータベース554、操作許可データベース562、年齢判定例外データベース536などのデータベースに蓄積されたデータは、外部のサーバ600と通信を行うことにより、サーバ600からダウンロードされたものであっても良い。
【0030】
また、これらのデータベースに蓄積されたデータは、サーバ600(クラウド)側で保持していても良い。その場合、システム1000は、データを使用する際にサーバ600にアクセスし、データを取得する。
【0031】
本実施形態では、以上のように構成されたシステム1000により、車両の乗員が車両の操作を行うために発話すると、発話に基づいて操作の内容を判別し、乗員が意図する操作を実現する。その際に、カメラ200やマイクロフォン100で取得した情報に基づいて発話者の年齢を推定し、発話者の年齢に応じて操作の許可または不許可(棄却)を行う。本実施形態では、このような処理を行うことで、年齢に応じた最適な操作を実現可能とする。
【0032】
図2は、制御装置500で行われる処理を示すフローチャートである。先ず、ステップS10では、年齢判定例外データベース536の情報を取得する。次のステップS12では、マイクロフォン100が取得した音声が音声入力部510に入力されたか否かを判定する。音声が音声入力部510に入力された場合は、ステップS14へ進む。ステップS14では、話者特定部512により発話者を特定し、個人認証部532により発話者の個人認証を行う。この際、話者特定部512は、複数のマイクロフォン100から得られる音声情報に基づき、入力された音声の音量が最も大きいマイクロフォン100に位置が近い人を発話者として特定する。また、話者特定部512は、乗員をカメラ200が撮像した画像に基づき、口が開いている人を発話者として特定することもできる。個人認証部532は、話者特定部512によって特定された発話者について個人認証を行う。
【0033】
個人認証は、例えば、指紋認証、虹彩認証、顔認証等の手法によって行われる。これらの認証方法は、公知の手法を適宜用いることができる。例えば、指紋認証については特許第2772281号に記載されている手法を、虹彩認証については特許第3853617号に記載されている手法を、顔認証については特開2002-183734号公報に記載されている手法を、適宜用いることができる。
【0034】
より好適には、個人認証は、乗員が車両に乗り込んだ際に行われる。この場合は、ステップS14では、話者特定部512によって特定された発話者について、乗車時に既に行われている個人認証の結果を適用することができる。
【0035】
また、個人認証部532により個人認証を行う前提として、生物種判定部520が、話者特定部512によって特定された発話者が人であるか、あるいは人以外の動物、ロボット等であるかを判定する。生物画像分類データベース522には、犬、猫、オウムなどペットとして飼われることの多い動物の画像情報、ロボットの画像情報が登録されている。生物種判定部520は、生物画像分類データベース522に登録された画像情報に基づいて、話者特定部512によって特定された発話者が人であるか、人以外であるかを判定する。生物種判定部520により、発話者が人ではないと判定された場合は、以降の処理を行わないようにすることができる。
【0036】
次のステップS15では、車両情報取得部566が、CAN400から車両情報を取得する。ここで、車両情報は、例えば車両速度、地図情報、車両周囲の混雑状況、車両周囲の視界、ステアリングホイールの操舵角、天候、ナビゲーション装置等の情報を含む。車両速度は、車速センサから求まる。車両周囲の混雑状況、車両周囲の視界は、カメラ200が車両の周囲を撮像して得られる撮像画像から取得できる。操舵角は、操舵角センサから求まる。天候は、車両が外部のサーバ等と通信して得られる天候に関する情報から求まる。なお、車両情報は、車両の運転に全般に関わる情報であり、これらの情報に限定されるものではない。
【0037】
次のステップS16では、ステップS14の個人認証の結果を受けて、例外処理部530による処理を行う。上述したように本実施形態では、発話者の年齢に応じて音声による操作の許可または棄却を行う。しかし、例えば車両の所有者が操作を行う場合など、年齢によらず無条件に音声による操作が許可される人に対しては、年齢推定の処理を行う必要がない。例外処理部530では、音声による操作が無条件に許可される特定の人に対しては、個人認証の結果に基づいて例外処理を行い、音声による操作を許可する。これにより、システム1000の処理を簡略化することができる。
【0038】
また、ステップS16では、年齢判定例外判定部534が、ステップS10で取得した年齢判定例外データベース536に発話者が登録されているか否かを判定する。年齢判定例外データベース536には、例外処理が適用される人の氏名、年齢などの情報と、個人認証に用いられる指紋、虹彩、顔等の個人認証情報とが紐付けられて保存されている。
【0039】
年齢判定例外判定部534は、個人認証の結果に基づき、発話者の指紋、虹彩、顔などの個人認証情報と年齢判定例外データベース536に登録されている個人認証情報が一致する場合は、発話者が年齢判定例外データベース536に登録されている人であると判定する。この場合、発話者の情報が年齢判定例外データベース536に登録されているため、発話者に例外処理を適用し、年齢推定部540による発話者の年齢推定は行われない。従って、ステップS16の後はステップS33へ進む。また、年齢判定例外データベース536に登録されている発話者の年齢に基づいて、ステップS26以降の処理に進むこともできる。
【0040】
一方、ステップS16で個人認証に失敗した場合、または発話者が年齢判定例外データベース536に登録されていない場合は、例外処理を適用せずに通常処理を行うため、ステップS18へ進む。ステップS18では、車両余裕度算出部564が、車両情報取得部566が取得した車両情報に基づいて車両余裕度を算出する。車両余裕度は、車両が運転されている状態での車両の余裕度を表すパラメータであり、例えば0~1.0の値に設定される。一例として、車両余裕度は、車両速度に応じて、車両速度が60km/h以上の場合は0.5、車両速度が80km/h以上の場合は0.3、車両速度が100km/h以上の場合は0、のように設定される。
【0041】
また、車両余裕度は、車両周囲の混雑状況に応じて、車両の周囲5m以内に他車が存在する場合は0.5、車両の周囲3m以内に他車が存在する場合は0.3、車両の周囲1.5m以内に他車が存在する場合は0、のように設定される。
【0042】
また、車両余裕度は、車両の周囲の視界(見通し)に応じて、カーブの前では0.3、車両が狭い路地を走行している場合は0.1、のように設定される。また、車両余裕度は、ステアリングホイールの操舵角に応じて、操舵角が10°以上の場合は0.7、操舵角が90°以上の場合は0、のように設定される。また、車両余裕度は、天候に応じて、天候が小雨の場合は0.8、豪雨の場合は0.1、吹雪の場合は0、のように設定される。
【0043】
車両余裕度は、上述した車両速度、混雑状況、視界、操舵角、天候に応じた値を乗算して算出することもできる。車両余裕度の値が小さいほど車両の運転状態に余裕がなく、外乱が入ると運転に支障が生じる場合がある。
【0044】
ステップS18の後はステップS20へ進む。ステップS20では、年齢推定部540が発話者の年齢を推定する。年齢推定部540は、発話者の顔の特徴量、声の特徴量、呼吸の特徴量、行動分析または嗜好分析の結果等に基づいて、発話者の年齢を推定する。なお、顔の特徴量に基づく年定推定は、例えば特許第5827225号公報に記載されている方法を適用することができる。また、呼吸の特徴量に基づく年齢推定は、例えば特許第5637583号公報に記載されている方法を適用することができる。
【0045】
ステップS20の後はステップS22へ進む。ステップS22では、発話者の年齢が規定年齢以上であるか否かを判定する。発話者の年齢が規定年齢以上の場合は、発話者が十分に成熟しており、音声による操作に制限をかける必要はない。従って、発話者の年齢が規定年齢以上の場合はステップS33へ進み、年齢による操作の制限をかけることなく、次の処理に進む。ステップS22の規定年齢は、年齢制限設定部552により設定される。例えば、規定年齢が50歳に設定されると、発話者が50歳以上の場合は年齢による操作の制限は行われない。
【0046】
一方、ステップS22で発話者の年齢が規定年齢未満の場合は、ステップS26へ進む。ステップS26では、ステップS20における年齢の推定結果に基づいて、年齢カテゴリ判定部550が、年齢カテゴリデータベース554を参照して、年齢のカテゴリを判定する。
図3は、年齢カテゴリデータベース554の例を示す模式図である。年齢カテゴリ判定部550は、
図3に示す年齢カテゴリデータベース554を参照して、例えば年齢の推定結果が23歳~30歳の場合は、年齢カテゴリを“9”とする。なお。
図3に示す年齢カテゴリの区分は一例であり、年齢は任意のカテゴリに分類することができる。
【0047】
ステップS26の後はステップS28へ進む。ステップS28では、操作許可判定部560が、操作許可データベース562に保存されているデータを取得する。次のステップS30では、音声意図理解/操作判別部556が、音声入力部510に入力された音声の意図を理解し、音声が意図する操作の内容を判別する。
【0048】
音声意図理解/操作判別部556により音声の意図を理解する際には、音声認識用辞書(音響辞書)559が用いられる。音声認識用辞書(音響辞書)559には、単語のデータ(音声データを含む)と、その単語の意味が対応付けて保持されている。音声認識用辞書559は、人の年齢層に応じて作成されている。例えば、20代用の辞書は20代の発話データに機械学習を行って作成され、40代用の辞書は40代の発話データに機械学習を行って作成される。年齢推定部540により発話者が20代であると推定された場合は、20代用の辞書を使用して発話者の音声の意図を理解する。
【0049】
また、性別推定部558により発話者の性別を推定し、発話者が男性であるか女性であるかに応じて、音声認識用辞書559を用いる際のパラメータを変更する。例えば、上述した20代用の辞書として、男性用と女性用の辞書が設けられている。発話者が20代であると推定された場合に、更に発話者が男性であるか女性であるかに応じて、音声を理解するために用いる辞書が変更される。これにより、音声意図を理解する際に、性別の違いを考慮して音声意図を理解することができるため、より正確に音声意図を理解することができ、音声意図に基づいて精度良く操作を判別することができる。性別推定部558による性別の判定は、カメラ200で撮像した顔画像の特徴量、マイクロフォン100で取得した声の特徴量、カメラ200で撮像した撮像画像から推定した乗員の筋肉量、乗員の行動または嗜好の分析結果、等に基づいて行われる。
【0050】
図4は、音声認識用辞書559の例を示す模式図である。
図4に示すように、自動車を表す「車」を認識する際に、年齢に応じて発話者が発音する「車」と「ブーブー」の重み係数が変更される。なお、「ブーブー」は「車」を表す幼児語であり、幼児の時期のみ使われる特別な言い回しである。重み係数は、音声を単語に変換した際の当てはめ係数であり、重み係数が大きい単語は音声意図理解の際により採用され易くなる。より詳細には、年齢層別に通常会話時の発話文データを収集し、その際の単語の出現頻度からあらゆる単語の重み係数を決定することもできる。その場合は外部のサーバ600と通信し、流行等も加味した辞書にアップデートすることもできる。
【0051】
音声意図理解/操作判別部556による音声意図の理解は、例えば以下の1.~6.の処理により行われる。
1.入力された音声の波形を音素に切り出す
2.音素の特徴量を抽出する
3.音素の特徴量を音素モデル(音響辞書)と比較し、音素を確定する
4.音素の集合から文字の集合を生成する
5.文字の集合を単語辞書と言語モデルに当てはめ、文章を生成する
6.周囲情報を踏まえて文字の意図を推定する
音声認識により得られた文章を音声認識用辞書(音響辞書)559に当てはめることで、音声による文章の意図が理解される。以上の手法では、例えば特公昭60-5960号公報に記載されている手法など、公知の手法を適宜用いることができる。
【0052】
そして、音声意図理解/操作判別部556は、上述の手法により得られた音声の意図に基づいて、操作の内容を判別する。音声意図理解/操作判別部556は、例えば音声の意図と操作の内容を対応付けたデータを参照することで、操作の内容を判別できる。次のステップS32では、操作許可判定部560が、操作許可データベース562の内容を参照しながら、音声意図理解/操作判別部556が判別した操作が操作許可データベース562に含まれているか否かを判定する。
【0053】
図5は、操作許可データベース562に格納されたデータを示す模式図である。
図5に示すように、操作許可データ562には、年齢カテゴリと車両余裕度に応じて、許可される操作のリスト(操作許可リスト563)が格納されている。
図5では、許可される操作に○印を付け、棄却される操作に×印を付けている。
図5に示すように、例えば年齢カテゴリが11歳~17歳、車両余裕度が0.3の場合、エアコンの温度設定、オーディオ操作、窓の開閉の操作指示は許可されるが、ナビゲーションシステムの目的地操作、車両発進、開錠、車線変更、右左折、前方車追い越し、駐車、前方車追従の操作は棄却される。このように、年齢と車両余裕度に応じて操作の許可、不許可を規定することで、操作を行う人の年齢と、現在の車両の余裕度に応じて最適な操作のみを許可することができる。例えば、年齢的に適切でない操作については、不許可とされる。また、操作を実行する際に現在の車両の余裕度が不足している場合は、操作が不許可とされる。
【0054】
ステップS32において、ステップS26で決定した年齢カテゴリとステップS18で算出した車両余裕度に対応する操作許可リストに、音声意図理解/操作判別部556が判別した操作が含まれている場合は、ステップS34へ進む。一方、音声意図理解/操作判別部556が判別した操作が、年齢カテゴリと車両余裕度に対応する操作許可リストに含まれていない場合は、ステップS12へ戻る。なお、操作許可判定部560は、年齢カテゴリと車両余裕度のいずれか一方のみに基づいて操作の許可、または不許可を判定しても良い。
【0055】
また、上述したように、ステップS16で発話者が年齢判定例外データベース536に登録されている場合は、ステップS33へ進む。この場合は、年齢推定部540による発話者の年齢推定、操作許可データベース562に基づく操作の許可、不許可の判定を行うことなく、ステップS33において、音声意図理解/操作判別部556が、音声入力部510に入力された音声の意味を理解し、音声が意図する操作の内容を判別する。ステップS33の処理は、ステップS30と同様に行われる。ステップS33の後はステップS34へ進む。
【0056】
ステップS34では、音声による操作を受け付ける処理を行う。次のステップS36では、誤発話判定部570が、ステップS34で受け付けた音声による操作について、誤発話の可能性があるか否かを判定する。誤発話の可能性があるか否かの判定は、車両情報に基づいて行われる。例えば、「店舗駐車場からの発進時に前方が店舗であるにも関わらず前進を指示した」、「大雨が降っているにも関わらず窓を開くよう指示した」、「休日にも関わらず勤務先を目的地に設定した」、などの操作指示を行った場合、誤発話の可能性があると判定する。
【0057】
そして、誤発話の可能性がある場合はステップS38へ進む。ステップS38では、誤発話確認情報提示部572が、誤発話であるか否かを確認する情報をディスプレイ300に提示する。例えば、ステップS38では、誤発話であるか否かを確認する情報として、「音声による操作指示が確認できませんでした。再度操作指示を行ってください。」などの情報を提示する。
【0058】
また、ステップS36で誤発話の可能性がない場合はステップS40へ進む。ステップS40では、操作実行部574が、音声入力による操作指示に従った操作を実現する。ここで実現される操作として、例えば、各種スイッチの切り換え、車両を駆動、制動、または操舵等するための操作、電圧の切り換え、周波数の切り換え、車両の窓の開閉、カーナビゲーションシステムの目的地設定、等が挙げられる。
【0059】
以上説明したように本実施形態によれば、発話者の年齢に応じて操作の許可、不許可を判定することができるため、年齢に応じて操作の受付を最適に行うことが可能となる。また、年齢と車両余裕度に基づいて操作の許可、不許可を判定することができるため、年齢と車両余裕度に応じた操作の受付を行うことが可能となる。
【0060】
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
【符号の説明】
【0061】
500 制御装置
510 音声入力部
512 話者特定部
520 生物種判定部
532 個人認証部
534 年齢判定例外判定部
536 年齢判定例外データベース
540 年齢推定部
550 年齢カテゴリ判定部
554 年齢カテゴリデータベース
556 操作意図理解/操作判別部
559 音声認識用辞書
560 操作許可判定部
562 操作許可データベース
564 車両余裕度算出部
566 車両情報取得部
570 誤発話判定部
574 操作実行部
600 サーバ