(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024130476
(43)【公開日】2024-09-30
(54)【発明の名称】情報処理システム、情報処理装置、情報処理システムの制御方法、及びプログラム
(51)【国際特許分類】
G10L 15/20 20060101AFI20240920BHJP
G10L 15/28 20130101ALI20240920BHJP
G10L 17/00 20130101ALI20240920BHJP
G10L 15/00 20130101ALI20240920BHJP
G10L 15/10 20060101ALI20240920BHJP
【FI】
G10L15/20 370F
G10L15/28 230K
G10L17/00 200D
G10L15/00 200J
G10L15/10 200W
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2023040236
(22)【出願日】2023-03-15
(71)【出願人】
【識別番号】000005016
【氏名又は名称】パイオニア株式会社
(74)【代理人】
【識別番号】100110928
【弁理士】
【氏名又は名称】速水 進治
(74)【代理人】
【識別番号】100127236
【弁理士】
【氏名又は名称】天城 聡
(72)【発明者】
【氏名】澤藤 圭吾
(72)【発明者】
【氏名】河内 洋人
(57)【要約】
【課題】 音声認識精度を効果的に向上させることが一例として挙げられる。
【解決手段】
情報処理システム100は、移動体内にある通信端末2を少なくとも用いる。情報処理システム100は、所定のキーワードを検知すると音声認識システムとして機能する。ユーザ音声取得部10は、移動体内の搭乗者が、所定のキーワードを発話するたびに、当該搭乗者におけるキーワード音情報を用いて、複数のユーザ音声情報の中から、発話した当該搭乗者に対応するユーザ音声情報を記憶部4から取得する。重畳部30は、ユーザ音声取得部が新たに取得した当該ユーザ音声情報とノイズ情報とを重畳して重畳音情報を新たに生成する。フィルタ設定部40は、重畳部30により新たに生成された当該重畳音情報を用いて、音源分離フィルタを更新する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
移動体内にある通信端末を少なくとも用いる情報処理システムであって、
前記情報処理システムは、所定のキーワードを検知すると音声認識システムとして機能するように構成されており、
前記所定のキーワードの音に関するキーワード音情報を用いて、予め記憶部に記憶された搭乗者の音声に関するユーザ音声情報の中から、前記移動体内で前記所定のキーワードを発話した搭乗者に対応する前記ユーザ音声情報を特定しつつ、特定した当該ユーザ音声情報を前記記憶部から取得するユーザ音声取得部と、
前記移動体内のノイズに関するノイズ情報を取得するノイズ取得部と、
前記ユーザ音声情報と前記ノイズ情報とを重畳して重畳音情報を生成する重畳部と、
前記重畳音情報を用いて、音源分離フィルタを設定するフィルタ設定部と、
前記移動体内の音に関する移動体内音情報を取得する移動体内音取得部と、
前記音源分離フィルタを用いて、前記移動体内音情報を分離する音源分離部と、を備え、
前記ユーザ音声取得部は、前記移動体内の搭乗者が、前記所定のキーワードを発話するたびに、当該搭乗者における前記キーワード音情報を用いて、複数の前記ユーザ音声情報の中から、発話した当該搭乗者に対応する前記ユーザ音声情報を前記記憶部から取得し、
前記重畳部は、前記ユーザ音声取得部が新たに取得した当該ユーザ音声情報と前記ノイズ情報とを重畳して重畳音情報を新たに生成し、
前記フィルタ設定部は、前記重畳部により新たに生成された当該重畳音情報を用いて、前記音源分離フィルタを更新する、情報処理システム。
【請求項2】
請求項1に記載の情報処理システムにおいて、
前記所定のキーワードを検知した後、所定のコマンドの入力を受付けると、当該コマンドに対応する処理を実行させる制御部と、
前記所定のキーワードの後に前記搭乗者が発話する前記所定のコマンドの音に関するコマンド音情報を記憶させる記憶処理部と、をさらに備え、
前記フィルタ設定部は、前記制御部が検知した前記所定のキーワードの音に関するキーワード音情報を用いて、前記音源分離フィルタを設定し、
前記音源分離部は、当該音源分離フィルタを用いて、前記制御部が検知した前記所定のキーワードの後に前記搭乗者が発話した所定のコマンドの音に関する前記コマンド音情報を分離する、情報処理システム。
【請求項3】
請求項2に記載の情報処理システムにおいて、
前記制御部が前記所定のキーワードを検知した後、前記フィルタ設定部が当該所定のキーワードの音に関するキーワード音情報を用いて前記音源分離フィルタを更新する時間が所定時間以上かかる場合、前記音源分離部は、前回使用した前記音源分離フィルタを用いて、前記制御部が検知した前記所定のキーワードの後に前記搭乗者が発話した所定のコマンドの音に関する前記コマンド音情報を分離する、情報処理システム。
【請求項4】
情報処理装置であって、
前記情報処理装置は、所定のキーワードを検知すると音声認識装置の少なくとも一部として機能するように構成されており、
前記所定のキーワードの音に関するキーワード音情報を用いて、予め記憶部に記憶された搭乗者の音声に関するユーザ音声情報の中から、移動体内で前記所定のキーワードを発話した搭乗者に対応する前記ユーザ音声情報を特定しつつ、特定した当該ユーザ音声情報を前記記憶部から取得するユーザ音声取得部と、
前記移動体内のノイズに関するノイズ情報を取得するノイズ取得部と、
前記ユーザ音声情報と前記ノイズ情報とを重畳して重畳音情報を生成する重畳部と、
前記重畳音情報を用いて、音源分離フィルタを設定するフィルタ設定部と、
前記移動体内の音に関する移動体内音情報を取得する移動体内音取得部と、
前記音源分離フィルタを用いて、前記移動体内音情報を分離する音源分離部と、を備え、
前記ユーザ音声取得部は、前記移動体内の搭乗者が、前記所定のキーワードを発話するたびに、当該搭乗者における前記キーワード音情報を用いて、複数の前記ユーザ音声情報の中から、発話した当該搭乗者に対応する前記ユーザ音声情報を前記記憶部から取得し、
前記重畳部は、前記ユーザ音声取得部が新たに取得した当該ユーザ音声情報と前記ノイズ情報とを重畳して重畳音情報を新たに生成し、
前記フィルタ設定部は、前記重畳部により新たに生成された当該重畳音情報を用いて、前記音源分離フィルタを更新する、情報処理装置。
【請求項5】
移動体内にある通信端末を少なくとも用いる情報処理システムの制御方法であって、
前記情報処理システムは、所定のキーワードを検知すると音声認識システムとして機能するように構成されており、
前記情報処理システムを実現する1以上のコンピュータが、
前記所定のキーワードの音に関するキーワード音情報を用いて、予め記憶部に記憶された搭乗者の音声に関するユーザ音声情報の中から、前記移動体内で前記所定のキーワードを発話した搭乗者に対応する前記ユーザ音声情報を特定しつつ、特定した当該ユーザ音声情報を前記記憶部から取得し、
前記移動体内のノイズに関するノイズ情報を取得し、
前記ユーザ音声情報と前記ノイズ情報とを重畳して重畳音情報を生成する重畳部と、
前記重畳音情報を用いて、音源分離フィルタを設定し、
前記移動体内の音に関する移動体内音情報を取得し、
前記音源分離フィルタを用いて、前記移動体内音情報を分離し、
前記移動体内の搭乗者が、前記所定のキーワードを発話するたびに、当該搭乗者における前記キーワード音情報を用いて、複数の前記ユーザ音声情報の中から、発話した当該搭乗者に対応する前記ユーザ音声情報を前記記憶部から取得し、
新たに取得した当該ユーザ音声情報と前記ノイズ情報とを重畳して重畳音情報を新たに生成し、
新たに生成された当該重畳音情報を用いて、前記音源分離フィルタを更新する、情報処理システムの制御方法。
【請求項6】
移動体内にある通信端末を少なくとも用いる情報処理システムを機能させるためのプログラムであって、
前記情報処理システムは、所定のキーワードを検知すると音声認識システムとして機能するように構成されており、
前記情報処理システムを実現する1以上のコンピュータに、
前記所定のキーワードの音に関するキーワード音情報を用いて、予め記憶部に記憶された搭乗者の音声に関するユーザ音声情報の中から、前記移動体内で前記所定のキーワードを発話した搭乗者に対応する前記ユーザ音声情報を特定しつつ、特定した当該ユーザ音声情報を前記記憶部から取得する手順、
前記移動体内のノイズに関するノイズ情報を取得する手順、
前記ユーザ音声情報と前記ノイズ情報とを重畳して重畳音情報を生成する重畳部と、
前記重畳音情報を用いて、音源分離フィルタを設定する手順、
前記移動体内の音に関する移動体内音情報を取得する手順、
前記音源分離フィルタを用いて、前記移動体内音情報を分離する手順、
前記移動体内の搭乗者が、前記所定のキーワードを発話するたびに、当該搭乗者における前記キーワード音情報を用いて、複数の前記ユーザ音声情報の中から、発話した当該搭乗者に対応する前記ユーザ音声情報を前記記憶部から取得する手順、
新たに取得した当該ユーザ音声情報と前記ノイズ情報とを重畳して重畳音情報を新たに生成する手順、
新たに生成された当該重畳音情報を用いて、前記音源分離フィルタを更新する手順、を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理システム、情報処理装置、情報処理システムの制御方法、及びプログラムに関する。
【背景技術】
【0002】
特許文献1には、車両走行中における入力音声認識率を飛躍的に向上させることができる車両用音声認識装置が開示されている。
【0003】
特許文献2には、予め多数のノイズリダクション特性のそれぞれに応じた係数を記憶しておき、所定のノイズリダクション特性をノイズリダクション部に設定し、音声検出手段により検出された音声信号より走行ノイズ信号を除去して音声認識装置に入力するノイズリダクション装置における特性設定方法が開示されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開平7-146698号公報
【特許文献2】特開2002-221986号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
車両内の音にはエンジン騒音などの雑音が入っているため、車両内の音はSN比が小さい(雑音の占める割合が大きい)。そのため、搭乗者の音声を適切に音声認識するには、音声認識の対象となる搭乗者の音声と、雑音とを分離して処理する必要がある。上記特許文献2に記載されている技術は、予め記憶された騒音データと、ユーザの音声データと合成し、合成音を用いてフィルタを設定している。
【0006】
車両内では複数の搭乗者が各々発話したり、搭乗者が入れ替わったりするため、適切に音声認識を行うためには、発話する搭乗者ごとにフィルタを設定する必要がある。
【0007】
本発明が解決しようとする課題としては、音声認識精度を効果的に向上させることが一例として挙げられる。
【課題を解決するための手段】
【0008】
請求項1に記載の発明は、
移動体内にある通信端末を少なくとも用いる情報処理システムであって、
前記情報処理システムは、所定のキーワードを検知すると音声認識システムとして機能するように構成されており、
前記所定のキーワードの音に関するキーワード音情報を用いて、予め記憶部に記憶された搭乗者の音声に関するユーザ音声情報の中から、前記移動体内で前記所定のキーワードを発話した搭乗者に対応する前記ユーザ音声情報を特定しつつ、特定した当該ユーザ音声情報を前記記憶部から取得するユーザ音声取得部と、
前記移動体内のノイズに関するノイズ情報を取得するノイズ取得部と、
前記ユーザ音声情報と前記ノイズ情報とを重畳して重畳音情報を生成する重畳部と、
前記重畳音情報を用いて、音源分離フィルタを設定するフィルタ設定部と、
前記移動体内の音に関する移動体内音情報を取得する移動体内音取得部と、
前記音源分離フィルタを用いて、前記移動体内音情報を分離する音源分離部と、を備え、
前記ユーザ音声取得部は、前記移動体内の搭乗者が、前記所定のキーワードを発話するたびに、当該搭乗者における前記キーワード音情報を用いて、複数の前記ユーザ音声情報の中から、発話した当該搭乗者に対応する前記ユーザ音声情報を前記記憶部から取得し、
前記重畳部は、前記ユーザ音声取得部が新たに取得した当該ユーザ音声情報と前記ノイズ情報とを重畳して重畳音情報を新たに生成し、
前記フィルタ設定部は、前記重畳部により新たに生成された当該重畳音情報を用いて、前記音源分離フィルタを更新する、情報処理システムである。
【0009】
請求項4に記載の発明は、
情報処理装置であって、
前記情報処理装置は、所定のキーワードを検知すると音声認識装置の少なくとも一部として機能するように構成されており、
前記所定のキーワードの音に関するキーワード音情報を用いて、予め記憶部に記憶された搭乗者の音声に関するユーザ音声情報の中から、移動体内で前記所定のキーワードを発話した搭乗者に対応する前記ユーザ音声情報を特定しつつ、特定した当該ユーザ音声情報を前記記憶部から取得するユーザ音声取得部と、
前記移動体内のノイズに関するノイズ情報を取得するノイズ取得部と、
前記ユーザ音声情報と前記ノイズ情報とを重畳して重畳音情報を生成する重畳部と、
前記重畳音情報を用いて、音源分離フィルタを設定するフィルタ設定部と、
前記移動体内の音に関する移動体内音情報を取得する移動体内音取得部と、
前記音源分離フィルタを用いて、前記移動体内音情報を分離する音源分離部と、を備え、
前記ユーザ音声取得部は、前記移動体内の搭乗者が、前記所定のキーワードを発話するたびに、当該搭乗者における前記キーワード音情報を用いて、複数の前記ユーザ音声情報の中から、発話した当該搭乗者に対応する前記ユーザ音声情報を前記記憶部から取得し、
前記重畳部は、前記ユーザ音声取得部が新たに取得した当該ユーザ音声情報と前記ノイズ情報とを重畳して重畳音情報を新たに生成し、
前記フィルタ設定部は、前記重畳部により新たに生成された当該重畳音情報を用いて、前記音源分離フィルタを更新する、情報処理装置である。
【0010】
請求項5に記載の発明は、
移動体内にある通信端末を少なくとも用いる情報処理システムの制御方法であって、
前記情報処理システムは、所定のキーワードを検知すると音声認識システムとして機能するように構成されており、
前記情報処理システムを実現する1以上のコンピュータが、
前記所定のキーワードの音に関するキーワード音情報を用いて、予め記憶部に記憶された搭乗者の音声に関するユーザ音声情報の中から、前記移動体内で前記所定のキーワードを発話した搭乗者に対応する前記ユーザ音声情報を特定しつつ、特定した当該ユーザ音声情報を前記記憶部から取得し、
前記移動体内のノイズに関するノイズ情報を取得し、
前記ユーザ音声情報と前記ノイズ情報とを重畳して重畳音情報を生成する重畳部と、
前記重畳音情報を用いて、音源分離フィルタを設定し、
前記移動体内の音に関する移動体内音情報を取得し、
前記音源分離フィルタを用いて、前記移動体内音情報を分離し、
前記移動体内の搭乗者が、前記所定のキーワードを発話するたびに、当該搭乗者における前記キーワード音情報を用いて、複数の前記ユーザ音声情報の中から、発話した当該搭乗者に対応する前記ユーザ音声情報を前記記憶部から取得し、
新たに取得した当該ユーザ音声情報と前記ノイズ情報とを重畳して重畳音情報を新たに生成し、
新たに生成された当該重畳音情報を用いて、前記音源分離フィルタを更新する、情報処理システムの制御方法である。
【0011】
請求項6に記載の発明は、
移動体内にある通信端末を少なくとも用いる情報処理システムを機能させるためのプログラムであって、
前記情報処理システムは、所定のキーワードを検知すると音声認識システムとして機能するように構成されており、
前記情報処理システムを実現する1以上のコンピュータに、
前記所定のキーワードの音に関するキーワード音情報を用いて、予め記憶部に記憶された搭乗者の音声に関するユーザ音声情報の中から、前記移動体内で前記所定のキーワードを発話した搭乗者に対応する前記ユーザ音声情報を特定しつつ、特定した当該ユーザ音声情報を前記記憶部から取得する手順、
前記移動体内のノイズに関するノイズ情報を取得する手順、
前記ユーザ音声情報と前記ノイズ情報とを重畳して重畳音情報を生成する重畳部と、
前記重畳音情報を用いて、音源分離フィルタを設定する手順、
前記移動体内の音に関する移動体内音情報を取得する手順、
前記音源分離フィルタを用いて、前記移動体内音情報を分離する手順、
前記移動体内の搭乗者が、前記所定のキーワードを発話するたびに、当該搭乗者における前記キーワード音情報を用いて、複数の前記ユーザ音声情報の中から、発話した当該搭乗者に対応する前記ユーザ音声情報を前記記憶部から取得する手順、
新たに取得した当該ユーザ音声情報と前記ノイズ情報とを重畳して重畳音情報を新たに生成する手順、
新たに生成された当該重畳音情報を用いて、前記音源分離フィルタを更新する手順、を実行させるためのプログラムである。
【図面の簡単な説明】
【0012】
【
図1】第1実施形態に係る情報処理システムの機能を示すブロック図である。
【
図2】情報処理装置のハードウエア構成例を示す図である。
【
図3】フィルタ設定部が音源分離フィルタを設定するまでのフロー図である。
【
図4】第1実施形態に係るステップS100の詳細を表すフロー図である。
【
図5】第1実施形態に係るステップS200の詳細を表すフロー図である。
【
図6】第2実施形態に係る情報処理装置の機能を示すブロック図である。
【
図7】第2実施形態に係るステップS100の詳細を表すフロー図である。
【
図8】第3実施形態に係るステップS200の詳細を表すフロー図である。
【
図9】フィルタ設定部が第1基準を満たすかを判断する方法の一例を説明するための概略図である。
【
図10】第4実施形態に係る情報処理装置の機能を示すブロック図である。
【
図11】第5実施形態に係る情報処理装置の機能を示すブロック図である。
【発明を実施するための形態】
【0013】
以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。
【0014】
なお、以下に示す説明において、各装置の各構成要素は、ハードウエア単位の構成ではなく、機能単位のブロックを示している。各装置の各構成要素は、任意のコンピュータのCPU、メモリ、メモリにロードされたプログラム、そのプログラムを格納するハードディスクなどの記憶メディア、ネットワーク接続用インタフェースを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置には様々な変形例がある。
【0015】
<第1実施形態>
図1は、第1実施形態に係る情報処理システム100の機能を示すブロック図である。
図1を用いて、第1実施形態に係る情報処理システム100について説明する。情報処理システム100は、移動体内にある通信端末2を少なくとも用いる。第1実施形態において、情報処理システム100は、情報処理装置1と通信端末2とを用いる。
【0016】
情報処理システム100は、所定のキーワードを検知すると音声認識システムとして機能するように構成されている。所定のキーワードは、任意に設定されていてもよく、予め記憶部4に記憶されている。情報処理システム100は、所定のキーワードを検知した後、所定のコマンドの入力を受付けると、当該コマンドに対応する処理を実行させる。
【0017】
例えば、所定のキーワードが「yyy」として、「最寄りのコンビニを検索する」という所定のコマンドを入力する場合について説明する。この場合、搭乗者が「yyy、最寄りのコンビニ探して」と発話したとき、情報処理システム100は、所定のキーワードが「yyy」を検知し、音声認識システムとして機能し、最寄りのコンビニを検索し、「500m先にコンビニがあります」のように、搭乗者に案内を出す。
【0018】
(情報処理装置1)
第1実施形態において、情報処理装置1は移動体の外に設けられている。情報処理装置1は、いわゆるクラウドサーバであってもよい。第1実施形態において、移動体は車両3である。情報処理装置1は、所定のキーワードを検知すると音声認識装置の少なくとも一部として機能するように構成されている。
【0019】
情報処理装置1は、通信ネットワーク101を介して、通信端末2(後述する)と通信可能な構成となっている。通信ネットワーク101は例えば、4G又は5G回線での通信を含む。情報処理装置1は、通信ネットワーク101を構成するための車外通信部(図示しない)を含んで構成されている。
【0020】
(通信端末2)
通信端末2は、車両3の内部にある。第1実施形態において、通信端末2は、車両3に搭載されている。通信端末2は、車両3の外から車両3の中に持ち込まれてもよい。通信端末2は、通信ネットワーク101を介して、情報処理装置1と通信可能な構成となっている。通信端末2は、通信ネットワーク101を構成するための車外通信部(図示しない)を含んで構成されている。
【0021】
第1実施形態において、通信端末2は、音声出力部2a、位置センサ部2b、撮像部2c、及び音声入力部2dを含んでいる。図示されていないが、通信端末2は、ディスプレイを含んでいてもよい。
【0022】
第1実施形態において、音声出力部2aは、スピーカー(図示しない)を含んでいる。第1実施形態において、音声出力部2aは、スピーカーを介して機械音声及び効果音の少なくとも一方を出力する。
【0023】
位置センサ部2bは、移動体の位置情報を、例えばGNSS(Global Navigation Satellite System)により取得する。
【0024】
撮像部2cは、インカメラとアウトカメラを有する(図示しない)。インカメラは、車内に向いており、運転席が撮影範囲に含まれている。インカメラは、少なくともドライバが映るように、車両3内を撮影する。アウトカメラは、車両外に向いている。アウトカメラは、車両外の様子を撮影する。
【0025】
第1実施形態において、音声入力部2dは、マイク(図示しない)を含んでいる。車両3内の搭乗者(ドライバ、及び同乗者)が発話した音声は、マイクを介して音声入力部2dに入力される。
【0026】
(ユーザ音声取得部10)
第1実施形態に係る情報処理装置1は、ユーザ音声取得部10とノイズ取得部20と重畳部30とフィルタ設定部40と移動体内音取得部50と音源分離部60とを備えている。ユーザ音声取得部10は、記憶部4から、ユーザ音声情報を取得する。ユーザ音声情報は、搭乗者(ドライバ、及び同乗者)の音声に関する情報である。ユーザ音声情報は、記憶部4に予め記憶されている。
【0027】
ユーザ音声情報は、搭乗者の音声の音圧、音量、及び周波数に関する情報の少なくともいずれか1つを含んでいる。ユーザ音声情報は、音声波形のデータを含んでいてもよい。ユーザ音声情報は、例えば、音声波形データから変換されたテキスト情報を含んでいてもよい。
【0028】
ユーザ音声取得部10は、記憶部4に記憶にされた複数のユーザ音声情報の中から、車両3内の搭乗者に対応するユーザ音声情報を特定しつつ、特定した当該ユーザ音声情報を記憶部4から取得する。例えば、搭乗者(ドライバ)が1人の場合、ユーザ音声取得部10は、撮像部2cにより撮像されて生成されたドライバの画像データを用いてドライバを認識し、当該ドライバに対応した(紐づいた)ユーザ音声情報を記憶部4から特定し、当該ユーザ音声情報を記憶部4から取得してもよい。
【0029】
第1実施形態において、ユーザ音声取得部10は、所定のキーワードの音に関するキーワード音情報を用いて、車両3内で発話した搭乗者に対応するユーザ音声情報を特定する。キーワード音情報は、所定のキーワードの音の音圧、音量、及び周波数に関する情報の少なくともいずれか1つを含んでいる。キーワード音情報は、音声波形のデータを含んでいてもよい。キーワード音情報は、例えば、音声波形データから変換されたテキスト情報を含んでいてもよい。
【0030】
ユーザ音声取得部10がキーワード音情報を用いて、車両3内で発話した搭乗者に対応するユーザ音声情報を特定する方法について具体的に説明する。例えば、あるドライバUのユーザ音声情報が予め記憶部4に記憶されている場合、ドライバUが、車両3内で所定のキーワードを発話したとする。そのとき、ユーザ音声取得部10は、ドライバUが発話した当該所定のキーワードの音に関するキーワード音情報(音声波形、音圧、音量、周波数、及び当該キーワードのテキスト情報など)を解析する。そして、ユーザ音声取得部10は、その解析結果を用いて、予め記憶部4に記憶されたドライバUのユーザ音声情報を特定する。
【0031】
なお、第1実施形態において、ユーザ音声取得部10は、情報処理システム100が起動した後、最初に所定のキーワードを発話した搭乗者に対応するユーザ音声情報を特定してもよい。
【0032】
(ノイズ取得部20)
ノイズ取得部20は、音声入力部2d(マイク)を介して、ノイズ情報を取得する。ノイズ取得部20は、車両3で走行中にリアルタイムでノイズ情報を取得する。ノイズ情報は、車両3のノイズ(騒音、雑音)に関する情報である。ノイズ情報は、例えば、エンジンの作動音、ワイパーの作動音、エアコンの風、窓の開閉音、車両3の走行音、車両3の外の環境に起因する音(工事現場での騒音など)、及びその他雑音に関する情報を含んでいる。第1実施形態において、ノイズ情報は、音声認識の対象とならない搭乗者の音声情報(搭乗者同士の会話、規定のキーワード音に該当しない発話など)を含んでいる。
【0033】
(重畳部30)
重畳部30は、ユーザ音声取得部10が記憶部4から取得したユーザ音声情報と、車両3の走行中に取得したノイズ情報とを重畳して重畳音情報を生成する。重畳音情報は、ユーザ音声情報の搭乗者の音声に係る信号と、ノイズ情報のノイズ音に係る信号とを重ね合わせた信号に関する情報である。
【0034】
(フィルタ設定部40)
フィルタ設定部40は、重畳音情報を用いて、音源分離フィルタを設定する。音源分離フィルタは、音源成分から、音声認識に不要な雑音成分(車両3内の騒音、及び搭乗者の会話など)を除去するためのものである。第1実施形態において、フィルタ設定部40は、重畳音情報を用いて、音源分離フィルタを生成するための所定のパラメータを計算し、当該パラメータを適用した音源分離フィルタを設定する。
【0035】
(移動体内音取得部50)
移動体内音取得部50は、音声入力部2d(マイク)を介して、移動体内音情報を取得する。移動体内音情報は、車両3内の音に関する情報である。車両3内の音は、車両3内のノイズ(騒音、及び音声認識の対象とならない搭乗者同士の会話)、及び音声認識に用いられる搭乗者の発話音声を少なくとも含む。
【0036】
(音源分離部60)
音源分離部60は、音源分離フィルタを用いて、移動体内音情報を分離する。具体的には、音源分離部60は、車両3内のノイズ情報を含む移動体内音情報から、音声認識に用いる、搭乗者の発話音声を分離する。このようにして、音源分離部60は、移動体内音情報の中から音声認識に用いる搭乗者の発話音声情報を抽出する。
【0037】
(ハードウエア構成例)
図2は、情報処理装置1のハードウエア構成例を示す図である。情報処理装置1は、バス1010、プロセッサ1020、メモリ1030、ストレージデバイス1040、入出力インタフェース1050、及びネットワークインタフェース1060を有する。
【0038】
バス1010は、プロセッサ1020、メモリ1030、ストレージデバイス1040、入出力インタフェース1050、及びネットワークインタフェース1060が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ1020などを互いに接続する方法は、バス接続に限定されない。
【0039】
プロセッサ1020は、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)などで実現されるプロセッサである。
【0040】
メモリ1030は、RAM(Random Access Memory)などで実現される主記憶装置である。
【0041】
ストレージデバイス1040は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、メモリカードなどのリムーバブルメディア、又はROM(Read Only Memory)などで実現される補助記憶装置であり、記録媒体を有している。ストレージデバイス1040の記録媒体は情報処理装置1の各機能(例えば、ユーザ音声取得部10、ノイズ取得部20、重畳部30、フィルタ設定部40、移動体内音取得部50、及び音源分離部60)を実現するプログラムモジュールを記憶している。プロセッサ1020がこれら各プログラムモジュールをメモリ1030上に読み込んで実行することで、そのプログラムモジュールに対応する各機能が実現される。また、ストレージデバイス1040は情報処理装置1に含まれた記憶部4として機能してもよい。
【0042】
入出力インタフェース1050は、情報処理装置1と各種入出力機器とを接続するためのインタフェースである。
【0043】
ネットワークインタフェース1060は、情報処理装置1をネットワークに接続するためのインタフェースである。このネットワークは、例えばLAN(Local Area Network)やWAN(Wide Area Network)である。ネットワークインタフェース1060がネットワークに接続する方法は、無線接続であってもよいし、有線接続であってもよい。情報処理装置1は、ネットワークインタフェース1060を介して通信端末2と通信してもよい。
【0044】
なお、通信端末2のハードウエア構成についても、上記と同様であってもよい。
【0045】
(第1実施形態の動作例1)
図3は、フィルタ設定部40が音源分離フィルタを設定するまでのフロー図である。ステップS100において、ユーザ音声取得部10は、音源分離フィルタの設定に用いるユーザ音声情報を記憶部4から取得する。ステップS200において、フィルタ設定部40は、当該ユーザ音声情報を用いて、音源分離フィルタを設定する。
【0046】
(第1実施形態の動作例2)
図4は、第1実施形態に係るステップS100の詳細を表すフロー図である。
図4を用いて、ユーザ音声取得部10が、音源分離フィルタの設定に用いるユーザ音声情報を記憶部4から取得するまでのフローについて説明する。
【0047】
ステップS110では、車両3内の搭乗者が所定のキーワードを発話したとき、ユーザ音声取得部10は、当該所定のキーワードの音に関するキーワード音情報を取得する。
【0048】
ステップS120では、ユーザ音声取得部10は、当該キーワード音情報を用いて、車両3内で当該所定のキーワードを発話した搭乗者に対応するユーザ音声情報を特定する。具体的には例えば、あるドライバUの「yyy」という音声のユーザ音声情報が予め記憶部4に記憶されているとして、ドライバUが、車両3内で所定のキーワード「yyy」を発話したとする。そのとき、ユーザ音声取得部10は、ドライバUが発話した所定のキーワード(「yyy」)の音声情報を解析する。そして、ユーザ音声取得部10は、ドライバUが発話した「yyy」という音声情報と記憶部4に予め記憶された「yyy」という音声のユーザ音声情報との類似度(どのくらい類似しているか)が所定の基準を満たすか(例えば「yyy」のテキスト情報がどのくらい一致しているか)を判断し、所定の基準を満たす場合に、ドライバUのユーザ音声情報を特定してもよい。
【0049】
ステップS130では、ユーザ音声取得部10は、ステップS120において特定したドライバUのユーザ音声情報を記憶部4から取得する。
【0050】
(第1実施形態の動作例3)
図5は、第1実施形態に係るステップS200の詳細を表すフロー図である。
図5を用いて、フィルタ設定部40が、音源分離フィルタを設定するまでの流れについて説明する。
【0051】
ステップS210では、ノイズ取得部20は、車両3内のリアルタイムのノイズ情報を取得し、当該ノイズ情報を記憶部4(又はメモリ1030)に記憶させる。
【0052】
ステップS220では、重畳部30は、ステップS130で取得したドライバUのユーザ音声情報と、ステップS210で記憶部4(又はメモリ1030)に記憶したノイズ情報とを重畳して、重畳音情報を生成する。
【0053】
ステップS230では、フィルタ設定部40は、当該重畳音情報を用いて、音源分離フィルタを生成するための所定のパラメータを計算し、当該パラメータを適用した音源分離フィルタを設定する。
【0054】
なお、第1実施形態において、
図3のステップS200で、音源分離フィルタを設定するタイミングは任意である。ただし、S200で音源分離フィルタを設定するにあたっては、どのユーザ音声情報を用いるかは予め特定されている必要がある。
【0055】
なお、どのユーザ音声情報を音源分離フィルタの設定に用いるかは、所定のアクションにより切り替わっていってもよい(ドライバが交代し、交代した直後のドライバが所定のキーワードを発話したときなど)。例えば、第1実施形態において、情報処理システム100が起動した後(又は車両3のエンジンを起動した後)、搭乗者が所定のキーワードを発話した場合、当該搭乗者に対応するユーザ音声情報が特定され、音源分離フィルタの設定に用いるユーザ音声情報を、前回用いていたユーザ音声情報から、今回新たに特定されたユーザ音声情報に切り換えてもよい。
【0056】
以上、第1実施形態によれば、情報処理装置1は、ユーザ音声取得部10と、ノイズ取得部20と、重畳部30と、フィルタ設定部40と、移動体内音取得部50と、音源分離部60とを備えている。
【0057】
予め記憶部4に記憶されたユーザ音声情報と、リアルタイムで取得したノイズ情報を重畳した重畳音情報を用いて音源分離フィルタの計算をし、音源分離フィルタの設定をすることにより、精度よく音源分離することができる。そのため、音声認識精度を向上させることができる。
【0058】
さらに、ユーザ音声取得部10は、複数のユーザ音声情報の中から、車両3内の搭乗者に対応するユーザ音声情報を特定しつつ、特定した当該ユーザ音声情報を記憶部4から取得する。そして、重畳部30は、ユーザ音声取得部10が特定した当該ユーザ音声情報を用いて、重畳音情報を生成する。そして、フィルタ設定部40は、当該重畳音情報を用いて、音源分離フィルタを設定する。車両3内の搭乗者に対応するユーザ音声情報を用いて、音源分離フィルタを設定することにより、精度よく音源分離することができる。
【0059】
さらに、ユーザ音声取得部10は、所定のキーワードの音に関するキーワード音情報を用いて、車両3内で発話した搭乗者に対応するユーザ音声情報を特定する。そして、ユーザ音声取得部10は、特定した当該ユーザ音声情報を記憶部4から取得する。そして、フィルタ設定部40は、当該ユーザ音声情報を用いて、音源分離フィルタを設定する。
【0060】
車両3内で所定のキーワードを発話した搭乗者に対応するユーザ音声情報を用いて、音源分離フィルタを設定することにより、精度よく音源分離することができる。これにより、効果的に音声認識精度を向上させることができる。
【0061】
さらに、ユーザ音声取得部10は、情報処理システム100が起動した後、最初に所定のキーワードを発話した搭乗者に対応するユーザ音声情報を特定する。これにより、音源分離フィルタの設定に用いるユーザ音声情報を効果的に特定し、取得することができる。
【0062】
<第2実施形態>
図6は、第2実施形態に係る情報処理装置1の機能を示すブロック図である。第2実施形態に係る情報処理装置1は、第1実施形態と異なり、検知部70をさらに備えている。
【0063】
(検知部70)
検知部70は、車両3の搭乗者(ドライバ、同乗者)が変わったことを検知する。第2実施形態において、搭乗者はドライバである。第2実施形態において、検知部70は、車両3のドライバが、別のドライバに入れ変わったことを検知する。
【0064】
第2実施形態において、検知部70は、車両3内に搭載された撮像部2cにより撮像された撮像画像、車両3のドアの開閉(開閉音を含む)、及び搭乗者のシートベルト着脱の少なくとも1つを用いて、搭乗者が変わったことを検知してもよい。
【0065】
第2実施形態において、検知部70が、搭乗者(ドライバ)が変わったことを検知した後、ユーザ音声取得部10は、所定のキーワードを発話した搭乗者に対応するユーザ音声情報を特定しつつ、特定した当該ユーザ音声情報を記憶部4から取得する。
【0066】
(第2実施形態の動作例)
図7は、第2実施形態に係るステップS100の詳細を表すフロー図である。
図7を用いて、第2実施形態に係るユーザ音声取得部10が、音源分離フィルタの設定に用いるユーザ音声情報を記憶部4から取得するまでのフローについて説明する。
【0067】
ステップS106では、検知部70は、車両3の搭乗者が変わったことを検知する。例えば、ドライバであったユーザU1が助手席のユーザU2と運転を変わった場合、検知部70は、新たに運転席に座ったユーザU2の撮像部2cにより撮像された撮像画像を用いて、ドライバが、ユーザU1からユーザU2に変わったことを検知する。
【0068】
ステップS111では、ユーザU1と運転を入れ替わったユーザU2が、所定のキーワードを発話したとき、ユーザ音声取得部10は、当該所定のキーワードの音に関するキーワード音情報を取得する。
【0069】
ステップS121では、ユーザ音声取得部10は、当該キーワード音情報を用いて、ユーザU2に対応するユーザ音声情報を特定する。
【0070】
ステップS131では、ユーザ音声取得部10は、ステップS121において特定したユーザU2のユーザ音声情報を記憶部4から取得する。
【0071】
そして、第1実施形態で述べたステップS210以降で、ステップS131で取得したユーザ音声情報を用いて、音源分離フィルタを設定する。
【0072】
以上、第2実施形態によれば、情報処理装置1は検知部70をさらに備えている。そして、ユーザ音声取得部10は、搭乗者(ドライバ)が変わった後に所定のキーワードを発話した、入れ替わった後のドライバに対応するユーザ音声情報を特定する。これにより、音源分離フィルタの設定に用いるユーザ音声情報を効果的に特定することができる。
【0073】
さらに、検知部70は、車両3内に搭載された撮像部2cにより撮像された撮像画像、車両3のドアの開閉、及び搭乗者のシートベルト着脱の少なくとも1つを用いて、搭乗者が変わったことを検知する。これにより、搭乗者が入れ変わったことを精度よく検知することができる。
【0074】
<第3実施形態>
第3実施形態に係る情報処理装置1は、第1実施形態と異なり、フィルタ設定部40の機能の一部が異なっている。第3実施形態に係るフィルタ設定部40は、移動体内音情報を用いて、音源分離フィルタを更新する。音源分離フィルタを更新するとは、前回使っていた音源分離フィルタを別の音源分離フィルタ(所定のパラメータを再度計算)に切り替えることである。
【0075】
上記移動体内音情報は、車両3内の音の音圧に関する情報、音量に関する情報、及び周波数に関する情報の少なくともいずれか1つを含む。第3実施形態に係るフィルタ設定部40は、車両3内の音圧、音量、及び周波数の少なくともいずれか1つが所定基準を満たしたとき、音源分離フィルタを更新する。
【0076】
(第3実施形態の動作例)
図8は、第3実施形態に係るステップS200の詳細を表すフロー図である。
図8を用いて、第3実施形態に係るフィルタ設定部40が、音源分離フィルタを更新するまでのフローについて説明する。なお、
図8において、音源分離フィルタの更新に用いるユーザ音声情報は、ユーザ音声取得部10により予め取得されているものとする。
【0077】
ステップS202では、フィルタ設定部40(又は移動体内音取得部50)は、音声入力部2d(マイク)から、走行中に、移動体内音情報を取得する。
【0078】
ステップS205では、フィルタ設定部40は、ステップS202で取得した移動体内音情報に係る音圧、音量、及び周波数の少なくともいずれか1つが所定基準(第1基準)を満たすか否かを判断する。上記所定基準(第1基準)を満たす場合(ステップS205でYES)、ステップS211に進む。上記所定基準(第1基準)を満たさない場合(ステップS205でNO)、処理を終了する。ステップS211、ステップS221、及びステップS231の処理は、第1実施形態と同様である。
【0079】
図9は、フィルタ設定部40が第1基準を満たすかを判断する方法の一例を説明するための概略図である。
図9の横軸は、時間tを表しており、縦軸は音圧レベルLpを表している。
図9の横軸に示すように、時間軸は所定の時刻(時刻N―1、時刻N、時刻N+1、時刻N+2…)で区切られている。例えば、時刻N=1[s]、時刻N+1=2[s]、時刻N+2=3[s]・・・である。さらに、
図9中には、音圧レベルの単位をdB(デシベル)とし、上記所定の時刻間で音圧レベルの平均をとったものを平均音圧レベルとして表記している。例えば、時刻Nと時刻N+1の間における平均音圧レベルは52[dB]である。
【0080】
以下、フィルタ設定部40が移動体内音情報を用いて、音源分離フィルタを更新する際の具体的な方法について説明する。第3実施形態において、フィルタ設定部40は、ある時刻間(例:
図9の時刻N+2と時刻N+3との間)における平均の音圧と、その前の時刻間(例:
図9の時刻N+1と時刻N+2との間)における平均の音圧との差を検出する。そして、フィルタ設定部40は、当該平均の音圧の差が第1基準を満たすか否かを判断する。
【0081】
第3実施形態において、車両3内の音圧が第1基準を満たす場合は、当該平均の音圧の差が3[dB]を超える場合であるとする。この場合、フィルタ設定部40は、例えば、時刻N+2の時点において、第1基準を満たすと判断する。理由としては、時刻Nと時刻N+1との間における平均の音圧(52dB)と、時刻N+1と時刻N+2との間における平均の音圧(70dB)との差は、18dBであるからである。
【0082】
そして、フィルタ設定部40が、車両3内の音圧(音圧の差)が第1基準を満たすと判断した場合(
図8のステップS205でYES)、ステップS211で、ノイズ取得部20は、そのとき(時刻N+2の時点)のノイズ情報を取得する。そして、ステップS212以降のフローで、音源分離フィルタを計算し、前回使用していた音源分離フィルタから、計算したあとの音源分離フィルタに更新(変更)する。
【0083】
また、フィルタ設定部40は、時刻N+4の時点においても、車両3内の音圧が第1基準を満たすと判断するので(理由は上述したものと同じ)、上記と同様に音源分離フィルタを更新する。
【0084】
なお、車両3内の音圧が第1基準を満たさない場合、フィルタ設定部40は、音源分離フィルタを更新しない。すなわち、時刻N+1の時点、及び時刻N+3の時点では、音源分離フィルタを更新しない。
【0085】
以上、第3実施形態に係るフィルタ設定部40は、移動体内音情報を用いて、音源分離フィルタを更新する。車両3内の音が所定基準以上変化したときは、ノイズの種類などが変わったときなので、車両3内の音が所定基準以上変化したタイミングで音源分離フィルタを更新することにより、音源分離フィルタの精度を向上させることができる。
【0086】
より具体的には、車両3内の音が所定基準以上変化したタイミングは、ノイズ情報(騒音データ)が大きく変化していることであるので、そのときのリアルタイムのノイズ情報(騒音データ)と予め記憶されたユーザ音声情報とを音源分離フィルタの設定に用いることで、音源分離フィルタの精度を向上させることができる。これにより、音声認識精度をより向上することができる。
【0087】
さらに、移動体内音情報は、車両3内の音の音圧、音量、及び周波数に関する情報の少なくともいずれか1つを含む。これにより、音源分離フィルタの精度をより向上させることができる。
【0088】
フィルタ設定部40は、音圧、音量、及び周波数の少なくともいずれか1つが所定基準(第1基準)を満たしたとき音源分離フィルタを更新する。これにより、音源分離フィルタの精度をより向上させることができる。
【0089】
<第4実施形態>
図10は、第4実施形態に係る情報処理装置1の機能を示すブロック図である。第4実施形態に係る情報処理装置1は、第1実施形態と異なり、デバイス情報取得部80をさらに備えている。
【0090】
(デバイス情報取得部80)
デバイス情報取得部80は、車両3内のドライバの通信デバイスから、ドライバ特定情報を取得する。通信デバイスは、例えば、スマートフォン、タブレット、及びPCの少なくとも1つを含む。ドライバ特定情報は、ドライバを特定可能な情報である。
【0091】
ユーザ音声取得部10は、デバイス情報取得部80が取得したドライバ特定情報に対応するユーザ音声情報を特定する。そして、ユーザ音声取得部10は、特定した当該ユーザ音声情報を記憶部4から取得する。
【0092】
例えば、ドライバが車両3に乗り込んだ際、ドライバが所有するスマートフォン(通信デバイス)と通信端末2とが所定の通信ネットワーク(例えばBluetooth(登録商標))を介して、通信したとする。そして、このとき、デバイス情報取得部80は、通信端末2を介して、当該ドライバのスマートフォンから、当該ドライバを識別するID(例えば、当該ドライバのスマートフォンの端末ID)を取得する。そして、デバイス情報取得部80は、記憶部4に予め記憶された当該ドライバを識別するIDと紐づくユーザ音声情報を特定する。このようにして、ユーザ音声取得部10は、デバイス情報取得部80が取得したドライバ特定情報(ドライバを識別するID)に対応するユーザ音声情報を特定してもよい。
【0093】
以上、第4実施形態によれば、情報処理装置1は、デバイス情報取得部80をさらに備えている。これにより、ドライバに対応するユーザ音声情報を簡易に特定することができる。
【0094】
<第5実施形態>
図11は、第5実施形態に係る情報処理装置1の機能を示すブロック図である。第5実施形態に係る情報処理装置1は、第1実施形態と異なり、制御部90と記憶処理部95とをさらに備えている。第5実施形態に係るユーザ音声取得部10、フィルタ設定部40、及び音源分離部60の機能の一部は、第1実施形態と異なっている。
【0095】
第1実施形態と同様に、第5実施形態に係るユーザ音声取得部10は、所定のキーワードの音に関するキーワード音情報を用いて、予め記憶部4に記憶されたユーザ音声情報の中から、車両3内で所定のキーワードを発話した搭乗者に対応するユーザ音声情報を特定しつつ、特定した当該ユーザ音声情報を記憶部4から取得する。
【0096】
第5実施形態に係るフィルタ設定部40が音源分離フィルタを設定するまでのフローは、
図3、
図4、及び
図5で説明したフローと同様であるが、第5実施形態に係るフィルタ設定部40は、車両3内の搭乗者が、所定のキーワードを発話するたびに、音源分離フィルタを更新する。
【0097】
具体的には、ユーザ音声取得部10は、車両3内の搭乗者が、所定のキーワードを発話するたびに、当該搭乗者におけるキーワード音情報を用いて、複数のユーザ音声情報の中から、発話した当該搭乗者に対応するユーザ音声情報を記憶部4から取得する。そして、重畳部30は、ユーザ音声取得部10が新たに取得した当該ユーザ音声情報とノイズ情報とを重畳して重畳音情報を新たに生成する。そして、フィルタ設定部40は、重畳部30により新たに生成された当該重畳音情報を用いて、音源分離フィルタを更新する。このようにして、第5実施形態に係るフィルタ設定部40は、車両3内の搭乗者が、所定のキーワードを発話するたびに、音源分離フィルタを更新する。
【0098】
これにより、複数の搭乗者の各々が所定のキーワードを発話したり、所定のキーワードを発話する搭乗者が入れ変わったりした場合でも、そのたびに音源分離フィルタが更新される(発話する搭乗者ごとにフィルタが設定される)ので、音源分離の精度が向上される。これにより、音声認識精度を効果的に向上させることができる。
【0099】
(制御部90、記憶処理部95)
制御部90は、所定のキーワードを検知した後、所定のコマンドの入力を受付けると、当該コマンドに対応する処理を実行させる。所定のコマンドは、当該コマンドに対応する処理を実行させるためのワードである。第5実施形態において、所定のコマンドは、所定のキーワードに続けて、搭乗者に発話される。
【0100】
(記憶処理部95)
記憶処理部95は、所定のキーワードの後に搭乗者が発話する所定のコマンドの音に関するコマンド音情報を記憶部4又はメモリ1030に記憶させる。コマンド音情報は、搭乗者が発話したコマンドに対応する音声情報と、ノイズ音情報と含む。
【0101】
フィルタ設定部40は、制御部90が検知した所定のキーワードの音に関するキーワード音情報を用いて、音源分離フィルタを設定する。そして、音源分離部60は、当該音源分離フィルタを用いて、制御部90が検知した所定のキーワードの後に搭乗者が発話した所定のコマンドの音に関するコマンド音情報(記憶部4又はメモリ1030に記憶されている)を分離する。
【0102】
より具体的には、例えば、所定のキーワードが「zzz」として、「目的地までの渋滞情報を取得する」という所定のコマンドを入力する場合について説明する。搭乗者が「zzz、目的地Gまでの渋滞情報を教えて」と発話したとき、まず、フィルタ設定部40は、制御部90が検知したキーワード音情報としての「zzz」を用いて、音源分離フィルタを設定する処理を実行する(音源分離フィルタを設定する処理は第1実施形態で述べたものと同様である)。そして、その処理と同時に記憶処理部95は、コマンド音情報としての「目的地Gまでの渋滞情報を教えて」を、記憶部4又はメモリ1030に記憶させる。そして、音源分離部60は、フィルタ設定部40が音源分離フィルタを設定する処理が終了した後に、記憶部4又はメモリ1030に記憶させておいたコマンド音情報に、当該音源分離フィルタを適用して、コマンド音情報に係る音源を分離する。そして、音源分離部60は、コマンド音情報の中から、音声認識に用いられる音声情報を抽出する。
【0103】
通常、音源分離フィルタを設定する処理には、ある一定の時間を要する。そのため、搭乗者が所定のキーワードの後に続けて所定のコマンドを発話した場合、当該所定のキーワードを用いて音源分離フィルタを生成し、生成したばかりの音源分離フィルタを用いて、当該所定のコマンドの音源を分離しようとしても処理が間に合わない。
【0104】
しかし上述したように、搭乗者が所定のキーワードを発話したタイミングで音源分離フィルタの生成処理が実行され、生成されたばかりの音源分離フィルタを、記憶部4又はメモリ1030に記憶させたコマンド音情報に適用することで、所定のキーワードの後に続けて発話されたコマンドに対しても音源分離処理を適用することができる。そのため、搭乗者(ドライバ)が入れ替わった後、最初に所定のコマンド処理を実行しようとしたとしても、当該コマンドに対して音源分離処理を適用することができる。そのため、音声認識精度が向上する。
【0105】
さらに、第5実施形態において、制御部90が所定のキーワードを検知した後、フィルタ設定部40が当該所定のキーワードの音に関するキーワード音情報を用いて音源分離フィルタを更新する時間が所定時間以上(例えば10[s]以上)かかる場合、音源分離部60は、前回使用した音源分離フィルタを用いて、制御部90が検知した所定のキーワードの後に搭乗者が発話した所定のコマンドの音に関するコマンド音情報(記憶部4又はメモリ1030に記憶)を分離する。
【0106】
搭乗者が、所定のキーワードに続けて所定のコマンドを発話した場合、フィルタ設定部40が当該所定のキーワードの音に関するキーワード音情報を用いて音源分離フィルタを更新してから、更新したばかりの当該音源分離フィルタを当該所定のコマンドに適用する時間が足りない場合もある。
【0107】
しかし、当該時間が足りない場合(音源分離フィルタを更新する時間が所定時間以上かかる場合)、前回使用していた音源分離フィルタを用いて、コマンド音情報の音源分離処理を行う。これにより、音源分離精度が悪化することを抑制することができる。
【0108】
以上、図面を参照して実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。
【0109】
車両3内の搭乗者に対応するユーザ音声情報が記憶部4に予め記憶されていない場合、情報処理システム100は、当該搭乗者の音声情報を登録するように当該搭乗者に促してもよい。具体的には例えば、音声出力部2aより「今日の体調はいかがですか」などと機械音声が出力され、当該機械音声に対して返事をすることで、その返事に関する音声データが記憶部4に記憶されることになる。
【0110】
また、車両3内の搭乗者に対応するユーザ音声情報が記憶部4に既に記憶されてる場合であっても、情報処理システム100が起動したときに、情報処理システム100は、当該搭乗者の音声情報を登録するように当該搭乗者に促してもよい。理由としては、同じ搭乗者でも日によって音声が変わる場合があるので(風邪気味のときなど)、常に最新の音声情報を記憶しておいた方が音源分離の精度が向上するためである。
【0111】
また、情報処理システム100は、情報処理装置1、及び通信端末2などの1以上のコンピュータを用いて実現される。情報処理システム100を実現するためにコンピュータをいくつ用いるかは任意である。
【0112】
また、第1実施形態において、ユーザ音声取得部10、ノイズ取得部20、重畳部30、フィルタ設定部40、移動体内音取得部50、及び音源分離部60は、情報処理装置1に設けられている構成で記載してきたが、ユーザ音声取得部10、ノイズ取得部20、重畳部30、フィルタ設定部40、移動体内音取得部50、音源分離部60、及び記憶部4の少なくとも一部の機能が通信端末2に設けられている構成であってもよい。なお、ユーザ音声取得部10、ノイズ取得部20、重畳部30、フィルタ設定部40、移動体内音取得部50、及び音源分離部60を備える通信端末2についても、第1実施形態と同様の作用効果が奏される。
【0113】
また、ユーザ音声取得部10、ノイズ取得部20、重畳部30、フィルタ設定部40、移動体内音取得部50、音源分離部60、及び記憶部4の全てが、通信端末2に搭載されている構成であってもよい。
【0114】
また、第3実施形態に係るフィルタ設定部40は、移動体内音情報を用いて、音源分離フィルタを更新するが、フィルタ設定部40は、当該移動体内音情報から、搭乗者が発話した所定のキーワードの音に関するキーワード音情報を除くことができる。具体的には、搭乗者が発話した所定のキーワードの音に関するキーワード音情報が移動体内音情報に混じると、当該キーワード音情報を用いて、誤って音源分離フィルタを更新してしまう場合があるので、これを防ぐために当該移動体内音情報から、当該キーワード音情報を除くことができる。
【0115】
以下、参考形態の例を付記する。
1. 移動体内にある通信端末を少なくとも用いる情報処理システムであって、
前記情報処理システムは、所定のキーワードを検知すると音声認識システムとして機能するように構成されており、
前記所定のキーワードの音に関するキーワード音情報を用いて、予め記憶部に記憶された搭乗者の音声に関するユーザ音声情報の中から、前記移動体内で前記所定のキーワードを発話した搭乗者に対応する前記ユーザ音声情報を特定しつつ、特定した当該ユーザ音声情報を前記記憶部から取得するユーザ音声取得部と、
前記移動体内のノイズに関するノイズ情報を取得するノイズ取得部と、
前記ユーザ音声情報と前記ノイズ情報とを重畳して重畳音情報を生成する重畳部と、
前記重畳音情報を用いて、音源分離フィルタを設定するフィルタ設定部と、
前記移動体内の音に関する移動体内音情報を取得する移動体内音取得部と、
前記音源分離フィルタを用いて、前記移動体内音情報を分離する音源分離部と、を備え、
前記ユーザ音声取得部は、前記移動体内の搭乗者が、前記所定のキーワードを発話するたびに、当該搭乗者における前記キーワード音情報を用いて、複数の前記ユーザ音声情報の中から、発話した当該搭乗者に対応する前記ユーザ音声情報を前記記憶部から取得し、
前記重畳部は、前記ユーザ音声取得部が新たに取得した当該ユーザ音声情報と前記ノイズ情報とを重畳して重畳音情報を新たに生成し、
前記フィルタ設定部は、前記重畳部により新たに生成された当該重畳音情報を用いて、前記音源分離フィルタを更新する、情報処理システム。
2. 1.に記載の情報処理システムにおいて、
前記所定のキーワードを検知した後、所定のコマンドの入力を受付けると、当該コマンドに対応する処理を実行させる制御部と、
前記所定のキーワードの後に前記搭乗者が発話する前記所定のコマンドの音に関するコマンド音情報を記憶させる記憶処理部と、をさらに備え、
前記フィルタ設定部は、前記制御部が検知した前記所定のキーワードの音に関するキーワード音情報を用いて、前記音源分離フィルタを設定し、
前記音源分離部は、当該音源分離フィルタを用いて、前記制御部が検知した前記所定のキーワードの後に前記搭乗者が発話した所定のコマンドの音に関する前記コマンド音情報を分離する、情報処理システム。
3. 2.に記載の情報処理システムにおいて、
前記制御部が前記所定のキーワードを検知した後、前記フィルタ設定部が当該所定のキーワードの音に関するキーワード音情報を用いて前記音源分離フィルタを更新する時間が所定時間以上かかる場合、前記音源分離部は、前回使用した前記音源分離フィルタを用いて、前記制御部が検知した前記所定のキーワードの後に前記搭乗者が発話した所定のコマンドの音に関する前記コマンド音情報を分離する、情報処理システム。
4. 情報処理装置であって、
前記情報処理装置は、所定のキーワードを検知すると音声認識装置の少なくとも一部として機能するように構成されており、
前記所定のキーワードの音に関するキーワード音情報を用いて、予め記憶部に記憶された搭乗者の音声に関するユーザ音声情報の中から、移動体内で前記所定のキーワードを発話した搭乗者に対応する前記ユーザ音声情報を特定しつつ、特定した当該ユーザ音声情報を前記記憶部から取得するユーザ音声取得部と、
前記移動体内のノイズに関するノイズ情報を取得するノイズ取得部と、
前記ユーザ音声情報と前記ノイズ情報とを重畳して重畳音情報を生成する重畳部と、
前記重畳音情報を用いて、音源分離フィルタを設定するフィルタ設定部と、
前記移動体内の音に関する移動体内音情報を取得する移動体内音取得部と、
前記音源分離フィルタを用いて、前記移動体内音情報を分離する音源分離部と、を備え、
前記ユーザ音声取得部は、前記移動体内の搭乗者が、前記所定のキーワードを発話するたびに、当該搭乗者における前記キーワード音情報を用いて、複数の前記ユーザ音声情報の中から、発話した当該搭乗者に対応する前記ユーザ音声情報を前記記憶部から取得し、
前記重畳部は、前記ユーザ音声取得部が新たに取得した当該ユーザ音声情報と前記ノイズ情報とを重畳して重畳音情報を新たに生成し、
前記フィルタ設定部は、前記重畳部により新たに生成された当該重畳音情報を用いて、前記音源分離フィルタを更新する、情報処理装置。
5. 移動体内にある通信端末を少なくとも用いる情報処理システムの制御方法であって、
前記情報処理システムは、所定のキーワードを検知すると音声認識システムとして機能するように構成されており、
前記情報処理システムを実現する1以上のコンピュータが、
前記所定のキーワードの音に関するキーワード音情報を用いて、予め記憶部に記憶された搭乗者の音声に関するユーザ音声情報の中から、前記移動体内で前記所定のキーワードを発話した搭乗者に対応する前記ユーザ音声情報を特定しつつ、特定した当該ユーザ音声情報を前記記憶部から取得し、
前記移動体内のノイズに関するノイズ情報を取得し、
前記ユーザ音声情報と前記ノイズ情報とを重畳して重畳音情報を生成する重畳部と、
前記重畳音情報を用いて、音源分離フィルタを設定し、
前記移動体内の音に関する移動体内音情報を取得し、
前記音源分離フィルタを用いて、前記移動体内音情報を分離し、
前記移動体内の搭乗者が、前記所定のキーワードを発話するたびに、当該搭乗者における前記キーワード音情報を用いて、複数の前記ユーザ音声情報の中から、発話した当該搭乗者に対応する前記ユーザ音声情報を前記記憶部から取得し、
新たに取得した当該ユーザ音声情報と前記ノイズ情報とを重畳して重畳音情報を新たに生成し、
新たに生成された当該重畳音情報を用いて、前記音源分離フィルタを更新する、情報処理システムの制御方法。
6. 移動体内にある通信端末を少なくとも用いる情報処理システムを機能させるためのプログラムであって、
前記情報処理システムは、所定のキーワードを検知すると音声認識システムとして機能するように構成されており、
前記情報処理システムを実現する1以上のコンピュータに、
前記所定のキーワードの音に関するキーワード音情報を用いて、予め記憶部に記憶された搭乗者の音声に関するユーザ音声情報の中から、前記移動体内で前記所定のキーワードを発話した搭乗者に対応する前記ユーザ音声情報を特定しつつ、特定した当該ユーザ音声情報を前記記憶部から取得する手順、
前記移動体内のノイズに関するノイズ情報を取得する手順、
前記ユーザ音声情報と前記ノイズ情報とを重畳して重畳音情報を生成する重畳部と、
前記重畳音情報を用いて、音源分離フィルタを設定する手順、
前記移動体内の音に関する移動体内音情報を取得する手順、
前記音源分離フィルタを用いて、前記移動体内音情報を分離する手順、
前記移動体内の搭乗者が、前記所定のキーワードを発話するたびに、当該搭乗者における前記キーワード音情報を用いて、複数の前記ユーザ音声情報の中から、発話した当該搭乗者に対応する前記ユーザ音声情報を前記記憶部から取得する手順、
新たに取得した当該ユーザ音声情報と前記ノイズ情報とを重畳して重畳音情報を新たに生成する手順、
新たに生成された当該重畳音情報を用いて、前記音源分離フィルタを更新する手順、を実行させるためのプログラム。
【符号の説明】
【0116】
1 情報処理装置
2 通信端末
3 車両
4 記憶部
10 ユーザ音声取得部
20 ノイズ取得部
30 重畳部
40 フィルタ設定部
50 移動体内音取得部
60 音源分離部
70 検知部
80 デバイス情報取得部
90 制御部
95 記憶処理部
100 情報処理システム