特開2024-130476 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ パイオニア株式会社の特許一覧

特開2024-130476情報処理システム、情報処理装置、情報処理システムの制御方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024130476

(43)【公開日】2024-09-30

(54)【発明の名称】情報処理システム、情報処理装置、情報処理システムの制御方法、及びプログラム

(51)【国際特許分類】

G10L 15/20 20060101AFI20240920BHJP

G10L 15/28 20130101ALI20240920BHJP

G10L 17/00 20130101ALI20240920BHJP

G10L 15/00 20130101ALI20240920BHJP

G10L 15/10 20060101ALI20240920BHJP

【ＦＩ】

G10L15/20 370F

G10L15/28 230K

G10L17/00 200D

G10L15/00 200J

G10L15/10 200W

【審査請求】未請求

【請求項の数】6

【出願形態】ＯＬ

(21)【出願番号】P 2023040236

(22)【出願日】2023-03-15

(71)【出願人】

【識別番号】000005016

【氏名又は名称】パイオニア株式会社

(74)【代理人】

【識別番号】100110928

【弁理士】

【氏名又は名称】速水進治

(74)【代理人】

【識別番号】100127236

【弁理士】

【氏名又は名称】天城聡

(72)【発明者】

【氏名】澤藤圭吾

(72)【発明者】

【氏名】河内洋人

(57)【要約】

【課題】音声認識精度を効果的に向上させることが一例として挙げられる。
【解決手段】
情報処理システム１００は、移動体内にある通信端末２を少なくとも用いる。情報処理システム１００は、所定のキーワードを検知すると音声認識システムとして機能する。ユーザ音声取得部１０は、移動体内の搭乗者が、所定のキーワードを発話するたびに、当該搭乗者におけるキーワード音情報を用いて、複数のユーザ音声情報の中から、発話した当該搭乗者に対応するユーザ音声情報を記憶部４から取得する。重畳部３０は、ユーザ音声取得部が新たに取得した当該ユーザ音声情報とノイズ情報とを重畳して重畳音情報を新たに生成する。フィルタ設定部４０は、重畳部３０により新たに生成された当該重畳音情報を用いて、音源分離フィルタを更新する。
【選択図】図１

【特許請求の範囲】

【請求項1】

移動体内にある通信端末を少なくとも用いる情報処理システムであって、
前記情報処理システムは、所定のキーワードを検知すると音声認識システムとして機能するように構成されており、
前記所定のキーワードの音に関するキーワード音情報を用いて、予め記憶部に記憶された搭乗者の音声に関するユーザ音声情報の中から、前記移動体内で前記所定のキーワードを発話した搭乗者に対応する前記ユーザ音声情報を特定しつつ、特定した当該ユーザ音声情報を前記記憶部から取得するユーザ音声取得部と、
前記移動体内のノイズに関するノイズ情報を取得するノイズ取得部と、
前記ユーザ音声情報と前記ノイズ情報とを重畳して重畳音情報を生成する重畳部と、
前記重畳音情報を用いて、音源分離フィルタを設定するフィルタ設定部と、
前記移動体内の音に関する移動体内音情報を取得する移動体内音取得部と、
前記音源分離フィルタを用いて、前記移動体内音情報を分離する音源分離部と、を備え、
前記ユーザ音声取得部は、前記移動体内の搭乗者が、前記所定のキーワードを発話するたびに、当該搭乗者における前記キーワード音情報を用いて、複数の前記ユーザ音声情報の中から、発話した当該搭乗者に対応する前記ユーザ音声情報を前記記憶部から取得し、
前記重畳部は、前記ユーザ音声取得部が新たに取得した当該ユーザ音声情報と前記ノイズ情報とを重畳して重畳音情報を新たに生成し、
前記フィルタ設定部は、前記重畳部により新たに生成された当該重畳音情報を用いて、前記音源分離フィルタを更新する、情報処理システム。

【請求項2】

請求項１に記載の情報処理システムにおいて、
前記所定のキーワードを検知した後、所定のコマンドの入力を受付けると、当該コマンドに対応する処理を実行させる制御部と、
前記所定のキーワードの後に前記搭乗者が発話する前記所定のコマンドの音に関するコマンド音情報を記憶させる記憶処理部と、をさらに備え、
前記フィルタ設定部は、前記制御部が検知した前記所定のキーワードの音に関するキーワード音情報を用いて、前記音源分離フィルタを設定し、
前記音源分離部は、当該音源分離フィルタを用いて、前記制御部が検知した前記所定のキーワードの後に前記搭乗者が発話した所定のコマンドの音に関する前記コマンド音情報を分離する、情報処理システム。

【請求項3】

請求項２に記載の情報処理システムにおいて、
前記制御部が前記所定のキーワードを検知した後、前記フィルタ設定部が当該所定のキーワードの音に関するキーワード音情報を用いて前記音源分離フィルタを更新する時間が所定時間以上かかる場合、前記音源分離部は、前回使用した前記音源分離フィルタを用いて、前記制御部が検知した前記所定のキーワードの後に前記搭乗者が発話した所定のコマンドの音に関する前記コマンド音情報を分離する、情報処理システム。

【請求項4】

情報処理装置であって、
前記情報処理装置は、所定のキーワードを検知すると音声認識装置の少なくとも一部として機能するように構成されており、
前記所定のキーワードの音に関するキーワード音情報を用いて、予め記憶部に記憶された搭乗者の音声に関するユーザ音声情報の中から、移動体内で前記所定のキーワードを発話した搭乗者に対応する前記ユーザ音声情報を特定しつつ、特定した当該ユーザ音声情報を前記記憶部から取得するユーザ音声取得部と、
前記移動体内のノイズに関するノイズ情報を取得するノイズ取得部と、
前記ユーザ音声情報と前記ノイズ情報とを重畳して重畳音情報を生成する重畳部と、
前記重畳音情報を用いて、音源分離フィルタを設定するフィルタ設定部と、
前記移動体内の音に関する移動体内音情報を取得する移動体内音取得部と、
前記音源分離フィルタを用いて、前記移動体内音情報を分離する音源分離部と、を備え、
前記ユーザ音声取得部は、前記移動体内の搭乗者が、前記所定のキーワードを発話するたびに、当該搭乗者における前記キーワード音情報を用いて、複数の前記ユーザ音声情報の中から、発話した当該搭乗者に対応する前記ユーザ音声情報を前記記憶部から取得し、
前記重畳部は、前記ユーザ音声取得部が新たに取得した当該ユーザ音声情報と前記ノイズ情報とを重畳して重畳音情報を新たに生成し、
前記フィルタ設定部は、前記重畳部により新たに生成された当該重畳音情報を用いて、前記音源分離フィルタを更新する、情報処理装置。

【請求項5】

移動体内にある通信端末を少なくとも用いる情報処理システムの制御方法であって、
前記情報処理システムは、所定のキーワードを検知すると音声認識システムとして機能するように構成されており、
前記情報処理システムを実現する１以上のコンピュータが、
前記所定のキーワードの音に関するキーワード音情報を用いて、予め記憶部に記憶された搭乗者の音声に関するユーザ音声情報の中から、前記移動体内で前記所定のキーワードを発話した搭乗者に対応する前記ユーザ音声情報を特定しつつ、特定した当該ユーザ音声情報を前記記憶部から取得し、
前記移動体内のノイズに関するノイズ情報を取得し、
前記ユーザ音声情報と前記ノイズ情報とを重畳して重畳音情報を生成する重畳部と、
前記重畳音情報を用いて、音源分離フィルタを設定し、
前記移動体内の音に関する移動体内音情報を取得し、
前記音源分離フィルタを用いて、前記移動体内音情報を分離し、
前記移動体内の搭乗者が、前記所定のキーワードを発話するたびに、当該搭乗者における前記キーワード音情報を用いて、複数の前記ユーザ音声情報の中から、発話した当該搭乗者に対応する前記ユーザ音声情報を前記記憶部から取得し、
新たに取得した当該ユーザ音声情報と前記ノイズ情報とを重畳して重畳音情報を新たに生成し、
新たに生成された当該重畳音情報を用いて、前記音源分離フィルタを更新する、情報処理システムの制御方法。

【請求項6】

移動体内にある通信端末を少なくとも用いる情報処理システムを機能させるためのプログラムであって、
前記情報処理システムは、所定のキーワードを検知すると音声認識システムとして機能するように構成されており、
前記情報処理システムを実現する１以上のコンピュータに、
前記所定のキーワードの音に関するキーワード音情報を用いて、予め記憶部に記憶された搭乗者の音声に関するユーザ音声情報の中から、前記移動体内で前記所定のキーワードを発話した搭乗者に対応する前記ユーザ音声情報を特定しつつ、特定した当該ユーザ音声情報を前記記憶部から取得する手順、
前記移動体内のノイズに関するノイズ情報を取得する手順、
前記ユーザ音声情報と前記ノイズ情報とを重畳して重畳音情報を生成する重畳部と、
前記重畳音情報を用いて、音源分離フィルタを設定する手順、
前記移動体内の音に関する移動体内音情報を取得する手順、
前記音源分離フィルタを用いて、前記移動体内音情報を分離する手順、
前記移動体内の搭乗者が、前記所定のキーワードを発話するたびに、当該搭乗者における前記キーワード音情報を用いて、複数の前記ユーザ音声情報の中から、発話した当該搭乗者に対応する前記ユーザ音声情報を前記記憶部から取得する手順、
新たに取得した当該ユーザ音声情報と前記ノイズ情報とを重畳して重畳音情報を新たに生成する手順、
新たに生成された当該重畳音情報を用いて、前記音源分離フィルタを更新する手順、を実行させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理システム、情報処理装置、情報処理システムの制御方法、及びプログラムに関する。

【背景技術】

【0002】

特許文献１には、車両走行中における入力音声認識率を飛躍的に向上させることができる車両用音声認識装置が開示されている。

【0003】

特許文献２には、予め多数のノイズリダクション特性のそれぞれに応じた係数を記憶しておき、所定のノイズリダクション特性をノイズリダクション部に設定し、音声検出手段により検出された音声信号より走行ノイズ信号を除去して音声認識装置に入力するノイズリダクション装置における特性設定方法が開示されている。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開平７-１４６６９８号公報

【特許文献2】特開２００２-２２１９８６号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

車両内の音にはエンジン騒音などの雑音が入っているため、車両内の音はＳＮ比が小さい（雑音の占める割合が大きい）。そのため、搭乗者の音声を適切に音声認識するには、音声認識の対象となる搭乗者の音声と、雑音とを分離して処理する必要がある。上記特許文献２に記載されている技術は、予め記憶された騒音データと、ユーザの音声データと合成し、合成音を用いてフィルタを設定している。

【0006】

車両内では複数の搭乗者が各々発話したり、搭乗者が入れ替わったりするため、適切に音声認識を行うためには、発話する搭乗者ごとにフィルタを設定する必要がある。

【0007】

本発明が解決しようとする課題としては、音声認識精度を効果的に向上させることが一例として挙げられる。

【課題を解決するための手段】

【0008】

請求項１に記載の発明は、
移動体内にある通信端末を少なくとも用いる情報処理システムであって、
前記情報処理システムは、所定のキーワードを検知すると音声認識システムとして機能するように構成されており、
前記所定のキーワードの音に関するキーワード音情報を用いて、予め記憶部に記憶された搭乗者の音声に関するユーザ音声情報の中から、前記移動体内で前記所定のキーワードを発話した搭乗者に対応する前記ユーザ音声情報を特定しつつ、特定した当該ユーザ音声情報を前記記憶部から取得するユーザ音声取得部と、
前記移動体内のノイズに関するノイズ情報を取得するノイズ取得部と、
前記ユーザ音声情報と前記ノイズ情報とを重畳して重畳音情報を生成する重畳部と、
前記重畳音情報を用いて、音源分離フィルタを設定するフィルタ設定部と、
前記移動体内の音に関する移動体内音情報を取得する移動体内音取得部と、
前記音源分離フィルタを用いて、前記移動体内音情報を分離する音源分離部と、を備え、
前記ユーザ音声取得部は、前記移動体内の搭乗者が、前記所定のキーワードを発話するたびに、当該搭乗者における前記キーワード音情報を用いて、複数の前記ユーザ音声情報の中から、発話した当該搭乗者に対応する前記ユーザ音声情報を前記記憶部から取得し、
前記重畳部は、前記ユーザ音声取得部が新たに取得した当該ユーザ音声情報と前記ノイズ情報とを重畳して重畳音情報を新たに生成し、
前記フィルタ設定部は、前記重畳部により新たに生成された当該重畳音情報を用いて、前記音源分離フィルタを更新する、情報処理システムである。

【0009】

請求項４に記載の発明は、
情報処理装置であって、
前記情報処理装置は、所定のキーワードを検知すると音声認識装置の少なくとも一部として機能するように構成されており、
前記所定のキーワードの音に関するキーワード音情報を用いて、予め記憶部に記憶された搭乗者の音声に関するユーザ音声情報の中から、移動体内で前記所定のキーワードを発話した搭乗者に対応する前記ユーザ音声情報を特定しつつ、特定した当該ユーザ音声情報を前記記憶部から取得するユーザ音声取得部と、
前記移動体内のノイズに関するノイズ情報を取得するノイズ取得部と、
前記ユーザ音声情報と前記ノイズ情報とを重畳して重畳音情報を生成する重畳部と、
前記重畳音情報を用いて、音源分離フィルタを設定するフィルタ設定部と、
前記移動体内の音に関する移動体内音情報を取得する移動体内音取得部と、
前記音源分離フィルタを用いて、前記移動体内音情報を分離する音源分離部と、を備え、
前記ユーザ音声取得部は、前記移動体内の搭乗者が、前記所定のキーワードを発話するたびに、当該搭乗者における前記キーワード音情報を用いて、複数の前記ユーザ音声情報の中から、発話した当該搭乗者に対応する前記ユーザ音声情報を前記記憶部から取得し、
前記重畳部は、前記ユーザ音声取得部が新たに取得した当該ユーザ音声情報と前記ノイズ情報とを重畳して重畳音情報を新たに生成し、
前記フィルタ設定部は、前記重畳部により新たに生成された当該重畳音情報を用いて、前記音源分離フィルタを更新する、情報処理装置である。

【0010】

請求項５に記載の発明は、
移動体内にある通信端末を少なくとも用いる情報処理システムの制御方法であって、
前記情報処理システムは、所定のキーワードを検知すると音声認識システムとして機能するように構成されており、
前記情報処理システムを実現する１以上のコンピュータが、
前記所定のキーワードの音に関するキーワード音情報を用いて、予め記憶部に記憶された搭乗者の音声に関するユーザ音声情報の中から、前記移動体内で前記所定のキーワードを発話した搭乗者に対応する前記ユーザ音声情報を特定しつつ、特定した当該ユーザ音声情報を前記記憶部から取得し、
前記移動体内のノイズに関するノイズ情報を取得し、
前記ユーザ音声情報と前記ノイズ情報とを重畳して重畳音情報を生成する重畳部と、
前記重畳音情報を用いて、音源分離フィルタを設定し、
前記移動体内の音に関する移動体内音情報を取得し、
前記音源分離フィルタを用いて、前記移動体内音情報を分離し、
前記移動体内の搭乗者が、前記所定のキーワードを発話するたびに、当該搭乗者における前記キーワード音情報を用いて、複数の前記ユーザ音声情報の中から、発話した当該搭乗者に対応する前記ユーザ音声情報を前記記憶部から取得し、
新たに取得した当該ユーザ音声情報と前記ノイズ情報とを重畳して重畳音情報を新たに生成し、
新たに生成された当該重畳音情報を用いて、前記音源分離フィルタを更新する、情報処理システムの制御方法である。

【0011】

請求項６に記載の発明は、
移動体内にある通信端末を少なくとも用いる情報処理システムを機能させるためのプログラムであって、
前記情報処理システムは、所定のキーワードを検知すると音声認識システムとして機能するように構成されており、
前記情報処理システムを実現する１以上のコンピュータに、
前記所定のキーワードの音に関するキーワード音情報を用いて、予め記憶部に記憶された搭乗者の音声に関するユーザ音声情報の中から、前記移動体内で前記所定のキーワードを発話した搭乗者に対応する前記ユーザ音声情報を特定しつつ、特定した当該ユーザ音声情報を前記記憶部から取得する手順、
前記移動体内のノイズに関するノイズ情報を取得する手順、
前記ユーザ音声情報と前記ノイズ情報とを重畳して重畳音情報を生成する重畳部と、
前記重畳音情報を用いて、音源分離フィルタを設定する手順、
前記移動体内の音に関する移動体内音情報を取得する手順、
前記音源分離フィルタを用いて、前記移動体内音情報を分離する手順、
前記移動体内の搭乗者が、前記所定のキーワードを発話するたびに、当該搭乗者における前記キーワード音情報を用いて、複数の前記ユーザ音声情報の中から、発話した当該搭乗者に対応する前記ユーザ音声情報を前記記憶部から取得する手順、
新たに取得した当該ユーザ音声情報と前記ノイズ情報とを重畳して重畳音情報を新たに生成する手順、
新たに生成された当該重畳音情報を用いて、前記音源分離フィルタを更新する手順、を実行させるためのプログラムである。

【図面の簡単な説明】

【0012】

【図1】第１実施形態に係る情報処理システムの機能を示すブロック図である。

【図2】情報処理装置のハードウエア構成例を示す図である。

【図3】フィルタ設定部が音源分離フィルタを設定するまでのフロー図である。

【図4】第１実施形態に係るステップＳ１００の詳細を表すフロー図である。

【図5】第１実施形態に係るステップＳ２００の詳細を表すフロー図である。

【図6】第２実施形態に係る情報処理装置の機能を示すブロック図である。

【図7】第２実施形態に係るステップＳ１００の詳細を表すフロー図である。

【図8】第３実施形態に係るステップＳ２００の詳細を表すフロー図である。

【図9】フィルタ設定部が第１基準を満たすかを判断する方法の一例を説明するための概略図である。

【図10】第４実施形態に係る情報処理装置の機能を示すブロック図である。

【図11】第５実施形態に係る情報処理装置の機能を示すブロック図である。

【発明を実施するための形態】

【0013】

以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。

【0014】

なお、以下に示す説明において、各装置の各構成要素は、ハードウエア単位の構成ではなく、機能単位のブロックを示している。各装置の各構成要素は、任意のコンピュータのＣＰＵ、メモリ、メモリにロードされたプログラム、そのプログラムを格納するハードディスクなどの記憶メディア、ネットワーク接続用インタフェースを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置には様々な変形例がある。

【0015】

＜第１実施形態＞
図１は、第１実施形態に係る情報処理システム１００の機能を示すブロック図である。図１を用いて、第１実施形態に係る情報処理システム１００について説明する。情報処理システム１００は、移動体内にある通信端末２を少なくとも用いる。第１実施形態において、情報処理システム１００は、情報処理装置１と通信端末２とを用いる。

【0016】

情報処理システム１００は、所定のキーワードを検知すると音声認識システムとして機能するように構成されている。所定のキーワードは、任意に設定されていてもよく、予め記憶部４に記憶されている。情報処理システム１００は、所定のキーワードを検知した後、所定のコマンドの入力を受付けると、当該コマンドに対応する処理を実行させる。

【0017】

例えば、所定のキーワードが「ｙｙｙ」として、「最寄りのコンビニを検索する」という所定のコマンドを入力する場合について説明する。この場合、搭乗者が「ｙｙｙ、最寄りのコンビニ探して」と発話したとき、情報処理システム１００は、所定のキーワードが「ｙｙｙ」を検知し、音声認識システムとして機能し、最寄りのコンビニを検索し、「５００ｍ先にコンビニがあります」のように、搭乗者に案内を出す。

【0018】

（情報処理装置１）
第１実施形態において、情報処理装置１は移動体の外に設けられている。情報処理装置１は、いわゆるクラウドサーバであってもよい。第１実施形態において、移動体は車両３である。情報処理装置１は、所定のキーワードを検知すると音声認識装置の少なくとも一部として機能するように構成されている。

【0019】

情報処理装置１は、通信ネットワーク１０１を介して、通信端末２（後述する）と通信可能な構成となっている。通信ネットワーク１０１は例えば、４Ｇ又は５Ｇ回線での通信を含む。情報処理装置１は、通信ネットワーク１０１を構成するための車外通信部（図示しない）を含んで構成されている。

【0020】

（通信端末２）
通信端末２は、車両３の内部にある。第１実施形態において、通信端末２は、車両３に搭載されている。通信端末２は、車両３の外から車両３の中に持ち込まれてもよい。通信端末２は、通信ネットワーク１０１を介して、情報処理装置１と通信可能な構成となっている。通信端末２は、通信ネットワーク１０１を構成するための車外通信部（図示しない）を含んで構成されている。

【0021】

第１実施形態において、通信端末２は、音声出力部２ａ、位置センサ部２ｂ、撮像部２ｃ、及び音声入力部２ｄを含んでいる。図示されていないが、通信端末２は、ディスプレイを含んでいてもよい。

【0022】

第１実施形態において、音声出力部２ａは、スピーカー（図示しない）を含んでいる。第１実施形態において、音声出力部２ａは、スピーカーを介して機械音声及び効果音の少なくとも一方を出力する。

【0023】

位置センサ部２ｂは、移動体の位置情報を、例えばＧＮＳＳ(Global Navigation Satellite System）により取得する。

【0024】

撮像部２ｃは、インカメラとアウトカメラを有する（図示しない）。インカメラは、車内に向いており、運転席が撮影範囲に含まれている。インカメラは、少なくともドライバが映るように、車両３内を撮影する。アウトカメラは、車両外に向いている。アウトカメラは、車両外の様子を撮影する。

【0025】

第１実施形態において、音声入力部２ｄは、マイク（図示しない）を含んでいる。車両３内の搭乗者（ドライバ、及び同乗者）が発話した音声は、マイクを介して音声入力部２ｄに入力される。

【0026】

（ユーザ音声取得部１０）
第１実施形態に係る情報処理装置１は、ユーザ音声取得部１０とノイズ取得部２０と重畳部３０とフィルタ設定部４０と移動体内音取得部５０と音源分離部６０とを備えている。ユーザ音声取得部１０は、記憶部４から、ユーザ音声情報を取得する。ユーザ音声情報は、搭乗者（ドライバ、及び同乗者）の音声に関する情報である。ユーザ音声情報は、記憶部４に予め記憶されている。

【0027】

ユーザ音声情報は、搭乗者の音声の音圧、音量、及び周波数に関する情報の少なくともいずれか１つを含んでいる。ユーザ音声情報は、音声波形のデータを含んでいてもよい。ユーザ音声情報は、例えば、音声波形データから変換されたテキスト情報を含んでいてもよい。

【0028】

ユーザ音声取得部１０は、記憶部４に記憶にされた複数のユーザ音声情報の中から、車両３内の搭乗者に対応するユーザ音声情報を特定しつつ、特定した当該ユーザ音声情報を記憶部４から取得する。例えば、搭乗者（ドライバ）が１人の場合、ユーザ音声取得部１０は、撮像部２ｃにより撮像されて生成されたドライバの画像データを用いてドライバを認識し、当該ドライバに対応した（紐づいた）ユーザ音声情報を記憶部４から特定し、当該ユーザ音声情報を記憶部４から取得してもよい。

【0029】

第１実施形態において、ユーザ音声取得部１０は、所定のキーワードの音に関するキーワード音情報を用いて、車両３内で発話した搭乗者に対応するユーザ音声情報を特定する。キーワード音情報は、所定のキーワードの音の音圧、音量、及び周波数に関する情報の少なくともいずれか１つを含んでいる。キーワード音情報は、音声波形のデータを含んでいてもよい。キーワード音情報は、例えば、音声波形データから変換されたテキスト情報を含んでいてもよい。

【0030】

ユーザ音声取得部１０がキーワード音情報を用いて、車両３内で発話した搭乗者に対応するユーザ音声情報を特定する方法について具体的に説明する。例えば、あるドライバＵのユーザ音声情報が予め記憶部４に記憶されている場合、ドライバＵが、車両３内で所定のキーワードを発話したとする。そのとき、ユーザ音声取得部１０は、ドライバＵが発話した当該所定のキーワードの音に関するキーワード音情報（音声波形、音圧、音量、周波数、及び当該キーワードのテキスト情報など）を解析する。そして、ユーザ音声取得部１０は、その解析結果を用いて、予め記憶部４に記憶されたドライバＵのユーザ音声情報を特定する。

【0031】

なお、第１実施形態において、ユーザ音声取得部１０は、情報処理システム１００が起動した後、最初に所定のキーワードを発話した搭乗者に対応するユーザ音声情報を特定してもよい。

【0032】

（ノイズ取得部２０）
ノイズ取得部２０は、音声入力部２ｄ（マイク）を介して、ノイズ情報を取得する。ノイズ取得部２０は、車両３で走行中にリアルタイムでノイズ情報を取得する。ノイズ情報は、車両３のノイズ（騒音、雑音）に関する情報である。ノイズ情報は、例えば、エンジンの作動音、ワイパーの作動音、エアコンの風、窓の開閉音、車両３の走行音、車両３の外の環境に起因する音（工事現場での騒音など）、及びその他雑音に関する情報を含んでいる。第１実施形態において、ノイズ情報は、音声認識の対象とならない搭乗者の音声情報（搭乗者同士の会話、規定のキーワード音に該当しない発話など）を含んでいる。

【0033】

（重畳部３０）
重畳部３０は、ユーザ音声取得部１０が記憶部４から取得したユーザ音声情報と、車両３の走行中に取得したノイズ情報とを重畳して重畳音情報を生成する。重畳音情報は、ユーザ音声情報の搭乗者の音声に係る信号と、ノイズ情報のノイズ音に係る信号とを重ね合わせた信号に関する情報である。

【0034】

（フィルタ設定部４０）
フィルタ設定部４０は、重畳音情報を用いて、音源分離フィルタを設定する。音源分離フィルタは、音源成分から、音声認識に不要な雑音成分（車両３内の騒音、及び搭乗者の会話など）を除去するためのものである。第１実施形態において、フィルタ設定部４０は、重畳音情報を用いて、音源分離フィルタを生成するための所定のパラメータを計算し、当該パラメータを適用した音源分離フィルタを設定する。

【0035】

（移動体内音取得部５０）
移動体内音取得部５０は、音声入力部２ｄ（マイク）を介して、移動体内音情報を取得する。移動体内音情報は、車両３内の音に関する情報である。車両３内の音は、車両３内のノイズ（騒音、及び音声認識の対象とならない搭乗者同士の会話）、及び音声認識に用いられる搭乗者の発話音声を少なくとも含む。

【0036】

（音源分離部６０）
音源分離部６０は、音源分離フィルタを用いて、移動体内音情報を分離する。具体的には、音源分離部６０は、車両３内のノイズ情報を含む移動体内音情報から、音声認識に用いる、搭乗者の発話音声を分離する。このようにして、音源分離部６０は、移動体内音情報の中から音声認識に用いる搭乗者の発話音声情報を抽出する。

【0037】

（ハードウエア構成例）
図２は、情報処理装置１のハードウエア構成例を示す図である。情報処理装置１は、バス１０１０、プロセッサ１０２０、メモリ１０３０、ストレージデバイス１０４０、入出力インタフェース１０５０、及びネットワークインタフェース１０６０を有する。

【0038】

バス１０１０は、プロセッサ１０２０、メモリ１０３０、ストレージデバイス１０４０、入出力インタフェース１０５０、及びネットワークインタフェース１０６０が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ１０２０などを互いに接続する方法は、バス接続に限定されない。

【0039】

プロセッサ１０２０は、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）などで実現されるプロセッサである。

【0040】

メモリ１０３０は、ＲＡＭ（Random Access Memory）などで実現される主記憶装置である。

【0041】

ストレージデバイス１０４０は、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、メモリカードなどのリムーバブルメディア、又はＲＯＭ（Read Only Memory）などで実現される補助記憶装置であり、記録媒体を有している。ストレージデバイス１０４０の記録媒体は情報処理装置１の各機能（例えば、ユーザ音声取得部１０、ノイズ取得部２０、重畳部３０、フィルタ設定部４０、移動体内音取得部５０、及び音源分離部６０）を実現するプログラムモジュールを記憶している。プロセッサ１０２０がこれら各プログラムモジュールをメモリ１０３０上に読み込んで実行することで、そのプログラムモジュールに対応する各機能が実現される。また、ストレージデバイス１０４０は情報処理装置１に含まれた記憶部４として機能してもよい。

【0042】

入出力インタフェース１０５０は、情報処理装置１と各種入出力機器とを接続するためのインタフェースである。

【0043】

ネットワークインタフェース１０６０は、情報処理装置１をネットワークに接続するためのインタフェースである。このネットワークは、例えばＬＡＮ（Local Area Network）やＷＡＮ（Wide Area Network）である。ネットワークインタフェース１０６０がネットワークに接続する方法は、無線接続であってもよいし、有線接続であってもよい。情報処理装置１は、ネットワークインタフェース１０６０を介して通信端末２と通信してもよい。

【0044】

なお、通信端末２のハードウエア構成についても、上記と同様であってもよい。

【0045】

（第１実施形態の動作例１）
図３は、フィルタ設定部４０が音源分離フィルタを設定するまでのフロー図である。ステップＳ１００において、ユーザ音声取得部１０は、音源分離フィルタの設定に用いるユーザ音声情報を記憶部４から取得する。ステップＳ２００において、フィルタ設定部４０は、当該ユーザ音声情報を用いて、音源分離フィルタを設定する。

【0046】

（第１実施形態の動作例２）
図４は、第１実施形態に係るステップＳ１００の詳細を表すフロー図である。図４を用いて、ユーザ音声取得部１０が、音源分離フィルタの設定に用いるユーザ音声情報を記憶部４から取得するまでのフローについて説明する。

【0047】

ステップＳ１１０では、車両３内の搭乗者が所定のキーワードを発話したとき、ユーザ音声取得部１０は、当該所定のキーワードの音に関するキーワード音情報を取得する。

【0048】

ステップＳ１２０では、ユーザ音声取得部１０は、当該キーワード音情報を用いて、車両３内で当該所定のキーワードを発話した搭乗者に対応するユーザ音声情報を特定する。具体的には例えば、あるドライバＵの「ｙｙｙ」という音声のユーザ音声情報が予め記憶部４に記憶されているとして、ドライバＵが、車両３内で所定のキーワード「ｙｙｙ」を発話したとする。そのとき、ユーザ音声取得部１０は、ドライバＵが発話した所定のキーワード（「ｙｙｙ」）の音声情報を解析する。そして、ユーザ音声取得部１０は、ドライバＵが発話した「ｙｙｙ」という音声情報と記憶部４に予め記憶された「ｙｙｙ」という音声のユーザ音声情報との類似度（どのくらい類似しているか）が所定の基準を満たすか（例えば「ｙｙｙ」のテキスト情報がどのくらい一致しているか）を判断し、所定の基準を満たす場合に、ドライバＵのユーザ音声情報を特定してもよい。

【0049】

ステップＳ１３０では、ユーザ音声取得部１０は、ステップＳ１２０において特定したドライバＵのユーザ音声情報を記憶部４から取得する。

【0050】

（第１実施形態の動作例３）
図５は、第１実施形態に係るステップＳ２００の詳細を表すフロー図である。図５を用いて、フィルタ設定部４０が、音源分離フィルタを設定するまでの流れについて説明する。

【0051】

ステップＳ２１０では、ノイズ取得部２０は、車両３内のリアルタイムのノイズ情報を取得し、当該ノイズ情報を記憶部４（又はメモリ１０３０）に記憶させる。

【0052】

ステップＳ２２０では、重畳部３０は、ステップＳ１３０で取得したドライバＵのユーザ音声情報と、ステップＳ２１０で記憶部４（又はメモリ１０３０）に記憶したノイズ情報とを重畳して、重畳音情報を生成する。

【0053】

ステップＳ２３０では、フィルタ設定部４０は、当該重畳音情報を用いて、音源分離フィルタを生成するための所定のパラメータを計算し、当該パラメータを適用した音源分離フィルタを設定する。

【0054】

なお、第１実施形態において、図３のステップＳ２００で、音源分離フィルタを設定するタイミングは任意である。ただし、Ｓ２００で音源分離フィルタを設定するにあたっては、どのユーザ音声情報を用いるかは予め特定されている必要がある。

【0055】

なお、どのユーザ音声情報を音源分離フィルタの設定に用いるかは、所定のアクションにより切り替わっていってもよい（ドライバが交代し、交代した直後のドライバが所定のキーワードを発話したときなど）。例えば、第１実施形態において、情報処理システム１００が起動した後（又は車両３のエンジンを起動した後）、搭乗者が所定のキーワードを発話した場合、当該搭乗者に対応するユーザ音声情報が特定され、音源分離フィルタの設定に用いるユーザ音声情報を、前回用いていたユーザ音声情報から、今回新たに特定されたユーザ音声情報に切り換えてもよい。

【0056】

以上、第１実施形態によれば、情報処理装置１は、ユーザ音声取得部１０と、ノイズ取得部２０と、重畳部３０と、フィルタ設定部４０と、移動体内音取得部５０と、音源分離部６０とを備えている。

【0057】

予め記憶部４に記憶されたユーザ音声情報と、リアルタイムで取得したノイズ情報を重畳した重畳音情報を用いて音源分離フィルタの計算をし、音源分離フィルタの設定をすることにより、精度よく音源分離することができる。そのため、音声認識精度を向上させることができる。

【0058】

さらに、ユーザ音声取得部１０は、複数のユーザ音声情報の中から、車両３内の搭乗者に対応するユーザ音声情報を特定しつつ、特定した当該ユーザ音声情報を記憶部４から取得する。そして、重畳部３０は、ユーザ音声取得部１０が特定した当該ユーザ音声情報を用いて、重畳音情報を生成する。そして、フィルタ設定部４０は、当該重畳音情報を用いて、音源分離フィルタを設定する。車両３内の搭乗者に対応するユーザ音声情報を用いて、音源分離フィルタを設定することにより、精度よく音源分離することができる。

【0059】

さらに、ユーザ音声取得部１０は、所定のキーワードの音に関するキーワード音情報を用いて、車両３内で発話した搭乗者に対応するユーザ音声情報を特定する。そして、ユーザ音声取得部１０は、特定した当該ユーザ音声情報を記憶部４から取得する。そして、フィルタ設定部４０は、当該ユーザ音声情報を用いて、音源分離フィルタを設定する。

【0060】

車両３内で所定のキーワードを発話した搭乗者に対応するユーザ音声情報を用いて、音源分離フィルタを設定することにより、精度よく音源分離することができる。これにより、効果的に音声認識精度を向上させることができる。

【0061】

さらに、ユーザ音声取得部１０は、情報処理システム１００が起動した後、最初に所定のキーワードを発話した搭乗者に対応するユーザ音声情報を特定する。これにより、音源分離フィルタの設定に用いるユーザ音声情報を効果的に特定し、取得することができる。

【0062】

＜第２実施形態＞
図６は、第２実施形態に係る情報処理装置１の機能を示すブロック図である。第２実施形態に係る情報処理装置１は、第１実施形態と異なり、検知部７０をさらに備えている。

【0063】

（検知部７０）
検知部７０は、車両３の搭乗者（ドライバ、同乗者）が変わったことを検知する。第２実施形態において、搭乗者はドライバである。第２実施形態において、検知部７０は、車両３のドライバが、別のドライバに入れ変わったことを検知する。

【0064】

第２実施形態において、検知部７０は、車両３内に搭載された撮像部２ｃにより撮像された撮像画像、車両３のドアの開閉(開閉音を含む)、及び搭乗者のシートベルト着脱の少なくとも１つを用いて、搭乗者が変わったことを検知してもよい。

【0065】

第２実施形態において、検知部７０が、搭乗者（ドライバ）が変わったことを検知した後、ユーザ音声取得部１０は、所定のキーワードを発話した搭乗者に対応するユーザ音声情報を特定しつつ、特定した当該ユーザ音声情報を記憶部４から取得する。

【0066】

（第２実施形態の動作例）
図７は、第２実施形態に係るステップＳ１００の詳細を表すフロー図である。図７を用いて、第２実施形態に係るユーザ音声取得部１０が、音源分離フィルタの設定に用いるユーザ音声情報を記憶部４から取得するまでのフローについて説明する。

【0067】

ステップＳ１０６では、検知部７０は、車両３の搭乗者が変わったことを検知する。例えば、ドライバであったユーザＵ１が助手席のユーザＵ２と運転を変わった場合、検知部７０は、新たに運転席に座ったユーザＵ２の撮像部２ｃにより撮像された撮像画像を用いて、ドライバが、ユーザＵ１からユーザＵ２に変わったことを検知する。

【0068】

ステップＳ１１１では、ユーザＵ１と運転を入れ替わったユーザＵ２が、所定のキーワードを発話したとき、ユーザ音声取得部１０は、当該所定のキーワードの音に関するキーワード音情報を取得する。

【0069】

ステップＳ１２１では、ユーザ音声取得部１０は、当該キーワード音情報を用いて、ユーザＵ２に対応するユーザ音声情報を特定する。

【0070】

ステップＳ１３１では、ユーザ音声取得部１０は、ステップＳ１２１において特定したユーザＵ２のユーザ音声情報を記憶部４から取得する。

【0071】

そして、第１実施形態で述べたステップＳ２１０以降で、ステップＳ１３１で取得したユーザ音声情報を用いて、音源分離フィルタを設定する。

【0072】

以上、第２実施形態によれば、情報処理装置１は検知部７０をさらに備えている。そして、ユーザ音声取得部１０は、搭乗者（ドライバ）が変わった後に所定のキーワードを発話した、入れ替わった後のドライバに対応するユーザ音声情報を特定する。これにより、音源分離フィルタの設定に用いるユーザ音声情報を効果的に特定することができる。

【0073】

さらに、検知部７０は、車両３内に搭載された撮像部２ｃにより撮像された撮像画像、車両３のドアの開閉、及び搭乗者のシートベルト着脱の少なくとも１つを用いて、搭乗者が変わったことを検知する。これにより、搭乗者が入れ変わったことを精度よく検知することができる。

【0074】

＜第３実施形態＞
第３実施形態に係る情報処理装置１は、第１実施形態と異なり、フィルタ設定部４０の機能の一部が異なっている。第３実施形態に係るフィルタ設定部４０は、移動体内音情報を用いて、音源分離フィルタを更新する。音源分離フィルタを更新するとは、前回使っていた音源分離フィルタを別の音源分離フィルタ（所定のパラメータを再度計算）に切り替えることである。

【0075】

上記移動体内音情報は、車両３内の音の音圧に関する情報、音量に関する情報、及び周波数に関する情報の少なくともいずれか１つを含む。第３実施形態に係るフィルタ設定部４０は、車両３内の音圧、音量、及び周波数の少なくともいずれか１つが所定基準を満たしたとき、音源分離フィルタを更新する。

【0076】

（第３実施形態の動作例）
図８は、第３実施形態に係るステップＳ２００の詳細を表すフロー図である。図８を用いて、第３実施形態に係るフィルタ設定部４０が、音源分離フィルタを更新するまでのフローについて説明する。なお、図８において、音源分離フィルタの更新に用いるユーザ音声情報は、ユーザ音声取得部１０により予め取得されているものとする。

【0077】

ステップＳ２０２では、フィルタ設定部４０（又は移動体内音取得部５０）は、音声入力部２ｄ（マイク）から、走行中に、移動体内音情報を取得する。

【0078】

ステップＳ２０５では、フィルタ設定部４０は、ステップＳ２０２で取得した移動体内音情報に係る音圧、音量、及び周波数の少なくともいずれか１つが所定基準（第１基準）を満たすか否かを判断する。上記所定基準（第１基準）を満たす場合（ステップＳ２０５でＹＥＳ）、ステップＳ２１１に進む。上記所定基準（第１基準）を満たさない場合（ステップＳ２０５でＮＯ）、処理を終了する。ステップＳ２１１、ステップＳ２２１、及びステップＳ２３１の処理は、第１実施形態と同様である。

【0079】

図９は、フィルタ設定部４０が第１基準を満たすかを判断する方法の一例を説明するための概略図である。図９の横軸は、時間ｔを表しており、縦軸は音圧レベルＬｐを表している。図９の横軸に示すように、時間軸は所定の時刻（時刻Ｎ―１、時刻Ｎ、時刻Ｎ＋１、時刻Ｎ＋２…）で区切られている。例えば、時刻Ｎ＝１［ｓ］、時刻Ｎ＋１＝２［ｓ］、時刻Ｎ＋２＝３［ｓ］・・・である。さらに、図９中には、音圧レベルの単位をｄＢ(デシベル)とし、上記所定の時刻間で音圧レベルの平均をとったものを平均音圧レベルとして表記している。例えば、時刻Ｎと時刻Ｎ＋１の間における平均音圧レベルは５２［ｄＢ］である。

【0080】

以下、フィルタ設定部４０が移動体内音情報を用いて、音源分離フィルタを更新する際の具体的な方法について説明する。第３実施形態において、フィルタ設定部４０は、ある時刻間（例：図９の時刻Ｎ＋２と時刻Ｎ＋３との間）における平均の音圧と、その前の時刻間（例：図９の時刻Ｎ＋１と時刻Ｎ＋２との間）における平均の音圧との差を検出する。そして、フィルタ設定部４０は、当該平均の音圧の差が第１基準を満たすか否かを判断する。

【0081】

第３実施形態において、車両３内の音圧が第１基準を満たす場合は、当該平均の音圧の差が３［ｄＢ］を超える場合であるとする。この場合、フィルタ設定部４０は、例えば、時刻Ｎ＋２の時点において、第１基準を満たすと判断する。理由としては、時刻Ｎと時刻Ｎ＋１との間における平均の音圧（５２ｄＢ）と、時刻Ｎ＋１と時刻Ｎ＋２との間における平均の音圧（７０ｄＢ）との差は、１８ｄＢであるからである。

【0082】

そして、フィルタ設定部４０が、車両３内の音圧（音圧の差）が第１基準を満たすと判断した場合（図８のステップＳ２０５でＹＥＳ）、ステップＳ２１１で、ノイズ取得部２０は、そのとき（時刻Ｎ＋２の時点）のノイズ情報を取得する。そして、ステップＳ２１２以降のフローで、音源分離フィルタを計算し、前回使用していた音源分離フィルタから、計算したあとの音源分離フィルタに更新（変更）する。

【0083】

また、フィルタ設定部４０は、時刻Ｎ＋４の時点においても、車両３内の音圧が第１基準を満たすと判断するので（理由は上述したものと同じ）、上記と同様に音源分離フィルタを更新する。

【0084】

なお、車両３内の音圧が第１基準を満たさない場合、フィルタ設定部４０は、音源分離フィルタを更新しない。すなわち、時刻Ｎ＋１の時点、及び時刻Ｎ＋３の時点では、音源分離フィルタを更新しない。

【0085】

以上、第３実施形態に係るフィルタ設定部４０は、移動体内音情報を用いて、音源分離フィルタを更新する。車両３内の音が所定基準以上変化したときは、ノイズの種類などが変わったときなので、車両３内の音が所定基準以上変化したタイミングで音源分離フィルタを更新することにより、音源分離フィルタの精度を向上させることができる。

【0086】

より具体的には、車両３内の音が所定基準以上変化したタイミングは、ノイズ情報（騒音データ）が大きく変化していることであるので、そのときのリアルタイムのノイズ情報（騒音データ）と予め記憶されたユーザ音声情報とを音源分離フィルタの設定に用いることで、音源分離フィルタの精度を向上させることができる。これにより、音声認識精度をより向上することができる。

【0087】

さらに、移動体内音情報は、車両３内の音の音圧、音量、及び周波数に関する情報の少なくともいずれか１つを含む。これにより、音源分離フィルタの精度をより向上させることができる。

【0088】

フィルタ設定部４０は、音圧、音量、及び周波数の少なくともいずれか１つが所定基準（第１基準）を満たしたとき音源分離フィルタを更新する。これにより、音源分離フィルタの精度をより向上させることができる。

【0089】

＜第４実施形態＞
図１０は、第４実施形態に係る情報処理装置１の機能を示すブロック図である。第４実施形態に係る情報処理装置１は、第１実施形態と異なり、デバイス情報取得部８０をさらに備えている。

【0090】

（デバイス情報取得部８０）
デバイス情報取得部８０は、車両３内のドライバの通信デバイスから、ドライバ特定情報を取得する。通信デバイスは、例えば、スマートフォン、タブレット、及びＰＣの少なくとも１つを含む。ドライバ特定情報は、ドライバを特定可能な情報である。

【0091】

ユーザ音声取得部１０は、デバイス情報取得部８０が取得したドライバ特定情報に対応するユーザ音声情報を特定する。そして、ユーザ音声取得部１０は、特定した当該ユーザ音声情報を記憶部４から取得する。

【0092】

例えば、ドライバが車両３に乗り込んだ際、ドライバが所有するスマートフォン（通信デバイス）と通信端末２とが所定の通信ネットワーク（例えばBluetooth（登録商標））を介して、通信したとする。そして、このとき、デバイス情報取得部８０は、通信端末２を介して、当該ドライバのスマートフォンから、当該ドライバを識別するＩＤ（例えば、当該ドライバのスマートフォンの端末ＩＤ）を取得する。そして、デバイス情報取得部８０は、記憶部４に予め記憶された当該ドライバを識別するＩＤと紐づくユーザ音声情報を特定する。このようにして、ユーザ音声取得部１０は、デバイス情報取得部８０が取得したドライバ特定情報（ドライバを識別するＩＤ）に対応するユーザ音声情報を特定してもよい。

【0093】

以上、第４実施形態によれば、情報処理装置１は、デバイス情報取得部８０をさらに備えている。これにより、ドライバに対応するユーザ音声情報を簡易に特定することができる。

【0094】

＜第５実施形態＞
図１１は、第５実施形態に係る情報処理装置１の機能を示すブロック図である。第５実施形態に係る情報処理装置１は、第１実施形態と異なり、制御部９０と記憶処理部９５とをさらに備えている。第５実施形態に係るユーザ音声取得部１０、フィルタ設定部４０、及び音源分離部６０の機能の一部は、第１実施形態と異なっている。

【0095】

第１実施形態と同様に、第５実施形態に係るユーザ音声取得部１０は、所定のキーワードの音に関するキーワード音情報を用いて、予め記憶部４に記憶されたユーザ音声情報の中から、車両３内で所定のキーワードを発話した搭乗者に対応するユーザ音声情報を特定しつつ、特定した当該ユーザ音声情報を記憶部４から取得する。

【0096】

第５実施形態に係るフィルタ設定部４０が音源分離フィルタを設定するまでのフローは、図３、図４、及び図５で説明したフローと同様であるが、第５実施形態に係るフィルタ設定部４０は、車両３内の搭乗者が、所定のキーワードを発話するたびに、音源分離フィルタを更新する。

【0097】

具体的には、ユーザ音声取得部１０は、車両３内の搭乗者が、所定のキーワードを発話するたびに、当該搭乗者におけるキーワード音情報を用いて、複数のユーザ音声情報の中から、発話した当該搭乗者に対応するユーザ音声情報を記憶部４から取得する。そして、重畳部３０は、ユーザ音声取得部１０が新たに取得した当該ユーザ音声情報とノイズ情報とを重畳して重畳音情報を新たに生成する。そして、フィルタ設定部４０は、重畳部３０により新たに生成された当該重畳音情報を用いて、音源分離フィルタを更新する。このようにして、第５実施形態に係るフィルタ設定部４０は、車両３内の搭乗者が、所定のキーワードを発話するたびに、音源分離フィルタを更新する。

【0098】

これにより、複数の搭乗者の各々が所定のキーワードを発話したり、所定のキーワードを発話する搭乗者が入れ変わったりした場合でも、そのたびに音源分離フィルタが更新される（発話する搭乗者ごとにフィルタが設定される）ので、音源分離の精度が向上される。これにより、音声認識精度を効果的に向上させることができる。

【0099】

（制御部９０、記憶処理部９５）
制御部９０は、所定のキーワードを検知した後、所定のコマンドの入力を受付けると、当該コマンドに対応する処理を実行させる。所定のコマンドは、当該コマンドに対応する処理を実行させるためのワードである。第５実施形態において、所定のコマンドは、所定のキーワードに続けて、搭乗者に発話される。

【0100】

（記憶処理部９５）
記憶処理部９５は、所定のキーワードの後に搭乗者が発話する所定のコマンドの音に関するコマンド音情報を記憶部４又はメモリ１０３０に記憶させる。コマンド音情報は、搭乗者が発話したコマンドに対応する音声情報と、ノイズ音情報と含む。

【0101】

フィルタ設定部４０は、制御部９０が検知した所定のキーワードの音に関するキーワード音情報を用いて、音源分離フィルタを設定する。そして、音源分離部６０は、当該音源分離フィルタを用いて、制御部９０が検知した所定のキーワードの後に搭乗者が発話した所定のコマンドの音に関するコマンド音情報（記憶部４又はメモリ１０３０に記憶されている）を分離する。

【0102】

より具体的には、例えば、所定のキーワードが「ｚｚｚ」として、「目的地までの渋滞情報を取得する」という所定のコマンドを入力する場合について説明する。搭乗者が「ｚｚｚ、目的地Ｇまでの渋滞情報を教えて」と発話したとき、まず、フィルタ設定部４０は、制御部９０が検知したキーワード音情報としての「ｚｚｚ」を用いて、音源分離フィルタを設定する処理を実行する（音源分離フィルタを設定する処理は第１実施形態で述べたものと同様である）。そして、その処理と同時に記憶処理部９５は、コマンド音情報としての「目的地Ｇまでの渋滞情報を教えて」を、記憶部４又はメモリ１０３０に記憶させる。そして、音源分離部６０は、フィルタ設定部４０が音源分離フィルタを設定する処理が終了した後に、記憶部４又はメモリ１０３０に記憶させておいたコマンド音情報に、当該音源分離フィルタを適用して、コマンド音情報に係る音源を分離する。そして、音源分離部６０は、コマンド音情報の中から、音声認識に用いられる音声情報を抽出する。

【0103】

通常、音源分離フィルタを設定する処理には、ある一定の時間を要する。そのため、搭乗者が所定のキーワードの後に続けて所定のコマンドを発話した場合、当該所定のキーワードを用いて音源分離フィルタを生成し、生成したばかりの音源分離フィルタを用いて、当該所定のコマンドの音源を分離しようとしても処理が間に合わない。

【0104】

しかし上述したように、搭乗者が所定のキーワードを発話したタイミングで音源分離フィルタの生成処理が実行され、生成されたばかりの音源分離フィルタを、記憶部４又はメモリ１０３０に記憶させたコマンド音情報に適用することで、所定のキーワードの後に続けて発話されたコマンドに対しても音源分離処理を適用することができる。そのため、搭乗者（ドライバ）が入れ替わった後、最初に所定のコマンド処理を実行しようとしたとしても、当該コマンドに対して音源分離処理を適用することができる。そのため、音声認識精度が向上する。

【0105】

さらに、第５実施形態において、制御部９０が所定のキーワードを検知した後、フィルタ設定部４０が当該所定のキーワードの音に関するキーワード音情報を用いて音源分離フィルタを更新する時間が所定時間以上（例えば１０［ｓ］以上）かかる場合、音源分離部６０は、前回使用した音源分離フィルタを用いて、制御部９０が検知した所定のキーワードの後に搭乗者が発話した所定のコマンドの音に関するコマンド音情報（記憶部４又はメモリ１０３０に記憶）を分離する。

【0106】

搭乗者が、所定のキーワードに続けて所定のコマンドを発話した場合、フィルタ設定部４０が当該所定のキーワードの音に関するキーワード音情報を用いて音源分離フィルタを更新してから、更新したばかりの当該音源分離フィルタを当該所定のコマンドに適用する時間が足りない場合もある。

【0107】

しかし、当該時間が足りない場合（音源分離フィルタを更新する時間が所定時間以上かかる場合）、前回使用していた音源分離フィルタを用いて、コマンド音情報の音源分離処理を行う。これにより、音源分離精度が悪化することを抑制することができる。

【0108】

以上、図面を参照して実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。

【0109】

車両３内の搭乗者に対応するユーザ音声情報が記憶部４に予め記憶されていない場合、情報処理システム１００は、当該搭乗者の音声情報を登録するように当該搭乗者に促してもよい。具体的には例えば、音声出力部２ａより「今日の体調はいかがですか」などと機械音声が出力され、当該機械音声に対して返事をすることで、その返事に関する音声データが記憶部４に記憶されることになる。

【0110】

また、車両３内の搭乗者に対応するユーザ音声情報が記憶部４に既に記憶されてる場合であっても、情報処理システム１００が起動したときに、情報処理システム１００は、当該搭乗者の音声情報を登録するように当該搭乗者に促してもよい。理由としては、同じ搭乗者でも日によって音声が変わる場合があるので（風邪気味のときなど）、常に最新の音声情報を記憶しておいた方が音源分離の精度が向上するためである。

【0111】

また、情報処理システム１００は、情報処理装置１、及び通信端末２などの１以上のコンピュータを用いて実現される。情報処理システム１００を実現するためにコンピュータをいくつ用いるかは任意である。

【0112】

また、第１実施形態において、ユーザ音声取得部１０、ノイズ取得部２０、重畳部３０、フィルタ設定部４０、移動体内音取得部５０、及び音源分離部６０は、情報処理装置１に設けられている構成で記載してきたが、ユーザ音声取得部１０、ノイズ取得部２０、重畳部３０、フィルタ設定部４０、移動体内音取得部５０、音源分離部６０、及び記憶部４の少なくとも一部の機能が通信端末２に設けられている構成であってもよい。なお、ユーザ音声取得部１０、ノイズ取得部２０、重畳部３０、フィルタ設定部４０、移動体内音取得部５０、及び音源分離部６０を備える通信端末２についても、第１実施形態と同様の作用効果が奏される。

【0113】

また、ユーザ音声取得部１０、ノイズ取得部２０、重畳部３０、フィルタ設定部４０、移動体内音取得部５０、音源分離部６０、及び記憶部４の全てが、通信端末２に搭載されている構成であってもよい。

【0114】

また、第３実施形態に係るフィルタ設定部４０は、移動体内音情報を用いて、音源分離フィルタを更新するが、フィルタ設定部４０は、当該移動体内音情報から、搭乗者が発話した所定のキーワードの音に関するキーワード音情報を除くことができる。具体的には、搭乗者が発話した所定のキーワードの音に関するキーワード音情報が移動体内音情報に混じると、当該キーワード音情報を用いて、誤って音源分離フィルタを更新してしまう場合があるので、これを防ぐために当該移動体内音情報から、当該キーワード音情報を除くことができる。

【0115】

以下、参考形態の例を付記する。
１．移動体内にある通信端末を少なくとも用いる情報処理システムであって、
前記情報処理システムは、所定のキーワードを検知すると音声認識システムとして機能するように構成されており、
前記所定のキーワードの音に関するキーワード音情報を用いて、予め記憶部に記憶された搭乗者の音声に関するユーザ音声情報の中から、前記移動体内で前記所定のキーワードを発話した搭乗者に対応する前記ユーザ音声情報を特定しつつ、特定した当該ユーザ音声情報を前記記憶部から取得するユーザ音声取得部と、
前記移動体内のノイズに関するノイズ情報を取得するノイズ取得部と、
前記ユーザ音声情報と前記ノイズ情報とを重畳して重畳音情報を生成する重畳部と、
前記重畳音情報を用いて、音源分離フィルタを設定するフィルタ設定部と、
前記移動体内の音に関する移動体内音情報を取得する移動体内音取得部と、
前記音源分離フィルタを用いて、前記移動体内音情報を分離する音源分離部と、を備え、
前記ユーザ音声取得部は、前記移動体内の搭乗者が、前記所定のキーワードを発話するたびに、当該搭乗者における前記キーワード音情報を用いて、複数の前記ユーザ音声情報の中から、発話した当該搭乗者に対応する前記ユーザ音声情報を前記記憶部から取得し、
前記重畳部は、前記ユーザ音声取得部が新たに取得した当該ユーザ音声情報と前記ノイズ情報とを重畳して重畳音情報を新たに生成し、
前記フィルタ設定部は、前記重畳部により新たに生成された当該重畳音情報を用いて、前記音源分離フィルタを更新する、情報処理システム。
２．１．に記載の情報処理システムにおいて、
前記所定のキーワードを検知した後、所定のコマンドの入力を受付けると、当該コマンドに対応する処理を実行させる制御部と、
前記所定のキーワードの後に前記搭乗者が発話する前記所定のコマンドの音に関するコマンド音情報を記憶させる記憶処理部と、をさらに備え、
前記フィルタ設定部は、前記制御部が検知した前記所定のキーワードの音に関するキーワード音情報を用いて、前記音源分離フィルタを設定し、
前記音源分離部は、当該音源分離フィルタを用いて、前記制御部が検知した前記所定のキーワードの後に前記搭乗者が発話した所定のコマンドの音に関する前記コマンド音情報を分離する、情報処理システム。
３．２．に記載の情報処理システムにおいて、
前記制御部が前記所定のキーワードを検知した後、前記フィルタ設定部が当該所定のキーワードの音に関するキーワード音情報を用いて前記音源分離フィルタを更新する時間が所定時間以上かかる場合、前記音源分離部は、前回使用した前記音源分離フィルタを用いて、前記制御部が検知した前記所定のキーワードの後に前記搭乗者が発話した所定のコマンドの音に関する前記コマンド音情報を分離する、情報処理システム。
４．情報処理装置であって、
前記情報処理装置は、所定のキーワードを検知すると音声認識装置の少なくとも一部として機能するように構成されており、
前記所定のキーワードの音に関するキーワード音情報を用いて、予め記憶部に記憶された搭乗者の音声に関するユーザ音声情報の中から、移動体内で前記所定のキーワードを発話した搭乗者に対応する前記ユーザ音声情報を特定しつつ、特定した当該ユーザ音声情報を前記記憶部から取得するユーザ音声取得部と、
前記移動体内のノイズに関するノイズ情報を取得するノイズ取得部と、
前記ユーザ音声情報と前記ノイズ情報とを重畳して重畳音情報を生成する重畳部と、
前記重畳音情報を用いて、音源分離フィルタを設定するフィルタ設定部と、
前記移動体内の音に関する移動体内音情報を取得する移動体内音取得部と、
前記音源分離フィルタを用いて、前記移動体内音情報を分離する音源分離部と、を備え、
前記ユーザ音声取得部は、前記移動体内の搭乗者が、前記所定のキーワードを発話するたびに、当該搭乗者における前記キーワード音情報を用いて、複数の前記ユーザ音声情報の中から、発話した当該搭乗者に対応する前記ユーザ音声情報を前記記憶部から取得し、
前記重畳部は、前記ユーザ音声取得部が新たに取得した当該ユーザ音声情報と前記ノイズ情報とを重畳して重畳音情報を新たに生成し、
前記フィルタ設定部は、前記重畳部により新たに生成された当該重畳音情報を用いて、前記音源分離フィルタを更新する、情報処理装置。
５．移動体内にある通信端末を少なくとも用いる情報処理システムの制御方法であって、
前記情報処理システムは、所定のキーワードを検知すると音声認識システムとして機能するように構成されており、
前記情報処理システムを実現する１以上のコンピュータが、
前記所定のキーワードの音に関するキーワード音情報を用いて、予め記憶部に記憶された搭乗者の音声に関するユーザ音声情報の中から、前記移動体内で前記所定のキーワードを発話した搭乗者に対応する前記ユーザ音声情報を特定しつつ、特定した当該ユーザ音声情報を前記記憶部から取得し、
前記移動体内のノイズに関するノイズ情報を取得し、
前記ユーザ音声情報と前記ノイズ情報とを重畳して重畳音情報を生成する重畳部と、
前記重畳音情報を用いて、音源分離フィルタを設定し、
前記移動体内の音に関する移動体内音情報を取得し、
前記音源分離フィルタを用いて、前記移動体内音情報を分離し、
前記移動体内の搭乗者が、前記所定のキーワードを発話するたびに、当該搭乗者における前記キーワード音情報を用いて、複数の前記ユーザ音声情報の中から、発話した当該搭乗者に対応する前記ユーザ音声情報を前記記憶部から取得し、
新たに取得した当該ユーザ音声情報と前記ノイズ情報とを重畳して重畳音情報を新たに生成し、
新たに生成された当該重畳音情報を用いて、前記音源分離フィルタを更新する、情報処理システムの制御方法。
６．移動体内にある通信端末を少なくとも用いる情報処理システムを機能させるためのプログラムであって、
前記情報処理システムは、所定のキーワードを検知すると音声認識システムとして機能するように構成されており、
前記情報処理システムを実現する１以上のコンピュータに、
前記所定のキーワードの音に関するキーワード音情報を用いて、予め記憶部に記憶された搭乗者の音声に関するユーザ音声情報の中から、前記移動体内で前記所定のキーワードを発話した搭乗者に対応する前記ユーザ音声情報を特定しつつ、特定した当該ユーザ音声情報を前記記憶部から取得する手順、
前記移動体内のノイズに関するノイズ情報を取得する手順、
前記ユーザ音声情報と前記ノイズ情報とを重畳して重畳音情報を生成する重畳部と、
前記重畳音情報を用いて、音源分離フィルタを設定する手順、
前記移動体内の音に関する移動体内音情報を取得する手順、
前記音源分離フィルタを用いて、前記移動体内音情報を分離する手順、
前記移動体内の搭乗者が、前記所定のキーワードを発話するたびに、当該搭乗者における前記キーワード音情報を用いて、複数の前記ユーザ音声情報の中から、発話した当該搭乗者に対応する前記ユーザ音声情報を前記記憶部から取得する手順、
新たに取得した当該ユーザ音声情報と前記ノイズ情報とを重畳して重畳音情報を新たに生成する手順、
新たに生成された当該重畳音情報を用いて、前記音源分離フィルタを更新する手順、を実行させるためのプログラム。

【符号の説明】

【0116】

１情報処理装置
２通信端末
３車両
４記憶部
１０ユーザ音声取得部
２０ノイズ取得部
３０重畳部
４０フィルタ設定部
５０移動体内音取得部
６０音源分離部
７０検知部
８０デバイス情報取得部
９０制御部
９５記憶処理部
１００情報処理システム

【図1】