(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0016】
以下、本発明の実施形態を図面を参照して説明する。
【0017】
図1は、本発明による音声制御システムの一実施形態を示すブロック図である。本実施形態の音声制御システムは、耐雑音処理モジュール10と、対話管理モジュール20と、情報端末30と、音声入力マイク41と、雑音入力マイク42とを備えている。
【0018】
情報端末30は、後述する耐雑音処理モジュール10によって処理された音声を利用して、各種処理を行う装置である。
図1に例示する情報端末30は、制御部31と、音声認識モジュール32と、サーバ型音声認識との通信モジュール33(以下、通信モジュール33と記す。)と、通話モジュール34とを含む。
【0019】
制御部31は、情報端末30の動作を制御する。音声認識モジュール32は、入力された音声を用いて音声認識を行うモジュールである。通信モジュール33は、入力された音声を、音声認識が行われる他の装置に送信するモジュールである。通話モジュール34は、通話を行うためのモジュールである。
【0020】
本実施形態では、音声認識モジュール32と、通信モジュール33とは、音声認識用に処理された音声を用いることが好ましいモジュールであり、通話モジュール34は、通話用に処理された音声を用いることが好ましいモジュールであるとする。
【0021】
なお、
図1に例示する情報端末30が搭載するモジュールは、上記内容に限定されない。情報端末30は、その他の音声利用モジュールを含んでいてもよく、音声を利用しないモジュールを含んでいてもよい。
【0022】
情報端末30は、例えば、車載情報端末や、携帯型情報端末などにより実現される。例えば、車載情報端末では、カーナビゲーションシステムや、音楽プレーヤーの操作の入力に音声が用いられる。また、例えば、携帯型情報端末では、音声検索や対話機能、通話機能を実行する際の入力に音声が用いられる。また、車載情報端末と携帯型情報端末の両方が用いられる場合、両端末が連携して音声入力機能を実現してもよい。
【0023】
音声入力マイク41および雑音入力マイク42には、ユーザが発声する音声や、周囲の雑音が入力される。本実施形態では、説明を簡易化するため、音声入力マイク41と、雑音入力マイク42の役割をそれぞれ分けているが、後述する耐雑音処理が実施可能であれば、音声や雑音が入力されるマイクは1つであってもよいし、マイクロフォンアレイのような形式であってもよい。
【0024】
耐雑音処理モジュール10は、音声認識用耐雑音処理部11と、通話用耐雑音処理部12と、制御部13とを含む。
【0025】
音声認識用耐雑音処理部11と通話用耐雑音処理部12のいずれも、音声入力マイク41および雑音入力マイク42に入力された音声に対して雑音を除去する処理(以下、耐雑音処理と記す。)を行い、処理後の音声を出力する。
【0026】
図2は、耐雑音処理の例を示す説明図である。
図2では、自動車内で雑音を除去する方法の一例を示している。一般に、音声入力マイク41と雑音入力マイク42は、自動車内で離れた位置に設置される。運転手が発した音声46は、音声入力マイク41と雑音入力マイク42のいずれにも入力される。一方、上述するように、自動車運転に伴う雑音47も同様に、音声入力マイク41と雑音入力マイク42のいずれにも入力される。
【0027】
ここで、2つのマイクが離れた位置に設置されるため、音声入力マイク41と雑音入力マイク42に入力される音声46の音量および入力時間に差が生じる。これは、雑音47についても同様である。このように、2つのマイクに入る音声と雑音の時間差および音量差を利用して、耐雑音処理が行われる。
【0028】
音声認識用耐雑音処理部11は、入力音声に対して音声認識用の耐雑音処理を行う。音声認識用の耐雑音処理は、雑音除去効果が高く、音声認識の性能を高くすることができるが、人間の耳には不自然に聞こえる音声が作成される傾向がある。
【0029】
音声認識用の耐雑音処理として、例えば、雑音推定を行うWiNE(Weighted Noise Estimation)法や、音声強調を行うMBW(Model−Based Wiener)法、音声区間を検出する方法などが用いられる。
【0030】
ただし、音声認識用耐雑音処理部11が音声認識用の耐雑音処理を行う方法は、上記方法に限定されない。音声認識用耐雑音処理部11は、広く知られた他の方法を用いて音声認識用の耐雑音処理を行ってもよい。なお、音声認識用の耐雑音処理は広く知られているため、ここでは詳細な説明は省略する。
【0031】
通話用耐雑音処理部12は、入力音声に対して通話用の耐雑音処理を行う。通話用の耐雑音処理は、人間の耳に自然に聞こえる音声が作成されるが、雑音除去効果が小さく、音声認識の性能を高くするのが難しい傾向がある。通話用の耐雑音処理として、例えば、NS−WiNE法や、エコーキャンセラなどが用いられる。
【0032】
図3は、耐音声処理モジュールの他の例を示す説明図である。
図3に例示するように、耐雑音処理モジュール10aは、マイク(音声入力マイク41および雑音入力マイク42)と、各雑音処理部(音声認識用耐雑音処理部11および通話用耐雑音処理部12)の間に、エコーキャンセラ14を含んでもよい。
【0033】
このとき、エコーキャンセラ14は、例えば、情報端末30から入力されるエコーキャンセル用のモノラル音声を用いて、エコーやハウリングを防止してもよい。
【0034】
ただし、通話用耐雑音処理部12が通話用の耐雑音処理を行う方法は、上記方法に限定されない。通話用耐雑音処理部12は、広く知られた他の方法を用いて通話用の耐雑音処理を行ってもよい。なお、通話用の耐雑音処理も広く知られているため、ここでは詳細な説明は省略する。
【0035】
制御部13は、対話管理モジュール20から受信する制御信号に基づいて、音声認識用耐雑音処理部11または通話用耐雑音処理部12が行う耐雑音処理を制御する。制御信号には、後述する情報端末30において入力される音声が用いられる状態を示す情報(以下、音声利用状態と記す。)が含まれる。
【0036】
具体的には、音声利用状態とは、入力される音声が音声認識に用いられる状態か、通話に用いられる状態かを示す情報であり、後述する対話管理モジュール20によって管理される。以下の説明では、入力される音声が通話に用いられる状態のことを通話用モード、入力される音声が音声認識に用いられる状態のことを音声認識用モードと記すこともある。
【0037】
制御部13は、対話管理モジュール20から受信する制御信号に基づいて、音声認識用耐雑音処理部11と通話用耐雑音処理部12のいずれか一方に耐雑音処理を実行させる制御を行ってもよい。具体的には、音声認識用モードの場合、制御部13は、音声認識用耐雑音処理部11に耐雑音処理を実行させ、処理後の音声を出力させる。このとき、制御部13は、通話用耐雑音処理部12の耐雑音処理を抑制する。
【0038】
逆に、通話用モードの場合、制御部13は、通話用耐雑音処理部12に耐雑音処理を実行させ、処理後の音声を出力させる。このとき、制御部13は、音声認識用耐雑音処理部11の耐雑音処理を抑制する。すなわち、制御部13は、音声利用状態に応じて、耐雑音処理を切り替えると言うことができる。
【0039】
対話管理モジュール20は、制御部21と、音声通信部22とを含む。
【0040】
制御部21は、予め定められた入力音声に基づいて音声利用状態を検知し、検知した音声利用状態を記憶する。具体的には、制御部21は、音声ダイヤル、音声検索、音声操作などを示す入力音声が入力されたとき、音声利用状態が音声認識モードであると検知してもよい。
【0041】
例えば、電話番号や電話帳に予め登録した名前と一致する音声が入力された場合に、制御部21は、音声ダイヤルを示す指示が行われたと判断して、音声利用状態を音声認識モードであると検知してもよい。また、例えば、検索を指示する単語や、操作を意味する単語、音声認識を利用した機能名やアプリケーション名が音声で入力された場合、制御部21は、音声検索または音声操作を示す指示が行われたと判断して、音声利用状態を音声認識モードであると検知してもよい。
【0042】
また、制御部21は、通話機能指示や音声メッセージ録音指示など、通話操作を示す入力音声が入力されたとき、音声利用状態が通話モードであると検知してもよい。例えば、通話機能を利用するアプリケーション名が音声で入力された場合、制御部21は、通話操作を示す指示が行われたと判断して、音声利用状態を通話モードであると検知してもよい。
【0043】
また、制御部21は、音声入力だけでなく、情報端末30の実行状態に基づいて、音声利用状態を検知してもよい。制御部21は、例えば、情報端末30が音声認識処理を利用したアプリケーションが実行中であることを検知したとき、音声利用状態を音声認識モードであると検知してもよい。
【0044】
また、制御部21は、情報端末30が通話中であることを検知した場合や、音声メッセージなどを録音するアプリケーションが実行中であることを検知したときに、音声利用状態を通話モードであると検知してもよい。また、制御部21は、情報端末30から音声利用状態を示す信号を受信したときに、その信号に基づいて音声利用状態を検知してもよい。
【0045】
さらに、制御部21は、音声入力や情報端末30の実行状態を判断して自動的に音声利用状態を判断するだけでなく、明示的な指示に応じて音声利用状態を判断してもよい。例えば、情報端末30の操作によって、音声利用状態が明示的に指示された場合、制御部21は、指示された音声利用状態を利用してもよい。
【0046】
例えば、自動車の運転中に、ハンズフリー通話機能を利用して通話中の場合を想定する。この通話中に、ユーザが音声検索や音声操作を利用したい場合、制御部21が、例えば、ステアリングスイッチで切替操作を検知したときに、音声利用状態を通話モードから音声認識モードに切り替えてもよい。
【0047】
音声通信部22は、制御部21の指示に応じて、雑音処理後の音声を情報端末30に通知する。
【0048】
耐雑音処理モジュール10(より具体的には、音声認識用耐雑音処理部11と、通話用耐雑音処理部12と、制御部13)と、対話管理モジュール20(より具体的には、制御部21と、音声通信部22)とは、プログラム(音声制御用プログラム)に従って動作するコンピュータのCPUによって実現される。
【0049】
例えば、プログラムは、音声制御システムを実現する装置の記憶部(図示せず)に記憶され、CPUは、そのプログラムを読み込み、プログラムに従って、耐雑音処理モジュール10(より具体的には、音声認識用耐雑音処理部11と、通話用耐雑音処理部12と、制御部13)および対話管理モジュール20(より具体的には、制御部21と、音声通信部22)として動作してもよい。
【0050】
また、耐雑音処理モジュール10と、対話管理モジュール20とは、それぞれが専用のハードウェアで実現されていてもよい。また、耐雑音処理モジュール10および対話管理モジュール20に含まれる各機能も専用のハードウェアで実現されていてもよい。
【0051】
また、本実施形態では、耐雑音処理モジュール10と対話管理モジュール20とを分けて説明しているが、耐雑音処理モジュール10と対話管理モジュール20とが1つのモジュールで実現されていてもよい。
【0052】
また、本実施形態では、耐雑音処理モジュール10および対話管理モジュール20が、情報端末30とは別に実装されている場合について説明した。ただし、情報端末30が、耐雑音処理モジュール10および対話管理モジュール20の一部または全部の機能をソフトウェアモジュールとして実装していてもよい。この場合、情報端末30は、自身が耐雑音処理した結果を利用して、各種処理を行えばよい。
【0053】
次に、本実施形態の音声制御システムの動作を説明する。
図4は、本実施形態の音声制御システムの動作例を示すフローチャートである。
【0054】
まず、対話管理モジュール20の制御部21が、音声利用状態を検知する(ステップS11)。制御部21は、検知した音声利用状態を耐雑音処理モジュール10に通知すると、制御部13は、音声利用状態を通知されたモードに設定する(ステップS12)。
【0055】
その後、ユーザから音声が入力されると、制御部13は、設定されたモードに従って、音声認識用耐雑音処理部11による耐雑音処理と、通話用耐雑音処理部12による耐雑音処理のいずれを行うか制御する(ステップS13)。耐雑音処理結果が対話管理モジュール20に通知され、音声通信部22は、耐雑音処理結果を情報端末30に通知する(ステップS14)。
【0056】
以上のように、本実施形態によれば、対話管理モジュール20の制御部21が、予め定められた入力音声、または、情報端末30の実行状態に基づいて音声利用状態を検知し、耐雑音処理モジュール10の制御部13が、音声利用状態に基づいて、入力音声に対して音声認識用の耐雑音処理を行うか、通話用の耐雑音処理を行うかを切り替える制御を行う。そのため、音声認識の正答率を向上させつつ、通話時の音質を改善できる。
【0057】
具体的には、マイク入力音声をカーナビゲーションシステムや携帯電話機に入力する前に雑音除去処理および音声強調処理を施すことにより、音声認識の正答率を向上させ通話時の音質を改善している。この際、本実施形態では、音声認識を行う場合と、通話を行う場合で、異なる雑音除去処理および音声成分強調処理を行っている。そのため、音声認識の正答率を向上させつつ、通話時の音質を改善できる。
【0058】
また、本実施形態では、実行する機能や装置ごとにマイクやモジュールを準備する必要がないため、音声を利用する機器全体の大きさを小型化できる。そのため、本実施形態の音声制御システムは、例えば、車内のように限られた空間などに好適に適用可能である。
【0059】
次に、本実施形態の変形例を説明する。上記実施形態では、制御部13が音声認識用耐雑音処理部11と通話用耐雑音処理部12のいずれか一方に耐雑音処理を実行させていた。ただし、制御部13は、音声認識用耐雑音処理部11と通話用耐雑音処理部12の両方に耐雑音処理を実行させてもよい。そして、制御部13は、それぞれの耐雑音処理部によって処理された音声を、制御信号(音声利用状態)に応じて選択してもよい。
【0060】
すなわち、耐雑音処理モジュール10は、入力音声に対して通話用の耐雑音処理と音声認識用の耐雑音処理の両方の処理を行い、耐雑音処理結果を2チャネル出力してもよい。このような処理を行うことで、通話用の耐雑音処理結果と、音声認識用の耐雑音処理結果を同時に使用したり、即時に切り替えて利用したりすることが可能になる。したがって、通話しながら高精度の音声認識も可能になる。
【0061】
具体的には、制御部13は、通話中に特定の単語を認識したとき、その後一定時間内に入力された音声については、音声認識用の耐雑音処理結果を選択するようにしてもよい。例えば、通話中に「・・・“カーナビセット”音量を下げて・・・」と音声が入力されたとする。制御部13は、この“カーナビセット”のように特定の単語を認識したとき、その後一定時間内に入力された音声は、カーナビゲーションの操作用の音声が入力されると判断して、音声認識用の耐雑音処理結果を選択するようにしてもよい。
【0062】
このように、制御部13は、通話用耐雑音処理部12による耐雑音処理結果を選択する制御中に予め定められた音声の入力を検知したときに、予め定めた期間内に入力された音声に対しては、音声認識用耐雑音処理部11による耐雑音処理結果を選択してもよい。このようにすることで、通話しながら高精度の音声認識が可能になる。
【実施例1】
【0063】
以下、具体的な実施例により本発明を説明するが、本発明の範囲は以下に説明する内容に限定されない。本実施例では、音声を利用してダイヤル発信指示が行われた後、ハンズフリー通話が開始されるまでの動作を説明する。
【0064】
図5は、本実施例の音声制御システムの構成例を示す説明図である。本実施例では、耐雑音処理結果は、2台の情報端末(車載情報端末30aおよび携帯型情報端末30b)で利用されるものとし、車載情報端末30aと携帯型情報端末30bの間では、有線通信、または、Wi−Fi(登録商標)、Bluetooth(登録商標)などによる無線通信(以下、単に通信39と記す。)が行われるものとする。また、車載情報端末30aは、耐雑音処理モジュール10に対してエコーキャンセル用のモノラル音声を入力するものとする。
【0065】
図6は、
図5に例示する構成例の詳細を示す説明図である。
図6に例示する音声処理部16は、上記実施形態の音声認識用耐雑音処理部11および通話用耐雑音処理部12に対応している。音声認識用耐雑音処理部11、通話用耐雑音処理部12および車載情報端末30aは、各通信部(通信部17、通信部27、通信部37a)を介して通信を行い、各オーディオ入力部18,28,38に入力された音声は、各制御部(制御部13、制御部21、制御部31a)による制御により、各オーディオ出力部19,29,39から出力される。
【0066】
また、車載情報端末30aおよび携帯型情報端末30bは、ユーザからの入力を受け付ける操作入力部34a,34b、処理結果等を表示する表示部32a,32b、プログラムやアプリケーションデータなどを記憶する記憶部33a,33bを含む。車載情報端末30aと携帯型情報端末30bとは、端末間通信部36a,36bを介して相互に通信する。また、携帯型情報端末30bは、通信部37bを介して広域ネットワーク網や公衆電話網に接続される。
【0067】
図7は、本実施例の音声制御システムの動作例を示す説明図である。まず、ユーザが車載情報端末30aを操作して、音声ダイヤル機能を起動させる。すると、対話管理モジュール20は、音声認識処理をすべきと判断して、音声利用状態を音声認識用モードに設定する(
図7(a)参照)。
【0068】
ユーザは、接続先の電話番号を音声で入力する。このとき、耐雑音処理モジュール10は、音声認識用の耐雑音処理を行い、その結果を対話管理モジュール20に通知する。通知された結果は、車載情報端末30aまたは携帯型情報端末30bで音声認識され、携帯型情報端末30bは、その音声認識結果に基づいてダイヤル発信を行う(
図7(b)参照)。
【0069】
携帯型情報端末30bが音声認識結果に基づいて発信処理を行うと、対話管理モジュール20は、通話状態になったことを検知する。このとき、対話管理モジュール20は、通話処理をすべきと判断して、音声利用状態を通話用モードに設定する(
図7(c)参照)。
【0070】
ユーザは、発信先と接続されたことを確認すると、ハンズフリー通話機能を用いて、発信先との通話を開始する。このとき、耐雑音処理モジュール10は、通話用の耐雑音処理を行い、その結果を対話管理モジュール20に通知する。通知された結果は、車載情報端末30aおよび携帯型情報端末30bに通知され、発信先との通話に用いられる(
図7(d)参照)。
【実施例2】
【0071】
図8は、第2の実施例の音声制御システムの構成例を示す説明図である。上記実施形態でも示したように、音声認識処理は、情報端末30で行われてもよく、クラウドサービスのように、情報端末の要求に応じて音声認識を行う他の装置に音声データを送信することで行われてもよい。
【0072】
情報端末30は、音声認識用に耐雑音処理された音声のパケットを受信したときに、そのパケットを外部のデータセンター200に送信してもよい。そして、情報端末30が、外部のデータセンター200によって音声認識された結果を受信して、各種処理を行ってもよい。
【0073】
また、情報端末30は、通話用に耐雑音処理された音声を受信したときに、その音声を携帯電話のキャリア300に送信して通話処理を行ってもよい。また、情報端末30は、例えば、キャリア300と接続できず通話ができない状況のときなどには、外部の録音システム400に通話用の音声を送信してもよい。
【0074】
次に、本発明の概要を説明する。
図9は、本発明による音声制御システムの概要を示すブロック図である。本発明による音声制御システムは、(例えば、音声入力マイク41および雑音入力マイク42からの)入力音声に対して音声認識用の耐雑音処理を行う音声認識用耐雑音処理部81(例えば、音声認識用耐雑音処理部11)と、入力音声に対して通話用の耐雑音処理を行う通話用耐雑音処理部82(例えば、通話用耐雑音処理部12)と、予め定められた音声の入力、または、入力音声を利用する装置(例えば、情報端末30)の実行状態に基づいて、入力音声が用いられる状態を示す音声利用状態(例えば、音声認識モード、通話モード)を検知する音声利用状態検知部83(例えば、制御部21)と、音声利用状態に基づいて、音声認識用耐雑音処理部81による耐雑音処理と、通話用耐雑音処理部82による耐雑音処理とを切り替える制御を行う耐雑音処理制御部84(例えば、制御部13)とを備えている。
【0075】
そのような構成により、音声認識の正答率を向上させつつ、通話時の音質を改善できる。
【0076】
また、耐雑音処理制御部84は、音声利用状態に基づいて、音声認識用耐雑音処理部81による耐雑音処理と、通話用耐雑音処理部82による耐雑音処理のいずれか一方の耐雑音処理を実行させる制御を行ってもよい。そのような構成によれば、必要な耐雑音処理のみ実施できるため、上記効果に加え、装置の処理負荷を軽減できる。
【0077】
一方で、耐雑音処理制御部84は、音声認識用耐雑音処理部81による耐雑音処理と、通話用耐雑音処理部82による耐雑音処理のいずれも実行させ、音声利用状態に基づいて、いずれかの耐雑音処理結果を選択する制御を行ってもよい。そのような構成によれば、通話用の耐雑音処理結果と、音声認識用の耐雑音処理結果を同時に使用したり、即時に切り替えて利用したりすることが可能になる。
【0078】
また、このとき、耐雑音処理制御部84は、通話用耐雑音処理部82による耐雑音処理結果を選択する制御中に予め定められた音声の入力を検知したときに、予め定めた期間内に入力された音声に対しては、音声認識用耐雑音処理部81による耐雑音処理結果を選択してもよい。そのような構成によれば、通話しながら高精度の音声認識が可能になる。
【0079】
また、音声制御システムは、音声認識用耐雑音処理部81による耐雑音処理の結果、または、通話用耐雑音処理部82による耐雑音処理の結果を出力する耐雑音処理結果出力手段(例えば、音声通信部22)を備えていてもよい。そのような構成によれば、耐雑音処理した結果を他の装置やシステムが利用できるようになる。
【0080】
以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
【0081】
この出願は、2013年3月14日に出願された日本特許出願2013−051269を基礎とする優先権を主張し、その開示の全てをここに取り込む。