特許5979303 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許5979303音声制御システム、音声制御方法、音声制御用プログラムおよび耐雑音音声出力用プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】5979303

(24)【登録日】2016年8月5日

(45)【発行日】2016年8月24日

(54)【発明の名称】音声制御システム、音声制御方法、音声制御用プログラムおよび耐雑音音声出力用プログラム

(51)【国際特許分類】

G10L 21/0208 20130101AFI20160817BHJP

G10L 15/20 20060101ALI20160817BHJP

【ＦＩ】

G10L21/0208 100Z

G10L15/20 370D

【請求項の数】5

【全頁数】15

(21)【出願番号】特願2015-505245(P2015-505245)

(86)(22)【出願日】2014年1月16日

(86)【国際出願番号】JP2014000184

(87)【国際公開番号】WO2014141574

(87)【国際公開日】20140918

【審査請求日】2015年4月3日

(31)【優先権主張番号】特願2013-51269(P2013-51269)

(32)【優先日】2013年3月14日

(33)【優先権主張国】JP

(73)【特許権者】

【識別番号】000004237

【氏名又は名称】日本電気株式会社

(74)【代理人】

【識別番号】100103090

【弁理士】

【氏名又は名称】岩壁冬樹

(74)【代理人】

【識別番号】100124501

【弁理士】

【氏名又は名称】塩川誠人

(72)【発明者】

【氏名】内村淳

(72)【発明者】

【氏名】塚田聡

(72)【発明者】

【氏名】高田英司

【審査官】間宮嘉誉

(56)【参考文献】

【文献】特開２００４−１５３３８０（ＪＰ，Ａ）

【文献】特開昭６０−２４６４６８（ＪＰ，Ａ）

【文献】特開２００９−２５５１７（ＪＰ，Ａ）

【文献】特開２０００−８１８９９（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ１０Ｌ１５／００−２５／９３

(57)【特許請求の範囲】

【請求項1】

入力音声に対して音声認識用の耐雑音処理を行う音声認識用耐雑音処理部と、
入力音声に対して通話用の耐雑音処理を行う通話用耐雑音処理部と、
予め定められた音声の入力、または、前記入力音声を利用する装置の実行状態に基づいて、入力音声が用いられる状態を示す音声利用状態を検知する音声利用状態検知部と、
前記音声利用状態に基づいて、前記音声認識用耐雑音処理部による耐雑音処理と、前記通話用耐雑音処理部による耐雑音処理とを切り替える制御を行う耐雑音処理制御部とを備え、
前記耐雑音処理制御部は、前記音声認識用耐雑音処理部による耐雑音処理と、前記通話用耐雑音処理部による耐雑音処理のいずれも実行させ、前記音声利用状態に基づいて、いずれかの耐雑音処理結果を選択する制御を行い、前記通話用耐雑音処理部による耐雑音処理結果を選択する制御中に予め定められた音声の入力を検知したときに、予め定めた期間内に入力された音声に対しては、前記音声認識用耐雑音処理部による耐雑音処理結果を選択する
ことを特徴とする音声制御システム。

【請求項2】

音声認識用耐雑音処理部による耐雑音処理の結果、または、通話用耐雑音処理部による耐雑音処理の結果を出力する耐雑音処理結果出力手段を備えた
請求項１記載の音声制御システム。

【請求項3】

予め定められた入力音声、または、入力音声を利用する装置の実行状態に基づいて、入力音声が用いられる状態を示す音声利用状態を検知し、
入力音声に対する音声認識用の耐雑音処理と入力音声に対する通話用の耐雑音処理のいずれも実行し、
前記音声利用状態に基づいて、いずれかの耐雑音処理結果を選択する制御を行い、
通話用の耐雑音処理結果を選択する制御中に予め定められた音声の入力を検知したときに、予め定めた期間内に入力された音声に対しては、音声認識用の耐雑音処理結果を選択する
ことを特徴とする音声制御方法。

【請求項4】

コンピュータに、
入力音声に対して音声認識用の耐雑音処理を行う音声認識用耐雑音処理、
入力音声に対して通話用の耐雑音処理を行う通話用耐雑音処理、
予め定められた入力音声、または、入力音声を利用する装置の実行状態に基づいて、入力音声が用いられる状態を示す音声利用状態を検知する音声利用状態検知処理、および、
前記音声利用状態に基づいて、前記音声認識用耐雑音処理と前記通話用耐雑音処理とを切り替える制御を行う耐雑音処理制御処理を実行させ、
前記耐雑音処理制御処理で、前記音声認識用耐雑音処理と、前記通話用耐雑音処理のいずれも実行させ、前記音声利用状態に基づいて、いずれかの耐雑音処理の結果を選択させ、前記通話用耐雑音処理の結果を選択させる制御中に予め定められた音声の入力を検知したときに、予め定めた期間内に入力された音声に対しては、前記音声認識用耐雑音処理の結果を選択させる
ための音声制御用プログラム。

【請求項5】

コンピュータに、
入力音声に対して音声認識用の耐雑音処理を行う音声認識用耐雑音処理、
入力音声に対して通話用の耐雑音処理を行う通話用耐雑音処理、
予め定められた入力音声、または、入力音声を利用する装置の実行状態に基づいて、入力音声が用いられる状態を示す音声利用状態を検知する音声利用状態検知処理、
前記音声利用状態に基づいて、前記音声認識用耐雑音処理と前記通話用耐雑音処理とを切り替える制御を行う耐雑音処理制御処理、および、
前記音声認識用耐雑音処理の結果、または、前記通話用耐雑音処理の結果を出力する耐雑音処理結果出力処理を実行させ、
前記耐雑音処理制御処理で、前記音声認識用耐雑音処理と、前記通話用耐雑音処理のいずれも実行させ、前記音声利用状態に基づいて、いずれかの耐雑音処理の結果を選択させ、前記通話用耐雑音処理の結果を選択させる制御中に予め定められた音声の入力を検知したときに、予め定めた期間内に入力された音声に対しては、前記音声認識用耐雑音処理の結果を選択させる
ための耐雑音音声出力用プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、入力音声に対して雑音を除去する制御を行う音声制御システム、音声制御方法、音声制御用プログラムおよび耐雑音音声出力用プログラムに関する。

【背景技術】

【0002】

自動車の運転中は、手や目が離せない状況が生じる。そのため、運転者は、カーナビゲーションなどの端末に対して、音声で操作指示を行うことがある。また、このような状況において、運転者は、ハンズフリー通話機能を用いて、携帯電話で通話を行うこともある。

【0003】

一方、自動車の運転中は、路面とタイヤの摩擦などによって起こる騒音（ロードノイズ）や、エアコン、音楽など、運転者の音声以外の雑音が生ずることが多い。このような雑音が多いと、音声操作や通話に影響を及ぼすことがあるため、このような雑音を除去する処理が知られている。例えば、非特許文献１には、Model-Based Wiener Filterと、Multi-Condition学習を併用させて車内の音声認識の精度を向上させる方法が記載されている。

【先行技術文献】

【非特許文献】

【0004】

【非特許文献1】M.Tsujikawa, T.Arakawa, R.Isotani, H.Hattori, “Model-Based Wiener FilterとMulti-Condition学習の併用による車内音声認識”, 日本音響学会, 2008, p.179-182

【発明の概要】

【発明が解決しようとする課題】

【0005】

一般的な雑音処理は、通話用に最適化されており、音声認識用には最適化されていない。そのため、通話用に最適化された音声を音声認識に用いても、十分な認識性能が得られないことが多い。

【0006】

音声認識の正答率を向上させるためには、例えば、マイクロフォン（以下、マイクと記す。）に入力された音声（以下、マイク入力音声と記す。）から雑音除去処理を行った後、音声成分を強調する処理（以下、音声成分強調処理と記す。）を行う方法がある。

【0007】

しかし、音声成分を強調し過ぎると、人間の耳には不自然な音（例えば、ミュージカルノイズ）が大きく聞こえるため、この音を通話に用いた場合、ユーザが不快に感じることもある。

【0008】

例えば、自動車の運転中のような環境では、ユーザの音声は、端末の操作にも通話にも用いられる。したがって、そのような環境下では、ユーザの音声に対して音声認識の正答率を向上させるだけでなく、通話時の音質を改善できることが併せて望まれる。

【0009】

そこで、本発明は、音声認識の正答率を向上させつつ、通話時の音質を改善できる音声制御システム、音声制御方法、音声制御用プログラムおよび耐雑音音声出力用プログラムを提供することを目的とする。

【課題を解決するための手段】

【0010】

本発明による音声制御システムは、入力音声に対して音声認識用の耐雑音処理を行う音声認識用耐雑音処理部と、入力音声に対して通話用の耐雑音処理を行う通話用耐雑音処理部と、予め定められた音声の入力、または、入力音声を利用する装置の実行状態に基づいて、入力音声が用いられる状態を示す音声利用状態を検知する音声利用状態検知部と、音声利用状態に基づいて、音声認識用耐雑音処理部による耐雑音処理と、通話用耐雑音処理部による耐雑音処理とを切り替える制御を行う耐雑音処理制御部とを備え、耐雑音処理制御部が、音声認識用耐雑音処理部による耐雑音処理と、通話用耐雑音処理部による耐雑音処理のいずれも実行させ、音声利用状態に基づいて、いずれかの耐雑音処理結果を選択する制御を行い、通話用耐雑音処理部による耐雑音処理結果を選択する制御中に予め定められた音声の入力を検知したときに、予め定めた期間内に入力された音声に対しては、音声認識用耐雑音処理部による耐雑音処理結果を選択することを特徴とする。

【0011】

本発明による音声制御方法は、予め定められた入力音声、または、入力音声を利用する装置の実行状態に基づいて、入力音声が用いられる状態を示す音声利用状態を検知し、入力音声に対する音声認識用の耐雑音処理と入力音声に対する通話用の耐雑音処理のいずれも実行し、音声利用状態に基づいて、いずれかの耐雑音処理結果を選択する制御を行い、通話用の耐雑音処理結果を選択する制御中に予め定められた音声の入力を検知したときに、予め定めた期間内に入力された音声に対しては、音声認識用の耐雑音処理結果を選択することを特徴とする。

【0012】

本発明による音声制御用プログラムは、コンピュータに、入力音声に対して音声認識用の耐雑音処理を行う音声認識用耐雑音処理、入力音声に対して通話用の耐雑音処理を行う通話用耐雑音処理、予め定められた入力音声、または、入力音声を利用する装置の実行状態に基づいて、入力音声が用いられる状態を示す音声利用状態を検知する音声利用状態検知処理、および、音声利用状態に基づいて、音声認識用耐雑音処理と通話用耐雑音処理とを切り替える制御を行う耐雑音処理制御処理を実行させ、耐雑音処理制御処理で、音声認識用耐雑音処理と、通話用耐雑音処理のいずれも実行させ、音声利用状態に基づいて、いずれかの耐雑音処理の結果を選択させ、通話用耐雑音処理の結果を選択させる制御中に予め定められた音声の入力を検知したときに、予め定めた期間内に入力された音声に対しては、音声認識用耐雑音処理の結果を選択させることを特徴とする。

【0013】

本発明による耐雑音音声出力用プログラムは、コンピュータに、入力音声に対して音声認識用の耐雑音処理を行う音声認識用耐雑音処理、入力音声に対して通話用の耐雑音処理を行う通話用耐雑音処理、予め定められた入力音声、または、入力音声を利用する装置の実行状態に基づいて、入力音声が用いられる状態を示す音声利用状態を検知する音声利用状態検知処理、音声利用状態に基づいて、音声認識用耐雑音処理と通話用耐雑音処理とを切り替える制御を行う耐雑音処理制御処理、および、音声認識用耐雑音処理の結果、または、通話用耐雑音処理の結果を出力する耐雑音処理結果出力処理を実行させ、耐雑音処理制御処理で、音声認識用耐雑音処理と、通話用耐雑音処理のいずれも実行させ、音声利用状態に基づいて、いずれかの耐雑音処理の結果を選択させ、通話用耐雑音処理の結果を選択させる制御中に予め定められた音声の入力を検知したときに、予め定めた期間内に入力された音声に対しては、音声認識用耐雑音処理の結果を選択させることを特徴とする。

【発明の効果】

【0014】

本発明によれば、音声認識の正答率を向上させつつ、通話時の音質を改善できる。

【図面の簡単な説明】

【0015】

【図1】本発明による音声制御システムの一実施形態を示すブロック図である。

【図2】耐雑音処理の例を示す説明図である。

【図3】耐音声処理モジュールの他の例を示す説明図である。

【図4】音声制御システムの動作例を示すフローチャートである。

【図5】第１の実施例の音声制御システムの構成例を示す説明図である。

【図6】図５に例示する構成例の詳細を示す説明図である。

【図7】第１の実施例の音声制御システムの動作例を示す説明図である。

【図8】第２の実施例の音声制御システムの構成例を示す説明図である。

【図9】本発明による音声制御システムの概要を示すブロック図である。

【発明を実施するための形態】

【0016】

以下、本発明の実施形態を図面を参照して説明する。

【0017】

図１は、本発明による音声制御システムの一実施形態を示すブロック図である。本実施形態の音声制御システムは、耐雑音処理モジュール１０と、対話管理モジュール２０と、情報端末３０と、音声入力マイク４１と、雑音入力マイク４２とを備えている。

【0018】

情報端末３０は、後述する耐雑音処理モジュール１０によって処理された音声を利用して、各種処理を行う装置である。図１に例示する情報端末３０は、制御部３１と、音声認識モジュール３２と、サーバ型音声認識との通信モジュール３３（以下、通信モジュール３３と記す。）と、通話モジュール３４とを含む。

【0019】

制御部３１は、情報端末３０の動作を制御する。音声認識モジュール３２は、入力された音声を用いて音声認識を行うモジュールである。通信モジュール３３は、入力された音声を、音声認識が行われる他の装置に送信するモジュールである。通話モジュール３４は、通話を行うためのモジュールである。

【0020】

本実施形態では、音声認識モジュール３２と、通信モジュール３３とは、音声認識用に処理された音声を用いることが好ましいモジュールであり、通話モジュール３４は、通話用に処理された音声を用いることが好ましいモジュールであるとする。

【0021】

なお、図１に例示する情報端末３０が搭載するモジュールは、上記内容に限定されない。情報端末３０は、その他の音声利用モジュールを含んでいてもよく、音声を利用しないモジュールを含んでいてもよい。

【0022】

情報端末３０は、例えば、車載情報端末や、携帯型情報端末などにより実現される。例えば、車載情報端末では、カーナビゲーションシステムや、音楽プレーヤーの操作の入力に音声が用いられる。また、例えば、携帯型情報端末では、音声検索や対話機能、通話機能を実行する際の入力に音声が用いられる。また、車載情報端末と携帯型情報端末の両方が用いられる場合、両端末が連携して音声入力機能を実現してもよい。

【0023】

音声入力マイク４１および雑音入力マイク４２には、ユーザが発声する音声や、周囲の雑音が入力される。本実施形態では、説明を簡易化するため、音声入力マイク４１と、雑音入力マイク４２の役割をそれぞれ分けているが、後述する耐雑音処理が実施可能であれば、音声や雑音が入力されるマイクは１つであってもよいし、マイクロフォンアレイのような形式であってもよい。

【0024】

耐雑音処理モジュール１０は、音声認識用耐雑音処理部１１と、通話用耐雑音処理部１２と、制御部１３とを含む。

【0025】

音声認識用耐雑音処理部１１と通話用耐雑音処理部１２のいずれも、音声入力マイク４１および雑音入力マイク４２に入力された音声に対して雑音を除去する処理（以下、耐雑音処理と記す。）を行い、処理後の音声を出力する。

【0026】

図２は、耐雑音処理の例を示す説明図である。図２では、自動車内で雑音を除去する方法の一例を示している。一般に、音声入力マイク４１と雑音入力マイク４２は、自動車内で離れた位置に設置される。運転手が発した音声４６は、音声入力マイク４１と雑音入力マイク４２のいずれにも入力される。一方、上述するように、自動車運転に伴う雑音４７も同様に、音声入力マイク４１と雑音入力マイク４２のいずれにも入力される。

【0027】

ここで、２つのマイクが離れた位置に設置されるため、音声入力マイク４１と雑音入力マイク４２に入力される音声４６の音量および入力時間に差が生じる。これは、雑音４７についても同様である。このように、２つのマイクに入る音声と雑音の時間差および音量差を利用して、耐雑音処理が行われる。

【0028】

音声認識用耐雑音処理部１１は、入力音声に対して音声認識用の耐雑音処理を行う。音声認識用の耐雑音処理は、雑音除去効果が高く、音声認識の性能を高くすることができるが、人間の耳には不自然に聞こえる音声が作成される傾向がある。

【0029】

音声認識用の耐雑音処理として、例えば、雑音推定を行うＷｉＮＥ（ＷｅｉｇｈｔｅｄＮｏｉｓｅＥｓｔｉｍａｔｉｏｎ）法や、音声強調を行うＭＢＷ（Ｍｏｄｅｌ−ＢａｓｅｄＷｉｅｎｅｒ）法、音声区間を検出する方法などが用いられる。

【0030】

ただし、音声認識用耐雑音処理部１１が音声認識用の耐雑音処理を行う方法は、上記方法に限定されない。音声認識用耐雑音処理部１１は、広く知られた他の方法を用いて音声認識用の耐雑音処理を行ってもよい。なお、音声認識用の耐雑音処理は広く知られているため、ここでは詳細な説明は省略する。

【0031】

通話用耐雑音処理部１２は、入力音声に対して通話用の耐雑音処理を行う。通話用の耐雑音処理は、人間の耳に自然に聞こえる音声が作成されるが、雑音除去効果が小さく、音声認識の性能を高くするのが難しい傾向がある。通話用の耐雑音処理として、例えば、ＮＳ−ＷｉＮＥ法や、エコーキャンセラなどが用いられる。

【0032】

図３は、耐音声処理モジュールの他の例を示す説明図である。図３に例示するように、耐雑音処理モジュール１０ａは、マイク（音声入力マイク４１および雑音入力マイク４２）と、各雑音処理部（音声認識用耐雑音処理部１１および通話用耐雑音処理部１２）の間に、エコーキャンセラ１４を含んでもよい。

【0033】

このとき、エコーキャンセラ１４は、例えば、情報端末３０から入力されるエコーキャンセル用のモノラル音声を用いて、エコーやハウリングを防止してもよい。

【0034】

ただし、通話用耐雑音処理部１２が通話用の耐雑音処理を行う方法は、上記方法に限定されない。通話用耐雑音処理部１２は、広く知られた他の方法を用いて通話用の耐雑音処理を行ってもよい。なお、通話用の耐雑音処理も広く知られているため、ここでは詳細な説明は省略する。

【0035】

制御部１３は、対話管理モジュール２０から受信する制御信号に基づいて、音声認識用耐雑音処理部１１または通話用耐雑音処理部１２が行う耐雑音処理を制御する。制御信号には、後述する情報端末３０において入力される音声が用いられる状態を示す情報（以下、音声利用状態と記す。）が含まれる。

【0036】

具体的には、音声利用状態とは、入力される音声が音声認識に用いられる状態か、通話に用いられる状態かを示す情報であり、後述する対話管理モジュール２０によって管理される。以下の説明では、入力される音声が通話に用いられる状態のことを通話用モード、入力される音声が音声認識に用いられる状態のことを音声認識用モードと記すこともある。

【0037】

制御部１３は、対話管理モジュール２０から受信する制御信号に基づいて、音声認識用耐雑音処理部１１と通話用耐雑音処理部１２のいずれか一方に耐雑音処理を実行させる制御を行ってもよい。具体的には、音声認識用モードの場合、制御部１３は、音声認識用耐雑音処理部１１に耐雑音処理を実行させ、処理後の音声を出力させる。このとき、制御部１３は、通話用耐雑音処理部１２の耐雑音処理を抑制する。

【0038】

逆に、通話用モードの場合、制御部１３は、通話用耐雑音処理部１２に耐雑音処理を実行させ、処理後の音声を出力させる。このとき、制御部１３は、音声認識用耐雑音処理部１１の耐雑音処理を抑制する。すなわち、制御部１３は、音声利用状態に応じて、耐雑音処理を切り替えると言うことができる。

【0039】

対話管理モジュール２０は、制御部２１と、音声通信部２２とを含む。

【0040】

制御部２１は、予め定められた入力音声に基づいて音声利用状態を検知し、検知した音声利用状態を記憶する。具体的には、制御部２１は、音声ダイヤル、音声検索、音声操作などを示す入力音声が入力されたとき、音声利用状態が音声認識モードであると検知してもよい。

【0041】

例えば、電話番号や電話帳に予め登録した名前と一致する音声が入力された場合に、制御部２１は、音声ダイヤルを示す指示が行われたと判断して、音声利用状態を音声認識モードであると検知してもよい。また、例えば、検索を指示する単語や、操作を意味する単語、音声認識を利用した機能名やアプリケーション名が音声で入力された場合、制御部２１は、音声検索または音声操作を示す指示が行われたと判断して、音声利用状態を音声認識モードであると検知してもよい。

【0042】

また、制御部２１は、通話機能指示や音声メッセージ録音指示など、通話操作を示す入力音声が入力されたとき、音声利用状態が通話モードであると検知してもよい。例えば、通話機能を利用するアプリケーション名が音声で入力された場合、制御部２１は、通話操作を示す指示が行われたと判断して、音声利用状態を通話モードであると検知してもよい。

【0043】

また、制御部２１は、音声入力だけでなく、情報端末３０の実行状態に基づいて、音声利用状態を検知してもよい。制御部２１は、例えば、情報端末３０が音声認識処理を利用したアプリケーションが実行中であることを検知したとき、音声利用状態を音声認識モードであると検知してもよい。

【0044】

また、制御部２１は、情報端末３０が通話中であることを検知した場合や、音声メッセージなどを録音するアプリケーションが実行中であることを検知したときに、音声利用状態を通話モードであると検知してもよい。また、制御部２１は、情報端末３０から音声利用状態を示す信号を受信したときに、その信号に基づいて音声利用状態を検知してもよい。

【0045】

さらに、制御部２１は、音声入力や情報端末３０の実行状態を判断して自動的に音声利用状態を判断するだけでなく、明示的な指示に応じて音声利用状態を判断してもよい。例えば、情報端末３０の操作によって、音声利用状態が明示的に指示された場合、制御部２１は、指示された音声利用状態を利用してもよい。

【0046】

例えば、自動車の運転中に、ハンズフリー通話機能を利用して通話中の場合を想定する。この通話中に、ユーザが音声検索や音声操作を利用したい場合、制御部２１が、例えば、ステアリングスイッチで切替操作を検知したときに、音声利用状態を通話モードから音声認識モードに切り替えてもよい。

【0047】

音声通信部２２は、制御部２１の指示に応じて、雑音処理後の音声を情報端末３０に通知する。

【0048】

耐雑音処理モジュール１０（より具体的には、音声認識用耐雑音処理部１１と、通話用耐雑音処理部１２と、制御部１３）と、対話管理モジュール２０（より具体的には、制御部２１と、音声通信部２２）とは、プログラム（音声制御用プログラム）に従って動作するコンピュータのＣＰＵによって実現される。

【0049】

例えば、プログラムは、音声制御システムを実現する装置の記憶部（図示せず）に記憶され、ＣＰＵは、そのプログラムを読み込み、プログラムに従って、耐雑音処理モジュール１０（より具体的には、音声認識用耐雑音処理部１１と、通話用耐雑音処理部１２と、制御部１３）および対話管理モジュール２０（より具体的には、制御部２１と、音声通信部２２）として動作してもよい。

【0050】

また、耐雑音処理モジュール１０と、対話管理モジュール２０とは、それぞれが専用のハードウェアで実現されていてもよい。また、耐雑音処理モジュール１０および対話管理モジュール２０に含まれる各機能も専用のハードウェアで実現されていてもよい。

【0051】

また、本実施形態では、耐雑音処理モジュール１０と対話管理モジュール２０とを分けて説明しているが、耐雑音処理モジュール１０と対話管理モジュール２０とが１つのモジュールで実現されていてもよい。

【0052】

また、本実施形態では、耐雑音処理モジュール１０および対話管理モジュール２０が、情報端末３０とは別に実装されている場合について説明した。ただし、情報端末３０が、耐雑音処理モジュール１０および対話管理モジュール２０の一部または全部の機能をソフトウェアモジュールとして実装していてもよい。この場合、情報端末３０は、自身が耐雑音処理した結果を利用して、各種処理を行えばよい。

【0053】

次に、本実施形態の音声制御システムの動作を説明する。図４は、本実施形態の音声制御システムの動作例を示すフローチャートである。

【0054】

まず、対話管理モジュール２０の制御部２１が、音声利用状態を検知する（ステップＳ１１）。制御部２１は、検知した音声利用状態を耐雑音処理モジュール１０に通知すると、制御部１３は、音声利用状態を通知されたモードに設定する（ステップＳ１２）。

【0055】

その後、ユーザから音声が入力されると、制御部１３は、設定されたモードに従って、音声認識用耐雑音処理部１１による耐雑音処理と、通話用耐雑音処理部１２による耐雑音処理のいずれを行うか制御する（ステップＳ１３）。耐雑音処理結果が対話管理モジュール２０に通知され、音声通信部２２は、耐雑音処理結果を情報端末３０に通知する（ステップＳ１４）。

【0056】

以上のように、本実施形態によれば、対話管理モジュール２０の制御部２１が、予め定められた入力音声、または、情報端末３０の実行状態に基づいて音声利用状態を検知し、耐雑音処理モジュール１０の制御部１３が、音声利用状態に基づいて、入力音声に対して音声認識用の耐雑音処理を行うか、通話用の耐雑音処理を行うかを切り替える制御を行う。そのため、音声認識の正答率を向上させつつ、通話時の音質を改善できる。

【0057】

具体的には、マイク入力音声をカーナビゲーションシステムや携帯電話機に入力する前に雑音除去処理および音声強調処理を施すことにより、音声認識の正答率を向上させ通話時の音質を改善している。この際、本実施形態では、音声認識を行う場合と、通話を行う場合で、異なる雑音除去処理および音声成分強調処理を行っている。そのため、音声認識の正答率を向上させつつ、通話時の音質を改善できる。

【0058】

また、本実施形態では、実行する機能や装置ごとにマイクやモジュールを準備する必要がないため、音声を利用する機器全体の大きさを小型化できる。そのため、本実施形態の音声制御システムは、例えば、車内のように限られた空間などに好適に適用可能である。

【0059】

次に、本実施形態の変形例を説明する。上記実施形態では、制御部１３が音声認識用耐雑音処理部１１と通話用耐雑音処理部１２のいずれか一方に耐雑音処理を実行させていた。ただし、制御部１３は、音声認識用耐雑音処理部１１と通話用耐雑音処理部１２の両方に耐雑音処理を実行させてもよい。そして、制御部１３は、それぞれの耐雑音処理部によって処理された音声を、制御信号（音声利用状態）に応じて選択してもよい。

【0060】

すなわち、耐雑音処理モジュール１０は、入力音声に対して通話用の耐雑音処理と音声認識用の耐雑音処理の両方の処理を行い、耐雑音処理結果を２チャネル出力してもよい。このような処理を行うことで、通話用の耐雑音処理結果と、音声認識用の耐雑音処理結果を同時に使用したり、即時に切り替えて利用したりすることが可能になる。したがって、通話しながら高精度の音声認識も可能になる。

【0061】

具体的には、制御部１３は、通話中に特定の単語を認識したとき、その後一定時間内に入力された音声については、音声認識用の耐雑音処理結果を選択するようにしてもよい。例えば、通話中に「・・・“カーナビセット”音量を下げて・・・」と音声が入力されたとする。制御部１３は、この“カーナビセット”のように特定の単語を認識したとき、その後一定時間内に入力された音声は、カーナビゲーションの操作用の音声が入力されると判断して、音声認識用の耐雑音処理結果を選択するようにしてもよい。

【0062】

このように、制御部１３は、通話用耐雑音処理部１２による耐雑音処理結果を選択する制御中に予め定められた音声の入力を検知したときに、予め定めた期間内に入力された音声に対しては、音声認識用耐雑音処理部１１による耐雑音処理結果を選択してもよい。このようにすることで、通話しながら高精度の音声認識が可能になる。

【実施例1】

【0063】

以下、具体的な実施例により本発明を説明するが、本発明の範囲は以下に説明する内容に限定されない。本実施例では、音声を利用してダイヤル発信指示が行われた後、ハンズフリー通話が開始されるまでの動作を説明する。

【0064】

図５は、本実施例の音声制御システムの構成例を示す説明図である。本実施例では、耐雑音処理結果は、２台の情報端末（車載情報端末３０ａおよび携帯型情報端末３０ｂ）で利用されるものとし、車載情報端末３０ａと携帯型情報端末３０ｂの間では、有線通信、または、Ｗｉ−Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）などによる無線通信（以下、単に通信３９と記す。）が行われるものとする。また、車載情報端末３０ａは、耐雑音処理モジュール１０に対してエコーキャンセル用のモノラル音声を入力するものとする。

【0065】

図６は、図５に例示する構成例の詳細を示す説明図である。図６に例示する音声処理部１６は、上記実施形態の音声認識用耐雑音処理部１１および通話用耐雑音処理部１２に対応している。音声認識用耐雑音処理部１１、通話用耐雑音処理部１２および車載情報端末３０ａは、各通信部（通信部１７、通信部２７、通信部３７ａ）を介して通信を行い、各オーディオ入力部１８，２８，３８に入力された音声は、各制御部（制御部１３、制御部２１、制御部３１ａ）による制御により、各オーディオ出力部１９，２９，３９から出力される。

【0066】

また、車載情報端末３０ａおよび携帯型情報端末３０ｂは、ユーザからの入力を受け付ける操作入力部３４ａ，３４ｂ、処理結果等を表示する表示部３２ａ，３２ｂ、プログラムやアプリケーションデータなどを記憶する記憶部３３ａ，３３ｂを含む。車載情報端末３０ａと携帯型情報端末３０ｂとは、端末間通信部３６ａ，３６ｂを介して相互に通信する。また、携帯型情報端末３０ｂは、通信部３７ｂを介して広域ネットワーク網や公衆電話網に接続される。

【0067】

図７は、本実施例の音声制御システムの動作例を示す説明図である。まず、ユーザが車載情報端末３０ａを操作して、音声ダイヤル機能を起動させる。すると、対話管理モジュール２０は、音声認識処理をすべきと判断して、音声利用状態を音声認識用モードに設定する（図７（ａ）参照）。

【0068】

ユーザは、接続先の電話番号を音声で入力する。このとき、耐雑音処理モジュール１０は、音声認識用の耐雑音処理を行い、その結果を対話管理モジュール２０に通知する。通知された結果は、車載情報端末３０ａまたは携帯型情報端末３０ｂで音声認識され、携帯型情報端末３０ｂは、その音声認識結果に基づいてダイヤル発信を行う（図７（ｂ）参照）。

【0069】

携帯型情報端末３０ｂが音声認識結果に基づいて発信処理を行うと、対話管理モジュール２０は、通話状態になったことを検知する。このとき、対話管理モジュール２０は、通話処理をすべきと判断して、音声利用状態を通話用モードに設定する（図７（ｃ）参照）。

【0070】

ユーザは、発信先と接続されたことを確認すると、ハンズフリー通話機能を用いて、発信先との通話を開始する。このとき、耐雑音処理モジュール１０は、通話用の耐雑音処理を行い、その結果を対話管理モジュール２０に通知する。通知された結果は、車載情報端末３０ａおよび携帯型情報端末３０ｂに通知され、発信先との通話に用いられる（図７（ｄ）参照）。

【実施例2】

【0071】

図８は、第２の実施例の音声制御システムの構成例を示す説明図である。上記実施形態でも示したように、音声認識処理は、情報端末３０で行われてもよく、クラウドサービスのように、情報端末の要求に応じて音声認識を行う他の装置に音声データを送信することで行われてもよい。

【0072】

情報端末３０は、音声認識用に耐雑音処理された音声のパケットを受信したときに、そのパケットを外部のデータセンター２００に送信してもよい。そして、情報端末３０が、外部のデータセンター２００によって音声認識された結果を受信して、各種処理を行ってもよい。

【0073】

また、情報端末３０は、通話用に耐雑音処理された音声を受信したときに、その音声を携帯電話のキャリア３００に送信して通話処理を行ってもよい。また、情報端末３０は、例えば、キャリア３００と接続できず通話ができない状況のときなどには、外部の録音システム４００に通話用の音声を送信してもよい。

【0074】

次に、本発明の概要を説明する。図９は、本発明による音声制御システムの概要を示すブロック図である。本発明による音声制御システムは、（例えば、音声入力マイク４１および雑音入力マイク４２からの）入力音声に対して音声認識用の耐雑音処理を行う音声認識用耐雑音処理部８１（例えば、音声認識用耐雑音処理部１１）と、入力音声に対して通話用の耐雑音処理を行う通話用耐雑音処理部８２（例えば、通話用耐雑音処理部１２）と、予め定められた音声の入力、または、入力音声を利用する装置（例えば、情報端末３０）の実行状態に基づいて、入力音声が用いられる状態を示す音声利用状態（例えば、音声認識モード、通話モード）を検知する音声利用状態検知部８３（例えば、制御部２１）と、音声利用状態に基づいて、音声認識用耐雑音処理部８１による耐雑音処理と、通話用耐雑音処理部８２による耐雑音処理とを切り替える制御を行う耐雑音処理制御部８４（例えば、制御部１３）とを備えている。

【0075】

そのような構成により、音声認識の正答率を向上させつつ、通話時の音質を改善できる。

【0076】

また、耐雑音処理制御部８４は、音声利用状態に基づいて、音声認識用耐雑音処理部８１による耐雑音処理と、通話用耐雑音処理部８２による耐雑音処理のいずれか一方の耐雑音処理を実行させる制御を行ってもよい。そのような構成によれば、必要な耐雑音処理のみ実施できるため、上記効果に加え、装置の処理負荷を軽減できる。

【0077】

一方で、耐雑音処理制御部８４は、音声認識用耐雑音処理部８１による耐雑音処理と、通話用耐雑音処理部８２による耐雑音処理のいずれも実行させ、音声利用状態に基づいて、いずれかの耐雑音処理結果を選択する制御を行ってもよい。そのような構成によれば、通話用の耐雑音処理結果と、音声認識用の耐雑音処理結果を同時に使用したり、即時に切り替えて利用したりすることが可能になる。

【0078】

また、このとき、耐雑音処理制御部８４は、通話用耐雑音処理部８２による耐雑音処理結果を選択する制御中に予め定められた音声の入力を検知したときに、予め定めた期間内に入力された音声に対しては、音声認識用耐雑音処理部８１による耐雑音処理結果を選択してもよい。そのような構成によれば、通話しながら高精度の音声認識が可能になる。

【0079】

また、音声制御システムは、音声認識用耐雑音処理部８１による耐雑音処理の結果、または、通話用耐雑音処理部８２による耐雑音処理の結果を出力する耐雑音処理結果出力手段（例えば、音声通信部２２）を備えていてもよい。そのような構成によれば、耐雑音処理した結果を他の装置やシステムが利用できるようになる。

【0080】

以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

【0081】

この出願は、２０１３年３月１４日に出願された日本特許出願２０１３−０５１２６９を基礎とする優先権を主張し、その開示の全てをここに取り込む。

【符号の説明】

【0082】

１０，１０ａ耐雑音処理モジュール
１１音声認識用耐雑音処理部
１２通話用耐雑音処理部
１３制御部
１４エコーキャンセラ
２０対話管理モジュール
２１制御部
２２音声通信部
３０情報端末
３０ａ車載情報端末
３０ｂ携帯型情報端末
３１制御部
３２音声認識モジュール
３３通信モジュール
３４通話モジュール
４１音声入力マイク
４２雑音入力マイク

【図1】