IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ セレンス オペレーティング カンパニーの特許一覧

特許7052008有声音声検出の複雑性低減およびピッチ推定
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-04-01
(45)【発行日】2022-04-11
(54)【発明の名称】有声音声検出の複雑性低減およびピッチ推定
(51)【国際特許分類】
   G10L 25/93 20130101AFI20220404BHJP
   G10L 25/90 20130101ALI20220404BHJP
   G10L 21/0364 20130101ALI20220404BHJP
【FI】
G10L25/93
G10L25/90
G10L21/0364
【請求項の数】 20
(21)【出願番号】P 2020506335
(86)(22)【出願日】2017-08-17
(65)【公表番号】
(43)【公表日】2020-11-19
(86)【国際出願番号】 US2017047361
(87)【国際公開番号】W WO2019035835
(87)【国際公開日】2019-02-21
【審査請求日】2020-07-15
(73)【特許権者】
【識別番号】519411308
【氏名又は名称】セレンス オペレーティング カンパニー
(74)【代理人】
【識別番号】100117606
【弁理士】
【氏名又は名称】安部 誠
(74)【代理人】
【識別番号】100121186
【弁理士】
【氏名又は名称】山根 広昭
(74)【代理人】
【識別番号】100136423
【弁理士】
【氏名又は名称】大井 道子
(74)【代理人】
【識別番号】100154449
【弁理士】
【氏名又は名称】谷 征史
(72)【発明者】
【氏名】グラフ, サイモン
(72)【発明者】
【氏名】ハービッグ, トビアス
(72)【発明者】
【氏名】バック, マルクス
【審査官】菊池 智紀
(56)【参考文献】
【文献】国際公開第2004/084187(WO,A1)
【文献】特表2013-531419(JP,A)
【文献】特開2007-140000(JP,A)
【文献】特開平08-044395(JP,A)
【文献】特開2005-084660(JP,A)
【文献】特開2011-033717(JP,A)
【文献】国際公開第2014/136628(WO,A1)
【文献】特開2004-297273(JP,A)
【文献】特開2000-122698(JP,A)
【文献】特表2009-522942(JP,A)
【文献】多々良潔 他,"装着型マイクロホンを用いた受音系の検討”,電子情報通信学会技術研究報告,Vol.103,No.27,2003年04月18日,pp.1-6
【文献】LAPUH, Rado,”Phase sensitive frequency estimation algorithm for asynchronously sampled harmonically distorted signals",Proc. of the 2011 IEEE International Instrumentation and Measurement Technology Conference,2011年05月10日
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-25/93
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
オーディオ通信システムにおける声質強化方法であって、
前記オーディオ通信システムによって取り込んだ有声音声と少なくとも一部が前記有声音声と関連付けられた周波数である雑音とを含むオーディオ信号内の前記有声音声の存在を監視する工程であって、現在のショートウィンドウ内の前記オーディオ信号の現在のオーディオサンプルおよび少なくとも1つ前のショートウィンドウ内の前記オーディオ信号の以前のオーディオサンプルのそれぞれの周波数領域表現間の位相差を計算する工程を含む工程と、
前記周波数領域表現間の計算された位相差が周波数に対して実質的に直線的であるか否かを判定する工程と、
前記計算された位相差が周波数に対して実質的に直線的であると判定することによって前記有声音声の存在を検出し、前記有声音声が検出された場合は、前記オーディオ信号に音声強化を行うことによって前記オーディオ通信システムを介して通信された前記有声音声の音質を強化する工程と、
を備える、オーディオ通信システムにおける声質強化方法。
【請求項2】
前記現在のショートウィンドウおよび前記少なくとも1つ前のショートウィンドウは、前記オーディオ信号における前記有声音声1つの周期的有声励起インパルス信号の全体のオーディオサンプルを取り込むことができないほど短いウィンドウ長を有する、
請求項1に記載のオーディオ通信システムにおける声質強化方法。
【請求項3】
前記オーディオ通信システムは、車内通信(ICC)システムであり、前記ウィンドウ長は、前記ICCシステムにおけるオーディオ通信レイテンシを短縮するように設定される、
請求項2に記載のオーディオ通信システムにおける声質強化方法。
【請求項4】
周波数領域において直接に、前記検出された有声音声の存在と前記計算された位相差とに基づいて前記有声音声のピッチ周波数を推定する工程をさらに備える、
請求項1に記載のオーディオ通信システムにおける声質強化方法。
【請求項5】
前記計算工程は、
前記それぞれの周波数領域表現の正規化されたクロススペクトルの隣り合う周波数間の位相関係の周波数に対する加重和を計算する工程と、
前記計算された荷重和の平均値を計算する工程と、を含み、
前記判定工程は、前記計算された平均値の大きさを直線性を示す閾値と比較して、前記計算された位相差が実質的に直線的であるか否かを判定する工程を含む、請求項1に記載のオーディオ通信システムにおける声質強化方法
【請求項6】
前記平均値は複素数であって、前記計算された位相差が実質的に直線的であると判定された場合は、前記声質強化方法は、周波数領域において直接に、前記複素数の角度に基づいて前記有声音声のピッチ周期を推定する工程をさらに備える、請求項5に記載のオーディオ通信システムにおける声質強化方法。
【請求項7】
前記計算された平均値を、前記現在のショートウィンドウと別の以前のショートウィンドウとに基づいてそれぞれ計算された他の平均値と比較する工程と、
周波数領域において直接に、前記平均値と他の平均値から前記比較工程に基づいて選択された最大の平均値の角度に基づいて、前記有声音声のピッチ周波数を推定する工程と、をさらに備える、
請求項6に記載のオーディオ通信システムにおける声質強化方法。
【請求項8】
前記加重和を計算する工程は、有声音声の周波数範囲内の周波数の重み関数を使用し、少なくとも1つ前のフレームが複数のフレームを含む場合は、平滑化定数を適用する工程を備える、
請求項5に記載のオーディオ通信システムにおける声質強化方法。
【請求項9】
周波数領域において直接に、前記検出された有声音声の存在に基づいて前記有声音声のピッチ周波数を推定する工程をさらに備え、
前記計算工程は、前記それぞれの周波数領域表現の正規化されたクロススペクトルを計算する工程を含み、
前記推定工程は、前記計算された正規化されたクロススペクトルの傾きを計算し、前記計算された傾きをピッチ周期に変換する工程を含む、
請求項1に記載のオーディオ通信システムにおける声質強化方法。
【請求項10】
周波数領域において直接に、前記検出された有声音声の存在と前記計算された位相差とに基づいて前記有声音声のピッチ周波数を推定する工程と、
有声音声の存在が検出されなかったことに基づいて、減衰率を前記オーディオ信号に適用する工程と、をさらに備え、
前記音声強化は、前記推定されたピッチ周波数に基づいて前記有声音声を再構築すること、または、雑音追跡を無効にすること、または、適応利得を前記オーディオ信号に適用すること、または、それらの組み合わせを含む、
請求項1に記載のオーディオ通信システムにおける声質強化方法。
【請求項11】
オーディオ通信システムにおける声質強化装置であって、
前記オーディオ通信システムによって取り込んだ有声音声と少なくとも一部が有声音声と関連付けられた周波数である雑音とを含むオーディオ信号の電子的表現を生成するように構成されたオーディオインターフェースと、
前記オーディオインターフェースに接続され、音声検出器とオーディオエンハンサーを実現するように構成されたプロセッサと、を備え、
前記音声検出器は、前記オーディオエンハンサーに接続され、前記オーディオ信号内の有声音声の存在を監視し、前記監視動作は、現在のショートウィンドウ内の前記オーディオ信号の現在のオーディオサンプルおよび少なくとも1つ前のショートウィンドウ内の前記オーディオ信号の以前のオーディオサンプルのそれぞれの周波数領域表現間の位相差を計算することを含み、
前記それぞれの周波数領域表現間で計算された位相差が周波数に対して実質的に直線的であるか否かを判定し、
前記計算された位相差が周波数に対して実質的に直線的であると判定することによって前記有声音声の存在を検出して、前記有声音声の存在の表示を前記オーディオエンハンサーに通信し、
前記オーディオエンハンサーは、前記オーディオ信号に対して音声強化を行うことによって、前記オーディオ通信システムを介して通信した前記有声音声の音質を強化するように構成されており、前記音声強化は、前記通信された表示に基づく、オーディオ通信システムにおける声質強化装置。
【請求項12】
前記現在のショートウィンドウおよび前記少なくとも1つ前のショートウィンドウは、前記オーディオ信号における前記有声音声1つの周期的有声励起インパルス信号の全体のオーディオサンプルを取り込むことができないほど短いウィンドウ長を有し、
前記オーディオ通信システムは、車内通信(ICC)システムであり、
前記ウィンドウ長は、前記ICCシステムにおけるオーディオ通信レイテンシを短縮するように設定される、
請求項11に記載のオーディオ通信システムにおける声質強化装置。
【請求項13】
前記音声検出器は、周波数領域において直接に、前記検出された有声音声の存在と前記計算された位相差とに基づいて前記有声音声のピッチ周波数を推定するようにさらに構成されている、
請求項11に記載のオーディオ通信システムにおける声質強化装置。
【請求項14】
前記計算動作は、前記それぞれの周波数領域表現の正規化されたクロススペクトルの隣り合う周波数間の位相関係の周波数に対する加重和を計算することと、
前記計算された荷重和の平均値を計算することと、を含み、
前記判定動作は、前記計算された平均値の大きさを直線性を示す閾値と比較して、前記位相差が実質的に直線的であるか否かを判定することを含む、
請求項11に記載のオーディオ通信システムにおける声質強化装置。
【請求項15】
前記平均値は複素数であって、前記計算された位相差が実質的に直線的であると判定された場合は、前記音声検出器が、周波数領域において直接に、前記複素数の角度に基づいて前記有声音声のピッチ周期を推定するようにさらに構成されている、
請求項14に記載のオーディオ通信システムにおける声質強化装置。
【請求項16】
前記音声検出器は、前記計算された平均値を、前記現在のショートウィンドウと別の以前のショートウィンドウとに基づいてそれぞれ計算された他の平均値と比較し、
周波数領域において直接に、前記計算された平均値と他の平均値から前記比較動作に基づいて選択された最大の平均値の角度に基づいて、前記有声音声のピッチ周波数を推定するようにさらに構成されている、
請求項14に記載のオーディオ通信システムにおける声質強化装置。
【請求項17】
前記荷重和を計算するために、前記音声検出器は、有声音声の周波数範囲内の周波数の重み関数を使用して、少なくとも1つ前のフレームが複数のフレームを含む場合は、平滑化定数を適用するようにさらに構成されている、
請求項14に記載のオーディオ通信システムにおける声質強化装置。
【請求項18】
前記音声検出器は、周波数領域において直接に、前記検出された有声音声の存在に基づいて前記有声音声のピッチ周波数を推定するようさらに構成されており、
前記計算動作は、前記それぞれの周波数領域表現の正規化されたクロススペクトルを計算することを含み、
前記推定動作は、前記計算された正規化されたクロススペクトルの傾きを計算し、前記計算された傾きをピッチ周期に変換することを含む、
請求項11に記載のオーディオ通信システムにおける声質強化装置。
【請求項19】
前記音声検出器は、周波数領域において直接に、前記検出された有声音声の存在と前記計算された位相差とに基づいて前記有声音声のピッチ周波数を推定し、前記推定されたピッチ周波数を前記オーディオエンハンサーに通信するようさらに構成されており、
前記オーディオエンハンサーは、有声音声の存在が検出されなかったことを示す表示に基づいて、減衰率を前記オーディオ信号に適用するようさらに構成されており、
前記音声強化は、前記推定され通信されたピッチ周波数に基づいて前記有声音声を再構築すること、または、雑音追跡を無効にすること、または、適応利得を前記オーディオ信号に適用すること、または、それらの組み合わせを含む、
請求項11に記載のオーディオ通信システムにおける声質強化装置。
【請求項20】
符号化された一連の命令を有するオーディオ通信システムにおける声質強化用の非一時的なコンピュータ可読媒体であって、前記一連の命令は、プロセッサによってロードされ実行される際に、前記プロセッサに、
前記オーディオ通信システムによって取り込んだ有声音声と少なくとも一部が前記有声音声と関連付けられた周波数である雑音とを含むオーディオ信号内の前記有声音声の存在を監視させ、前記監視動作は、現在のショートウィンドウ内の前記オーディオ信号の現在のオーディオサンプルおよび少なくとも1つ前のショートウィンドウ内の前記オーディオ信号の以前のオーディオサンプルのそれぞれの周波数領域表現間の位相差を計算することを含み、
前記周波数領域表現間で計算された位相差が周波数に対して実質的に直線的であるか否かを判定させ、
前記位相差が周波数に対して実質的に直線的であると判定することによって前記有声音声の存在を検出させ、前記有声音声が検出された場合は、前記オーディオ信号に音声強化を行うことによって前記オーディオ通信システムを介して通信された前記有声音声の音質を強化させる、非一時的なコンピュータ可読媒体。
【発明の詳細な説明】
【背景技術】
【0001】
音声強調の目的は、例えば、雑音によって低下する可能性がある音声信号の明瞭さ、及び/又は、知覚品質全体を改善すること等によって音声の質を向上させることにある。様々なオーディオ信号処理方法は音声品質の向上を目的としている。このようなオーディオ信号処理方法は、携帯電話、ボイス・オーバ・インターネット・プロトコル(VoIP)、遠隔会議システム、音声認識、又は他のあらゆるオーディオ通信アプリケーション等の多くのオーディオ通信アプリケーションによって使用されうる。
【発明の概要】
【0002】
一例示的実施形態によると、オーディオ通信システムにおける声質強化方法は、オーディオ通信システムによって取り込んだ有声音声及び雑音を含むオーディオ信号内の前記有声音声の存在を監視する工程を備えていてもよい。前記雑音の少なくとも一部は、前記有声音声と関連付けられた周波数であってもよい。前記監視する工程は、現在のショートウィンドウ内の前記オーディオ信号の現在のオーディオサンプルおよび少なくとも1つ前のショートウィンドウ内の前記オーディオ信号の以前のオーディオサンプルのそれぞれの周波数領域表現間の位相差を計算する工程を備えていてもよい。前記声質強化方法は、前記それぞれの周波数領域表現間で計算された位相差が周波数に対して実質的に直線的であるかどうかを判定する工程を備えていてもよい。前記声質強化方法は、前記計算された位相差が実質的に直線的であると判定することによって前記有声音声の存在を検出し、前記有声音声が検出された場合は、前記オーディオ信号に対して音声強化を行うことによって前記オーディオ通信システムを介して通信された前記有声音声の声質を強化する工程を備えていてもよい。
【0003】
前記周波数領域表現間で計算された位相差は、実質的に周波数に対して局所的なばらつきのある直線的であってもよいと理解すべきである。例えば、前記計算された位相差は、直線の上下にずれながらも、直線にほぼ沿っている。図6及び図7Fに関して以下に開示するように、前記計算された位相差が平均して直線に沿っている場合には、前記計算された位相は実質的に直線的であると考えてもよい。「実質的に直線的」とは、周波数に対する位相の傾きのばらつきが小さいと定義してもよい。「ばらつきが小さい」とうのは、±1%、±5%、±10%、又は、その他の所定の環境条件に対する許容範囲内の一定の適切な値の変化に対応するものであってもよい。この小さいばらつきの範囲は環境条件に対して、動的に変更されてもよい。一例示的実施形態によると、このような小さいばらつきは、式(13)に対して以下に開示するような閾値に対応するようにしてもよく、前記計算された位相差が実質的に直線的であるか否かを判定するために使用してもよい。
【0004】
前記現在のショートウィンドウおよび前記少なくとも1つ前のショートウィンドウは、前記オーディオ信号内の前記有声音声の周期的な有声励起インパルス信号の全周期のオーディオサンプルを取り込むことができないほど短いウィンドウ長を有していてもよい。
【0005】
前記オーディオ通信システムは車内通信(ICC)システムであってもよく、前記ウィンドウ長は前記ICCシステムにおけるオーディオ通信レイテンシを短縮するよう設定されていてもよい。
【0006】
前記声質強化方法は、周波数領域において直接に、前記検出された有声音声の存在と前記計算された位相差とに基づいて前記有声音声のピッチ周波数を推定する工程をさらに備えていてもよい。
【0007】
前記計算工程は、前記それぞれの周波数領域表現の正規化されたクロススペクトルの隣り合う周波数間の位相関係の周波数に対する加重和を計算する工程と、前記計算された荷重和の平均値を計算する工程とを含んでいてもよい。前記判定工程は、前記計算された平均値の大きさを直線性を示す閾値と比較して、前記計算された位相差が実質的に直線的であるか否かを判定する工程を含んでいてもよい。
【0008】
前記平均値は複素数であってもよく、前記計算された位相差が実質的に直線的であると判定された場合は、前記声質強化方法は、周波数領域において直接に、前記複素数の角度に基づいて前記有声音声のピッチ周期を推定する工程をさらに備えていてもよい。
【0009】
前記声質強化方法は、前記計算された平均値を、前記現在のショートウィンドウと別の以前のショートウィンドウとに基づいてそれぞれ計算された他の平均値と比較する工程と、周波数領域において直接に、前記平均値と他の平均値から前記比較工程に基づいて選択された最大の平均値の角度に基づいて、前記有声音声のピッチ周波数を推定する工程とをさらに備えていてもよい。
【0010】
前記荷重和を計算する工程は、有声音声の周波数範囲における周波数の重み係数を使用し、少なくとも1つ前のフレームが複数のフレームを備える場合は、平滑化定数を適用する工程を備えるように構成してもよい。
【0011】
前記声質強化方法は、周波数領域において直接に、前記検出された有声音声の存在に基づいて前記有声音声のピッチ周波数を推定する工程をさらに備えていてもよい。前記計算工程は、前記それぞれの周波数領域表現の正規化されたクロススペクトルの傾きを計算する工程を含んでいてもよい。前記推定工程は、前記計算された正規化されたクロススペクトルの傾きを計算し、前記計算された傾きを前記ピッチ周期に変換する工程を含んでいてもよい。
【0012】
前記声質強化方法は、周波数領域において直接に、前記検出された有声音声の存在と前記計算された位相差とに基づいて前記有声音声のピッチ周波数を推定する工程と、有声音声の存在が検出されなかったことに基づいて、減衰率を前記オーディオ信号に適用する工程とをさらに備えていてもよい。前記音声強化は、前記推定されたピッチ周波数に基づいて前記有声音声を再構築すること、または、雑音追跡を無効にすること、または、適応利得を前記オーディオ信号に適用すること、または、それらの組み合わせを含んでいてもよい。
【0013】
他の一例示的実施形態によると、オーディオ通信システムにおける声質強化装置は、前記オーディオ通信システムによって取り込んだ有声音声と雑音とを含むオーディオ信号の電気的表現を生成するオーディオインターフェースを備えていてもよい。前記雑音の少なくとも一部は、前記有声音声と関連付けられた周波数であってもよい。前記声質強化装置は、前記オーディオインターフェースに接続されたプロセッサを備えていてもよい。前記プロセッサは、音声検出器とオーディオエンハンサーとを実現するように構成されていてもよい。前記音声検出器は、前記オーディオエンハンサーに接続され、前記オーディオ信号内の有声音声の存在を監視するように構成されていてもよい。この監視動作は、現在のショートウィンドウ内の前記オーディオ信号の現在のオーディオサンプルおよび少なくとも1つの前のショートウィンドウ内の前記オーディオ信号の以前のオーディオサンプルのそれぞれの周波数領域表現間の位相差を計算することを含んでいてもよい。前記音声検出器は、前記それぞれの周波数領域表現間で計算された位相差が周波数に対して実質的に直線的であるか否かを判定するように構成されていてもよい。前記音声検出器は、前記計算された位相差が実質的に直線的であることを判定することによって前記有声音声の存在を検出して、前記有声音声の存在の表示を前記オーディオエンハンサーに通信するように構成されていてもよい。前記オーディオエンハンサーは、前記オーディオ信号に対して音声強化を行うことによって、前記オーディオ通信システムを介して通信された有声音声の音質を強化するように構成されていてもよく、この音声強化は、前記通信された表示に基づくものである。
【0014】
前記現在のショートウィンドウおよび前記少なくとも1つ前のショートウィンドウは、前記オーディオ信号内の前記有声音声の周期的な有声励起インパルス信号の全周期のオーディオサンプルを取り込むことができないほど短いウィンドウ長を有していてもよく、前記オーディオ通信システムは、車内通信(ICC)システムであってもよく、前記ウィンドウ長は、前記ICCシステムにおけるオーディオ通信レイテンシを短縮するように設定されていてもよい。
【0015】
前記音声検出器は、周波数領域において直接に、前記検出された有声音声と前記計算された位相差とに基づいて前記有声音声のピッチ周波数を推定するようにさらに構成されていてもよい。
【0016】
前記計算動作は、前記それぞれの周波数領域表現の正規化されたクロススペクトルの隣り合う周波数間の位相関係の周波数に対する加重和を計算することと、前記計算された荷重和の平均値を計算することとを含んでいてもよい。前記判定動作は、前記計算された平均値の大きさを直線性を示す閾値と比較して、前記計算された位相差が実質的に直線的であるか否かを判定することを含んでいてもよい。
【0017】
前記平均値は複素数であってもよく、前記計算された位相差が実質的に直線的であると判定された場合は、前記音声検出器は、周波数領域において直接に、前記複素数の角度に基づいて前記有声音声のピッチ周期を推定するようにさらに構成されていてもよい。
【0018】
前記音声検出器は、前記計算された平均値を、前記現在のショートウィンドウと別の以前のショートウィンドウとに基づいてそれぞれ計算された他の平均値と比較し、周波数領域において直接に、前記計算された平均値と他の平均値から前記比較動作に基づいて選択された最大の平均値の角度に基づいて、前記有声音声のピッチ周波数を推定するようにさらに構成されていてもよい。
【0019】
前記荷重和を計算するために、前記音声検出器は、有声音声の周波数範囲の周波数の重み係数を使用し、少なくとも1つ前のフレームが複数のフレームを備える場合は、平滑化定数を適用するようにさらに構成されていてもよい。
【0020】
前記音声検出器は、周波数領域において直接に、前記検出された有声音声の存在に基づいて前記有声音声のピッチ周波数を推定するようにさらに構成されていてもよい。前記計算動作は、前記それぞれの周波数領域表現の正規化されたクロススペクトルを計算することを含んでいてもよい。前記推定動作は、前記計算された正規化されたクロススペクトルの傾きを計算し、前記計算された傾きを前記ピッチ周期に変換することを含んでいてもよい。
【0021】
前記音声検出器は、周波数領域において直接に、前記検出された有声音声の存在と前記計算された位相差とに基づいて前記有声音声のピッチ周波数を推定し、前記推定されたピッチ周波数を前記オーディオエンハンサーに通信するようにさらに構成されていてもよい。前記オーディオエンハンサーは、前記有声音声がないことを示す通信された表示に基づいて、減衰率を前記オーディオ信号に適用するようにさらに構成されていてもよい。前記音声強化は、前記推定され通信されたピッチ周波数に基づいて前記有声音声を再構築すること、または、雑音追跡を無効にすること、または、適応利得を前記オーディオ信号に適用すること、または、それらの組み合わせを含んでいてもよい。
【0022】
さらに他の一例示的実施形態は、符号化された一連の命令を有する非一時的なコンピュータ可読媒体を備えていてもよく、前記一連の命令は、プロセッサによってロードされ実行される際に、前記プロセッサにここに開示する方法を行わせる。
【0023】
ここで開示する実施形態は、プログラムコードが具現化される方法、装置、システム、又は、コンピュータ可読媒体の形態で実現することができる。
【図面の簡単な説明】
【0024】
本特許又は出願書類には、少なくとも1つのカラーの図面が含まれる。カラーの図面を含む本特許又は特許出願書類のコピーは、請求及び必要な庁費用の支払いに応じて、管轄特許庁によって提供される。
【0025】
上記の内容は、以下に特に詳細に記載する例示的実施形態から明らかとなり、添付図面に示すように、全ての図面において、同様の参照符号は同様の部分を示す。添付図面は必ずしも寸法どおりではなく、実施形態を示す際に強調して例示する。
【0026】
図1A図1Aは、車内通信(ICC)システムの一例示的実施形態を採用されうる車の一例示的実施形態を示す図である。
図1B図1Bは、オーディオ通信システムにおける声質強化方法の一例示的実施形態のフロー図である。
図2図2は、音声生成の一例示的実施形態のブロック図である。
図3図3は、有声音声を含むオーディオ信号の一例示的実施形態のスペクトル領域を示す図である。
図4図4は、オーディオ信号の間隔の電気的表現のオーディオサンプルのロングウィンドウとショートウィンドウであって、有声音素を取り込むロングウィンドウとショートウィンドウの一例示的実施形態の時間領域を示す図である。
図5図5は、複数のショートウィンドウの一例示的実施形態の時間領域表現を示す図である。
図6図6は、図5の2つのショートウィンドウに対するプロットの一例示的実施形態の時間領域からスペクトル領域への変換を示す図である。
図7A図7Aは、複数の励起インパルスを取り込むロングウィンドウの一例示的実施形態のプロットを示す図である。
図7B図7Bは、大小情報のみを使用して、ピッチ周波数を反映するパワースペクトル密度の一例示的実施形態のプロットを示す図である。
図7C図7Cは、自己相関関数(ACF)の最大値によって決定されるピッチ周期を表したプロットを示す図である。
図7D図7Dは、2つのショートウィンドウの一例示的実施形態のプロットを示す図である。
図7E図7Eは、フレーム間の一般化された相互関係(GCC)の一例示的実施形態のプロットを示す図である。
図7F図7Fは、図7EのGCCの正規化されたクロススペクトル(GCSxx)の位相の一例示的実施形態のプロットを示す図である。
図8A図8Aは、検出結果のプロットを示す図である。
図8B図8Bは、ピッチ推定結果のプロットを示す図である。
図9図9は、信号対雑音比(SNR)に対する一例示的実施形態及びベースライン法の性能結果のプロットを示す図である。
図10図10は、ピッチ周波数推定の誤差の分布を表したプロットを示す図である。
図11図11は、総ピッチ誤差(GPE)のプロットを示す図である。
図12図12は、オーディオ通信システムにおける声質強化装置の一例示的実施形態のブロック図である。
図13図13は、雑音を抑制することによって音声強化を行うように構成されたICCシステムの一例示的実施形態のブロック図である。
図14図14は、利得制御によって音声強化を行うように構成されたICCシステムの一例示的実施形態のブロック図である。
図15図15は、損失制御を行うように構成されたICCシステムの一例示的実施形態のブロック図である。
図16図16は、音声及びピッチ検出に基づいて音声強化を行うように構成されたICCシステムの一例示的実施形態のブロック図である。
図17図17は、ここに開示するいずれかの一実施形態内でのコンピュータの内部構成の一例のブロック図である。
【発明を実施するための形態】
【0027】
例示的実施形態を以下に説明する。
【0028】
有声音声の検出及びピッチ周波数の推定は、多くの音声処理方法にとって重要な課題である。有声音声は話者の声帯及び口と唇とを含む声道によって生成される。声道は、声帯によって生成される有声励起をスペクトル的に形成する共振器として働く。そのように、有声音声は、話者の声帯が話している間に振動すると生成されるが、無声音声は話者の声帯の振動を伴わない。声のピッチは、声帯皺襞とも称される声帯の振動率として理解され得る。振動率が変化するにつれて声の響きは変化する。毎秒あたりの振動数が増加するにつれて、ピッチも増加し、声が高音になる。ピッチ周波数又はピッチ周期等のピッチ情報を使って、例えば、雑音によって変化したり、マスクされたりした有声音声を再構築することがある。
【0029】
自動車環境においては、駆動騒音は、有声音声部分に一般的な低い周波数に本来的に存在し得るため、特に有声音声部分に影響する。そのため、ピッチの推定が、例えば、車内通信(ICC)システムで重要である。このようなシステムは、運転者や後部座席の乗客の声等の話者の声を増幅し、運転者と後部座席の乗客との間の会話を簡便にすることができる。そのようなICCアプリケーションでは、低レイテンシが必要であることが一般的で、そのため、ICCアプリケーションには、フレーム長が短く、連続するフレーム(ここでは「ウィンドウ」とも称する)間のフレームシフトが短い場合がある。しかし、従来のピッチ推定技術は、人の声のピッチ周期を超えるロングウィンドウに依存する。特に、男性話者の低いピッチ周波数は、従来のピッチ推定技術を使用する低レイテンシのアプリケーションにおいては分解することが難しい。
【0030】
ここに開示する一例示的実施形態では、非常に効率よく評価することが可能な複数のショートウィンドウ間の関係を考慮する。1つのロングウィンドウへの依存に代えて、複数のショートウィンドウ間の関係を考慮にいれることによって、ショートウィンドウや男性話者の低ピッチ周波数のような通常の課題をこの例示的実施形態によって解決してもよい。方法の一例示的実施形態は、広い範囲のピッチ周波数に亘ってピッチ周波数を推定するようにしてもよい。それに加えて、この例示的実施形態は、離散逆フーリエ変換(IDFT)を計算してピッチ推定用の時間領域に変換し直すような従来のピッチ推定技術の計算複雑性が必要でなくなる周波数領域においてピッチ周波数を直接に推定するため、この例示的実施形態では計算複雑性を従来のピッチ推定技術に比べて低くすることができうる。ここでは、一例示的実施形態は、複雑低減法又は複雑性低減法とも称する場合がある。
【0031】
一例示的実施形態は、ICCシステムにおいて、他のアプリケーション用にすでに計算されている入力オーディオ信号のスペクトル表現(つまり、スペクトル)を使用するものであってもよい。通信のための低レイテンシ要件を満たすためにICCアプリケーションには非常に短いウィンドウを使ってもよく、そのため、スペクトルの周波数分解能は低い場合もあるし、1つのフレームに基づいてピッチを決定することできない場合もある。ここに開示する一例示的実施形態は、これらの複数の低分解能スペクトル間の位相差に着目するものであってもよい。
【0032】
有声音声の高調波励起をピークの周期的反復と考え、ピーク間の距離を遅延によって表してもよい。スペクトル領域において、遅延は直線的な位相に対応する。一例示的実施形態は、直線性に関して、2つのスペクトル等、複数のスペクトル間の位相差をテストして高調波成分が検出可能か否かを判定するものであってもよい。さらに、一例示的実施形態は、直線的な位相差の傾きに基づいてピッチ周期を推定するようにしてもよい。
【0033】
一例示的実施形態によると、1つのロングウィンドウに代えて、複数の低分解能スペクトル間の位相差に基づいてピッチ情報をオーディオ信号から抽出するようにしてもよい。このような例示的実施形態は、短いフレームシフトによって提供される高い時間分解能の恩恵を受けて、短いウィンドウ長による低スペクトル分解能にも対応することができる。このような例示的実施形態を採用することによって、さらに低いピッチ周波数を非常に効率的に推定するようにしてもよい。
【0034】
図1Aは、ICCシステム(図示せず)の一例示的実施形態を採用することができる車102の一例示的実施形態のブロック図100を示す。ICCシステムは、車102内の通信パス(図示せず)をサポートするものであり、マイク(図示せず)を介して第1のユーザ106aの音声信号104を受信し、第2のユーザ106bに対して拡声器108上で強化音声信号110を再生する。マイクによって生成されたマイク信号(図示せず)は、音声信号104と、車102の車室内等の音響環境103で生成される雑音信号(図示せず)とを含んでいる場合がある。
【0035】
マイク信号は、ワイパー113aもしくは113bによって生成されたワイパーの雑音114、又は、車102の音響環境103内で生成された他の音響雑音等の音響環境103内で生成された音響雑音を音声信号104と区別して、音響雑音が抑制されている強化音声信号110を生成することに基づいてICCシステムによって強化するようにしてもよい。この通信パスは、第2のユーザ106bから第1のユーザ106aへの通信も可能にする双方向のパスであってもよいと理解すべきである。このように、音声信号104を他のマイク(図示せず)を介して第2のユーザ106bによって生成するようにしてもよいし、強化音声信号110を第1のユーザ106aに対して他の拡声器上で再生するようにしてもよい。車102の音響環境103において生成した音響雑音は、通過する車からの雑音や、他のあらゆる環境雑音等の車室外からの環境雑音を含むことがあると理解すべきである。
【0036】
音声信号104は、有声信号105と無音信号107とを含むものであってもよい。話者の音声は、第1のユーザ106aの声帯(図示せず)および口と唇109とを含む声道によって生成される有声音素からなるものであってもよい。このように、有声信号105は音素を発音中に話者の声帯が振動する際に生成される。これに対して、無音信号107は話者の声帯の振動を伴わない。例えば、音素/s/と/z/との間、又は、音素/f/と/v/との間の違いは、話者の声帯の振動である。有声信号105は、母音/a/、/e/、/i/、/u/、/о/のように、無音信号107よりも大きく発音される傾向にある。一方、無音信号107は、閉鎖音/p/、/t/、/k/のように、より破裂した音であるという傾向がある。
【0037】
車102は、運搬車に適した種類のものであればよく、拡声器108は、強調音声信号110を第2のユーザ106bにはっきりと聞こえるように伝えることに適する種類の装置であればよいと理解されるべきである。さらに、強調した音声信号110は、文字形式で生成され、あらゆる適した種類の電子装置を介して第2のユーザ106bに伝えられるようにしてもよく、そのような文字形式は、可聴形式と組み合わせた形、または、そのような可聴形式に代えて生成してもよいと理解されるべきである。
【0038】
前述の図1Aに関する記載に開示したICCシステムにおいて、ここに開示する一例示的実施形態を採用し、強化音声信号110を生成してもよい。ここで開示する一例示的実施形態は、音声信号104及び音響環境103の音響雑音を含むマイク信号を処理し、車102の音響環境103に対して調整できる強化音声信号110を生成する音声強化技術に採用してもよい。
【0039】
音声強化技術は、多くの音声駆動アプリケーションに用いられる。雑音によって変化する音声信号に基づき、これらの音声強化技術は、オリジナルの音声を復元しようとするものである。雑音は自動車のアプリケーション等の様々な状況において、雑音は低い周波数に集中する。この周波数領域における音声部分は、特に、雑音の影響を受ける。
【0040】
人の音声は有声及び無音の音素からなる。有声の音素は、声帯皺襞の周期的振動によっておこる高調波励起構造を示す。時間領域においては、この有声励起は反復インパルス状信号成分列であるという特徴がある。話者のアイデンティティや韻律の情報のような重要な情報はピッチ周波数に含まれる。そのため、前述の図1Aに開示するICCアプリケーションのような多くのアプリケーションにとって、有声音声の存在を検出し、ピッチ周波数を推定することが望まれる(A. de Cheveigne and H.Kawahara, “YIN、a fundamental frequency estimator for speech and music,”The Journal of the Acoustical Society of America,vol.111,no.4,p.1917,2002;S.Gonzalez and M.Brookes,“A pitch estimation filter robust to high levels of noise (PEFAC),”in Proc.of EUSIPCO,Barcelona,Spain,2011;B.S.Lee and D.P.Ellis,“Noise robust pitch tracking by subband autocorrelation classification,”in Proc.of Interspeech,Portland,Oregon,USA,2012;F.Kurth,A.Cornaggia-Urrigshardt,and S.Urrigshardt,“Robust F0 Estimation in Noisy Speech Signals Using Shift Autocorrelation,”in Proc.of ICASSP,Florence,Iataly,2014)。
【0041】
図2は、音声生成の一例示的実施形態のブロック図200を示す。音声信号210は、前述のように、有声及び無音音素からなる人の音声では一般的なものである。ブロック図200は、無音励起202、有声励起204、及び声道フィルタ206のプロットを含んでいる。前述のように、励起は有声及び無音音素で異なる。有声励起204のプロットは、ピッチ周期208がt0でピッチ周波数がf0=1/t0の高調波成分である一方で、無音励起202のプロットには高調波がない。
【0042】
図3は、有声音声305を含むオーディオ信号の一例示的実施形態のスペクトル領域表現300である。この一例示的実施形態において、無音音声307も含む全ての発声が取り込まれる。このスペクトル領域表現300は、高スペクトル分解表現312と低スペクトル分解表現314とを含む。高スペクトル分解表現312においては、前述の図2に関する記載に開示したピッチ周波数f0のような別個のピッチ周波数が見られる。しかし、低スペクトル分解表現314においては、ピッチ構造は分解することができない。低スペクトル分解表現314は、前述の図1Aに関する記載に開示したICCシステムのような、低レイテンシ通信を必要とするオーディオ通信システムで用いるショートウィンドウでは一般的なものである。
【0043】
図4は、有声音素を取り込むオーディオ信号の間隔を電子的に表現したオーディオサンプルのロングウィンドウ412とショートウィンドウ414の一例示的実施形態の時間領域表現400である。ロングウィンドウ412においては、ピッチ周期408が取り込まれている。しかし、ショートウィンドウ414は、1つのピッチ周期を取り込むには短すぎる。この場合においては、ショートウィンドウ414が短すぎてピッチを分解することができないので、1つのフレームに基づく従来の方法ではピッチを推測することができない。一例示的実施形態は、複数の短いフレーム(つまり、ウィンドウ)を用いて、時間的な前後関係を拡張する。
【0044】
一般的には、ピッチ周波数を正確に分解するためには長いウィンドウ長が必要である。ピッチ情報を抽出するには、複数の励起インパルスが取り込まれる必要がある。これは、特に、実用的なアプリケーションで使用される一般的なウィンドウ長を超えるピッチ周期を持つ低い男性の声で問題となる(M.Krini and G.Schmidt,“Spectral refinement and its application to fundamental frequency estimation,”in Proc.of WASPAA,New Paltz,New York,USA,2007)。ウィンドウ長を増加させることによってシステムのレイテンシが長くなり、計算複雑性が上がってしまうため、ほとんどの場合において、ウィンドウ長を増加させることは許容されない。
【0045】
さらに、システムのレイテンシや計算コストに関する制約が大きな課題となっているアプリケーションもある。ICCシステムでは、前述の図1Aに関する記載に開示したように、簡便な聴覚体験を確実にするためには、システムのレイテンシをできるだけ低く保つ必要がある。オリジナルの音声と増幅された信号とが車室内にあるため、これらの信号間の10ミリ秒以上の遅延は、聞き手にはじれったいと感じられる(G.Schmidt and T.Haulick,“Signal processing for in-car communication systems,”Signal processing,vol.86,no.6,pp.1307-1326,2006)。そのため、ピッチ推定用の標準アプローチの適用が不要となるような非常に短いウィンドウを使用することにしてもよい。
【0046】
ここに開示する一例示的実施形態は、非常に短いウィンドウに対応することができるピッチ推定方法を紹介するものである。通常のアプローチとは異なり、ピッチ周波数やピッチ周期等のピッチ情報は、1つの長いフレームに基づいて抽出されない。その代わりに、一例示的実施形態は、複数のより短いフレーム間の位相関係を考慮する。一例示的実施形態では、非常に低いピッチ周波数であっても分解が可能になる。一例示的実施形態は、周波数領域において完全に動作するため、計算複雑性を軽減することができる。
【0047】
図1Bは、オーディオ通信システムにおける声質強化方法の一例示的実施形態のフロー図120である。この方法では、開始(122)すると、オーディオ通信システムによって取り込んだ有声音声と雑音とを含むオーディオ信号において有声音声の存在を監視する(124)。雑音の少なくとも一部は、有声音声に関連付けられた周波数であってもよい。ここで行われる監視は、現在のショートウィンドウ内のオーディオ信号の現在のオーディオサンプルおよび少なくとも一つ前のショートウィンドウ内のオーディオ信号の以前のオーディオサンプルのそれぞれの周波数領域表現間の位相差を計算することを含んでいてもよい。この方法は、それぞれの周波数領域表現間で計算された位相差が、周波数に対して実質的に直線的であるか否かを判定するものであってもよい(126)。この一例示的実施形態において、この方法は、計算された位相差が実質的に直線的であると判定することによって、有声音声の存在を検出し、有声音声が検出された場合は、オーディオ信号に対して音声強化を行うことによってオーディオ通信システムを介して通信された有声音声の音質を強化し(128)、その後、終了してもよい(130)。
【0048】
この方法は、周波数領域において直接に、検出された有声音声の存在と計算された位相差とに基づいて有声音声のピッチ周波数を推定することをさらに備えていてもよい。
【0049】
一般的なピッチ推定技術は、長いフレームにおいて周期的成分を探索するものである。一般的なピッチ推定技術は、例えば、自己相関関数(ACF)を使用して、長いフレーム内の反復構造を検出してもよい。そして、ピッチ周期は、ACFの最大値の位置を見つけることによって推定されてもよい。
【0050】
これに対して、ここに開示する一例示的実施形態は、時間的に重なる又は重ならない短いフレーム(つまり、ウィンドウ)の対を比較することによって、反復構造を検出する。2つの励起インパルスが2つの異なる短いフレームに取り込まれると想定してもよい。さらに、2つの励起インパルスが等しい形状であると想定すると、両フレームにおける信号区間は、時間的シフト以外同じであってもよい。このシフトを判定することによって、ピッチ周期を非常に効率的に推定するようにしてもよい。
【0051】
図5は、オーディオ信号(図示せず)の複数のショートウィンドウの一例示的実施形態の時間領域表現500である。複数のショートウィンドウは、ショートウィンドウ514a―zおよび514aaと、514bbと、514ccとを含む。複数のショートウィンドウはそれぞれ、オーディオ信号内の有声音声の周期的有声励起インパルス信号の周期全体のオーディオサンプルを取り込むことができないほど短いウィンドウ長516を有する。ウィンドウ長516は、前述の図1Aに関する記載に開示したICCシステムのような、低レイテンシを必要とするオーディオ通信アプリケーションでは一般的なものである。ウィンドウ長516は、ICCシステム内のオーディオ通信レイテンシを低減するように設定されてもよい。
【0052】
複数のショートウィンドウ514a―z、514aa、514bb、及び514ccのうち連続したショートウィンドウはフレームシフト418を有する。一例示的実施形態は、複数の短いフレーム間の関係を用いて、ピッチ周期308のようなピッチ情報を取得する。一例示的実施形態は、周期的励起の2つのインパルスが、時間的シフトと共に、ショートウィンドウ514a(つまり、ウィンドウ0)、ショートウィンドウ514g(つまり、ウィンドウ6等)の2つの異なる短いフレームに取り込まれる想定としてもよい。時間領域表現500に示すように、ショートウィンドウ514aとショートウィンドウ514gとは時間的にシフトされている。一例示的実施形態は、以下に開示するように、有声音声の存在を監視するためのショートウィンドウの周波数領域表現を用いていてもよい。このようなショートウィンドウの周波数領域表現は、低レイテンシのオーディオ通信が要求されるオーディオ通信システムにおける複数のアプリケーションで使用してもよいため、このようなショートウィンドウの周波数領域表現が使用可能となりうる。
【0053】
図6は、図5の2つのショートウィンドウに関するプロットの一例示的実施形態の時間領域のスペクトル領域への変換表現600を示す図である。時間領域のスペクトル領域への変換表現600は、それぞれ図5のショートウィンドウ514a、514gに対する時間領域プロット612a、612bを含んでいる。図6に示すように、ショートウィンドウ514a、514bの時間領域表現は、時間差608によって時間的にシフトする。ショートウィンドウ514a、514bの時間領域表現は、高速フーリエ変換(FFT)によって周波数領域に変換されてもよく、スペクトル領域における大きさ及び位相成分を生成する。スペクトル領域大小プロット614a、614bは、それぞれ、スペクトル領域内のショートウィンドウ514a、514gの大小に対応する。スペクトル領域位相プロット614a、614bは、それぞれ、スペクトル領域内のショートウィンドウ514a、514gの位相に対応する。スペクトル領域位相差プロット650に示すように、ショートウィンドウ514a、514gのそれぞれの周波数領域(つまり、スペクトル領域)表現間の位相差は周波数に対して実質的に直線的であり、時間差608は傾き652から計算されてもよい。このように、周波数に対してほぼ直線的である位相差の傾き652をピッチ推定に使用してもよい。計算された位相差は、上下にずれながらもおおよそ直線651に沿っていることから、計算された位相差は実質的に直線的であると考えてもよい。
【0054】
前述のように、オーディオ通信システムにおける声質強化方法は、オーディオ通信システムによって取り込まれる有声音声と雑音とを含むオーディオ信号における有声音声の存在を監視する工程を備えていてもよい。雑音の少なくとも一部は、有声音声と関連付けられた周波数であってもよい。この監視工程には、現在のショートウィンドウ内のオーディオ信号の現在のオーディオサンプルおよび少なくとも1つ前のショートウィンドウ内のオーディオ信号の以前のオーディオサンプルのそれぞれの周波数領域表現616a、161b等の周波数領域表現間の位相差を計算する工程を含んでいてもよい。前記声質強化方法は、それぞれの周波数領域表現616a、161b間で計算された位相差が、周波数に対して実質的に直線的であるか否かを判定する工程を備えていてもよい。前記声質強化方法は、実質的な直線651で示すように、計算された位相差が実質的に直線的であると判定することによって、有声音声の存在を検出して、有声音声が検出された場合は、音声強化をオーディオ信号に対して行うことによってオーディオ通信システムを介して通信された有声音声の声質を強化する工程を備えていてもよい。
【0055】
信号モデル
【0056】
有声音声の有無に対して、2つの仮説(H0、H1)を立ててもよい。有声音声がある場合は、信号x(n)は、有声音声成分svと、無音音声と雑音を含む他の成分bとの式(1)の重ね合わせによって表すことができる。
【数1】
また、有声音声がない場合は、式(2)で表される信号が純粋に雑音又は無音音声成分に依存する。
【数2】
【0057】
一例示的実施形態は有声音声成分の存在を検出するものであってもよい。有声音声が検出された場合、一例示的実施形態は、ピッチ周波数fv=fs/τvを推定してもよい。ここで、サンプルにおいて、fsはサンプリングレートであり、τvはピッチ周期である。
【0058】
有声音声は、式(3)で表す周期的励起によってモデル化してもよい。
【数3】
ここで、1つの励起インパルスの形状を関数gnによって表す。後続の2つのピーク間の距離τvは、ピッチ周期に対応する。人の音声では、ピッチ周期は、非常に低い男性の声に対するτmax=fs/50Hzまでの値を想定するものであってもよい。
【0059】
自己相関及び相互相関を使用したピッチの推定
【0060】
信号処理は、式(4)で表す信号のフレーム上で行われてもよい。
【数4】
ここで、Nはウィンドウ長を示し、Rはフレームシフトを示す。
【0061】
ロングウィンドウは、N>τmaxで表され、ACFの最大値は以下の式(5)で表される。
【数5】
以下の図7A図7Cに開示するように、ACFの最大値は、ピッチを推定するために使用する人のピッチ周期の範囲内であってもよい。離散逆フーリエ変換(IDFT)を適用し、推定された高分解能パワースペクトル|X(k、l)|をACFに変換してもよい。
【0062】
図7Aは、複数の励起インパルスを取り込むロングウィンドウの一例示的実施形態のプロット700を示す図である。
【0063】
図7Bは、大小情報だけを用いてピッチ周波数fを反映するパワースペクトル密度の一例示的実施形態のプロット710を示す図である。
【0064】
図7Cは、自己相関関数(ACF)の最大値によって判定できるピッチ周波数τを示すプロット720を示す図である。
【0065】
ロングウィンドウを用いるピッチ推定に基づいた前述のACFに対して、ここに開示する一例示的実施形態は、ピッチ周囲全体を取り込むには短すぎる非常に短いウィンドウ
【数6】
に着目するようにしてもよい。ウィンドウ長が短いため、X(k、l)のスペクトル分解は低くなる。しかし、短いフレームシフト
【数7】
に対して、良好な時間的分解能を得ることができる場合がある。この場合、一例示的実施形態は、2つの短いフレームx(l)、x(l-Δl)を用いて図7Dに示すピッチ周囲を判定するようにしてもよい。
【0066】
図7Dは、2つのショートウィンドウの一例示的実施形態のプロット730を示す図である。プロット730に示すように、より短いウィンドウに対しては、ピッチ周期を取り込むために2つのフレームが必要である。
【0067】
両フレームが異なる励起インパルスを含む場合、この2つのフレーム間の相互相関は以下の式(6)で表される。
【数8】
この相互相関は、ピッチ周期
【数9】
に対応する最大値
【数10】
を有している。この相関のピークを強調するために、一例示的実施形態は、代わりに、以下の式(7)で表す一般化された相互相関(GCC)を用いてもよい。
【数11】
規格化相互スペクトラムGCSxx内の大小情報を取り除くことにより、GCCは、純粋に位相に依存する。その結果、図7Eに開示するように、2つのインパルス間の距離をはっきりと特定することができる。
【0068】
図7Eは、フレーム間のGCCの一例示的実施形態のプロット740を示す図である。プロット740は、フレーム間のGCCが、図7CのACFと比べて、より明らかにピークを表すことを示している。
【0069】
図7Fは、図7EのGCCの規格化相互スペクトラム(GCSxx)の位相の一例示的実施形態のプロット750を示す図である。プロット750は、2つの低分解能スペクトラム間の位相差には、ピッチ推定用の全ての関連情報が含まれていることを示している。一例示的実施形態の方法は、周波数領域において直接に、ピッチ周期を推定するようにしてもよい。この推定は、以下に開示するように、GCSxxの位相差の傾き752に基づくものであってもよい。プロット750に示すように、位相差は、上下にずれながらもおおよそ直線751に沿っていることから、この位相差は実質的に直線的であると考えてもよい。
【0070】
位相差に基づくピッチ推定
【0071】
2つの短いフレームが同じ形状の時間的にシフトしたインパルスを取り込む場合、このシフトを遅延によって表してもよい。周波数領域においては、これは、相互スペクトラムの直線的な位相によって特徴付けられていてもよい。この場合、隣り合う周波数ビン間の位相関係は、以下に示す式(8)、(9)で表される。
【数12】
この位相関係は、位相差
【数13】
を有する全ての周波数に対して一定である。周期的構造を示さない信号に対しては、
【数14】
は、kに対してランダム性を有する。したがって、直線的な位相のテストを用いて、有声成分を検出してもよい。
【0072】
一例示的実施形態は、以下の式(10)で表す周波数に沿った荷重和を用いて、音声の検出とピッチ周波数の推定を行うようにしてもよい。
【数15】
高調波信号に対しては、直線位相によって、荷重和が1に近い値となる。そうでない場合は、より小さい値となる。一例示的実施形態においては、重み係数
【数16】
を用いて音声に関連する周波数を強調するようにしてもよい。例えば、推定された信号対雑音電力比(SNR)を用いて、この重み係数を固定値に設定してもよいし、動的に選択するようにしてもよい。一例示的実施形態は、有声音声の周波数範囲内のスペクトルにおける支配的成分を強調するために、重み係数を以下の式(11)に表すように設定してもよい。
【数17】
式(10)の荷重和は、現在のフレームlと1つ前のフレームl-Δlとの間の位相差にのみ依存する。推定のための2よりも多い数の励起インパルスを含めるために、一例示的実施形態は、以下の式(12)で表す時間的平滑化を行うようにしてもよい。
【数18】
【0073】
平滑化定数αを変更することによって、使用する時間的な前後関係を一例示的実施形態にしたがって調整してもよい。平滑化に関しては、一例示的実施形態は、以前のインパルスを含むと考えられるフレームのみを考慮するようにしてもよい。一例示的実施形態は、Δlフレームの距離を持つインパルスを探索するようにしてもよく、l-Δlでの平滑化推定を考慮にいれるものであってもよい。
【0074】
一例示的実施形態は、平均化位相差に基づいて、位相の直線性を示す式(13)の発声特徴を定義するようにしてもよい。
【数19】
全ての複素数ΔGCSが同じ位相を有する場合には、これらの複素数は累積されて、直線位相を示す平均値1となる。そうでない場合は、位相はランダムに分布してもよく、この結果はより低い値を想定するものである。
【0075】
同様に、一例示的実施形態は、ピッチ周期を推定するものであってもよい。一例示的実施形態は、以下の式(14)で表す角度演算子によって式(13)における値を置き換えて、直線位相の傾きを推定するようにしてもよい。
【数20】
一例示的実施形態によると、この傾きは、以下の式(15)に表すピッチ周期の推定に変換されてもよい。
【数21】
【0076】
従来のアプローチとは異なり、一例示的実施形態は、周波数領域において直接に、位相差に基づいてピッチを推定するようにしてもよい。この例示的実施形態は、再び時間領域に戻す変換や、ACFベースの方法で一般的な時間領域内の最大値探索が必要ではないため、非常に効率的に実現されうる。
【0077】
このように、図1Bに戻り、前記声質強化方法は、周波数領域において直接に、検出された有声音声の存在と計算された位相差とに基づいて有声音声のピッチ周波数を推定する工程をさらに備えていてもよい。位相差を計算する工程は、前述の式(10)に関する記載に開示したように、それぞれの周波数領域表現の正規化されたクロススペクトルの隣り合う周波数間の位相関係の周波数に対する加重和を計算する工程と、計算された荷重和の平均値を計算する工程とを含んでいてもよい。前述の式(13)に関する記載に開示したように、それぞれの周波数領域表現間で計算された位相差が周波数に対して実質的に直線的であるか否かを判定する工程は、計算された平均値の大きさを直線性を示す閾値と比較して、計算された位相差が実質的に直線的であるか否かを判定する工程を含んでいてもよい。複素数ΔGCS全てが同じ位相を有する場合には、これらの複素数は累積されて、直線位相を示す平均値1となる。一例示的実施形態によると、閾値は1より小さい値であってもよい。完全な直線性に対してのみ最大値1が得られるため、閾値は1より小さい値に設定されてもよい。例えば、閾値0.5を用いて、位相がほぼ直線的な(しかし、完全に直線ではない)有声音声を検出し、それを平均値がより小さい雑音から分離してもよい。
【0078】
平均値は複素数であってもよく、計算された位相差が実質的に直線的であると判定された場合には、前述の式(14)に関する記載に開示したように、前記声質強化方法は、周波数領域において直接に、複素数の角度に基づいて有声音声のピッチ周期を推定する工程をさらに備えていてもよい。
【0079】
前記声質強化方法は、計算された平均値を、現在のショートウィンドウと別の以前のショートウィンドウとに基づいてそれぞれ計算された他の平均値と比べる工程と、周波数領域で直接に、最大の平均値の角度に基づいて有声音声のピッチ周波数を推定する工程とを備えていてもよい。この最大の平均値は、式(16)に関して以下にさらに開示するように、計算された平均値と他の平均値とから、比較に基づいて選択したものである。
【0080】
荷重和を計算する工程は、前述の式(11)に関する記載に開示したように、有声音声の周波数範囲内の周波数の重み係数を使用し、前述の式(12)に関する記載に開示したように、少なくとも1つ前のフレームが複数のフレームを含む場合は、平滑化定数を適用する工程を含んでいてもよい。
【0081】
前記声質強化方法は、周波数領域において直接に、検出された有声音声の存在に基づいて有声音声のピッチ周波数を推定する工程をさらに備えていてもよい。前記計算工程は、前述の図7に関する記載に開示したように、それぞれの周波数領域表現の正規化されたクロススペクトルを計算する工程を備えていてもよい。この推定工程は、前述の図14に関する記載に開示しているように、計算された正規化されたクロススペクトルの傾きを計算し、前述の図15に関する記載に開示したように、計算された傾きをピッチ周期に変換する工程を備えていてもよい。
【0082】
前記声質強化方法は、周波数領域において直接に、検出された有声音声の存在と計算された位相差とに基づいて有声音声のピッチ周波数を推定する工程と、図15に関して以下にさらに開示するように、有声音声の存在が検出されなかったことに基づいて、減衰率をオーディオ信号に適用する工程とをさらに備えていてもよい。図15の損失制御において、音声検出結果は、音声が検出されない場合にそのような減衰率を適用するためだけでなく、反響を防ぐために一方向だけを活性化するために用いられてもよい。どの方向を活性化するか(非活性化するか)に関する決定は、音声検出結果を含む精巧なルールに依存してもよい。さらに、前記音声強化は、推測されたピッチ周波数に基づいて有声音声を再構築すること、または、図13に関して以下さらに開示するように、雑音追跡を無効にすること、または、図14に関して以下にさらに開示するように、オーディオ信号に適応利得を適用すること、または、それらの組み合わせを含んでいてもよい。
【0083】
後処理及び検出
【0084】
一例示的実施形態は、後処理を用いてもよく、後処理は、異なる短いフレームの結果を組み合わせて、最終的な発声特徴とピッチ推定を得る工程を備えていてもよい。オーディオ信号の移動区間は異なる短いフレームによって取り込まれることがあるため、現在のフレームは励起インパルスを1つ含んでいてもよいが、2つのインパルス間に位置することもある。この場合は、信号に別個の高調波励起があったとしても、現在のフレームで有声音声は検出されない。このようなギャップを防ぐために、一例示的実施形態において、Δlフレームまで、pv(l、Δl)の最大値が維持されるようにしてもよい。
【0085】
一例示的実施形態において、前述の式(13)を用いて、異なるピッチ領域に関する複数の結果を考慮するようにしてもよい。この例示的実施形態においては、現在のフレームlと1つ前のフレームl-Δlとの間の各位相差毎に、発声特徴p(l、Δl)の値を判定するようにしてもよい。以下の式(16)で表す最確の領域を探索することによって、異なる複数の値を最終的な特徴に融合してもよい。
【数22】
【0086】
これにはピッチ周期が含まれる。発声特徴とピッチ推定は、それぞれ
【数23】

【数24】
とによって与えられてもよい。最確の領域を見つけるために他のアプローチを用いてもよいと理解するべきである。最大値はよい指標ではあるが、他の領域も確認することで改善を図ることができる。例えば、2つの値が類似しており最大値に近い場合には、低調波の検出を防ぐために、より短い距離Δlを選択することがより好ましい。
【0087】
一例示的実施形態は、発声特徴pvに基づいて有声音声の存在に関して判定を行なってもよい。前述の式(1)、(2)の2つの仮説H0、H1のうちの1つを決定するために、閾値ηを発声特徴に適用してもよい。前記の判定は、発声特徴が閾値を超える場合は有声音声が検出され、そうでない場合には有声音声がないと推定するものであってもよい。
【0088】
実験と結果
【0089】
ここに開示する実験と結果は、ICCアプリケーションにおいて一般的である自動車騒音に着目するものである。キール音声データベース(Keele Speech Database)(F.Plante,G.F.Meyer,and W.A.Ainsworth,“A pitch extraction reference database,”in Proc.of EUROSPEECH,Madrid,Spain,1995)の音声信号、及びUTD-CAR-NOISE database(N.Krishnamurthy and J.H.L.Hansen,“Car noise verification and applications,”International Journal of Speech Technology,Dec.2013)の自動車騒音を使用する。これらの信号は、f=16kHzのサンプリングレートまで低解像度処理されている。R=32サンプル(2ms)のフレームシフトは、ここに開示するすべての解析に使用される。短いフレームには、128サンプル(8ms)のハンウィンドウ(Hann Window)が採用される。
【0090】
キールデータベースには、咽頭記録に基づくピッチ基準が設けられている。この基準は、グランドトゥルースとして全ての分析に使用される。
【0091】
比較のため、ACFに基づく従来のピッチ推定アプローチを使用する。そのようなACFベースのアプローチは、ここでは、ベースライン法又はベースラインアプローチとも称する。このベースライン法を雑音データに適用してベースラインを得て、ここでは、低複雑性特徴、複雑性低減法、複雑性低減アプローチ、低複雑特徴、複雑低減アプローチ、又は、単に「複雑性低減」もしくは「複雑低減」とも称する一例示的実施形態の性能を評価する。長い時間的前後関係を、1024サンプル(64ms)のロングウィンドウによって考慮するので、ベースラインアプローチを用いて良好な性能を得ることができる。
【0092】
一例において、音声と雑音とを混合して0dBのSNRとした。図8A図8Bは、複雑性低減法、ベースライン法に関する検出結果およびピッチ推定をそれぞれ基準とともに開示している。
【0093】
図8Aは、雑音の混じった音声信号(SNR=0dB)に対するベースライン法844と複雑性低減法842の一例示的実施形態の検出結果pv(t)のプロット800を示す図である。さらに、雑音の混じった音声信号(SNR=0dB)の基準846(つまり、グランドトゥルース)は、有声音声が検出されるべき領域を示すようにプロットされている。
【0094】
図8Bは、ピッチ推定fvの一例示的実施形態のピッチ推定結果、つまり、前述の図8Aの検出結果を得るために使用した雑音の混じった音声信号(SNR=0dB)の基準856(つまり、グランドトゥルース)に関する複雑性低減法のピッチ推定結果852およびベースライン法854のピッチ推定結果のプロット850を示す図である。
【0095】
図8Aに示すように、低複雑性特徴は、ACFベースのベースライン法と同様の音声を示す。図8Bに示すように、両アプローチはピッチ周波数を推定することができるが、低複雑性特徴の変化はより大きくなる。両アプローチ、また、基準においても、いくつかの低調波が見られる。複雑性低減法及びベースライン法の両方が、発声特徴pvの1に近い大きな値による有声音声を示している。一例示的実施形態によると、閾値を単純な検出器として適用してもよい。閾値を、従来のアプローチに対してはη=0.25に、複雑性低減アプローチに対してはη=0.5に設定し、発声特徴が閾値を超えた場合においてのみピッチを推定した。その結果得られた複雑性低減法のピッチ推定は、ピッチを追跡できることを示している。しかし、この結果は、ベースライン法の結果ほど正確ではない。
【0096】
より広範なデータベースに関して性能を評価するために、キールデータベースからの男女の話者が話した10の発話(期間337s)を自動車雑音と混成し、SNRを調整した。0~1の間の値で閾値ηを変更して、受信者動作特性(ROC)を各SNR値に対して判定した。特定の閾値に対する検出結果を有声音声の基準と比較することで、正確な検出の割合が発見された。一方、基準が音声のないことを示した間隔に対しては、誤警報の割合を計算した。ROC曲線下の面積(AUC)を計算することによって、性能曲線をスカラー量に圧縮した。1に近いAUC値は良好な検出性能を示すものであり、0.5に近い値はランダムな結果に対応している。
【0097】
図9は、一例示的実施形態とベースライン法のSNRに対する性能結果のプロット900を示す図である。プロット900は、低複雑性特徴942が、長い前後関係を有するベースライン法946aと同様の良好な検出性能を示していることを表している。このベースライン法946bをより短いウィンドウに適用する場合、低いピッチ周波数が分解されないため、高いSNRであっても性能は低くなる。ここに開示するように、ベースラインアプローチ946aは、長い時間的前後関係を取り込むため、良好な検出性能を示す。複雑性低減アプローチ942によってより少ない時間的前後関係を取り扱わなければならない場合であっても、同様の検出性能が得られる。ベースラインアプローチ946bをショートウィンドウに適用する場合には、高いSNRであっても、有声音声が完全に検出されるわけではない。低い性能を説明づける1つのショートウィンドウを使用して低いピッチ周波数を分解することはできない。
【0098】
第2の分析においては、複雑性低減法およびベースライン法に関するピッチ推定性能に着目する。これに関しては、基準とテスト中の方法の両方が有声音声の存在を示す時間インスタンスを考慮する。推定されたピッチ周波数と基準ピッチ周波数とのずれを評価する。0dBに対しては、両方の方法に対して良好な検出性能が見られる。そのため、この状況のピッチ推定性能を調査する。
【0099】
図10は、ピッチ周波数推定の誤差の分布を示すプロット1000を示す図である。図10には、基準周波数fに対するずれ
【数25】
のヒストグラムを示している。ピッチ周波数がほぼ正確に推定されることがわかる。しかし、両方の方法、つまり、複雑性低減法1042とベースライン法1046に対して、基準ピッチ周波数の±10%の間隔における小さなずれが見られる。-0.5のより小さいピークは、偶然選択されて、間違ってピッチと特定された低調波によって説明することができる。単純な最大値探索に代えて、より進化した後処理を適用することで、前述の式(16)に関する記載に開示したように、この種類の誤差を削減することができる。
【0100】
基準ピッチ周波数からのずれは、総ピッチ誤差(GPE)(W.Chu and A.Alwan,“Reducing fO frame error of fO tracking algorithms under noisy conditions with an unvoiced/voiced classification frontend,”in Proc.of ICASSP,Taipei,Taiwan,2009)を使用して評価することができる。これに関しては、基準ピッチ
【数26】
の20%よりも大きいずれの経験的確率を判定する。
【0101】
図11は、総ピッチ誤差(GPE)のプロット1100を示す図である。プロット1100は、基準ピッチ周波数の20%を超えるずれを伴うピッチ推定誤差の経験的確率を示している。ベースラインアプローチ1146は、複雑性低減法1142の一例示的実施形態よりも正確にピッチ周波数を推定する。図11では、適切な検出性能が得られたSNRに関して、GPEを示す。高いSNRでは、従来のベースラインアプローチに比べて、複雑性低減アプローチのずれが大きいことが観察されうる。このような誤差の多くは、ピッチ周波数として間違って特定された低調波で説明することができる。
【0102】
結論
【0103】
ICCシステムのような、低レイテンシが要求されるアプリケーションによる特別な制約に対応することができる有声音声の検出及びピッチ推定の複雑性低減法を開示する。従来のピッチ推定アプローチとは異なり、一例示的実施形態は、一つの励起インパルスだけしか取り込むことができない非常に短いフレームを使用する。ピッチ周期に対応する複数のインパルス間の距離は、低分解能スペクトル間の位相差を評価することによって決定される。ピッチを推定するためにIDFTは必要ないので、計算複雑性は、標準のピッチ推定技術(これはACFベースのものであってもよい)に比べて低くなる。
【0104】
図12は、オーディオ通信システムによって取り込まれる有声音声と雑音とを含むオーディオ信号1204の電子的表現1206を生成するオーディオインターフェース1208を備えるオーディオ通信システム(図示せず)における声質強化装置1202のブロック図1200を示す。雑音(図示せず)の少なくとも一部は、有声音声(図示せず)と関連付けられた周波数であってもよい。声質強化装置1202は、オーディオインターフェース1208に接続されたプロセッサ1218を備えていてもよい。プロセッサ1218は、音声検出器1220とオーディオエンハンサー1222を実現するように構成されていてもよい。音声検出器1220は、オーディオエンハンサー1222に接続され、オーディオ信号1204における有声音声の存在を監視するように構成されていてもよい。この監視動作は、現在のショートウィンドウ内のオーディオ信号1204の現在のオーディオサンプルおよび少なくとも1つ前のショートウィンドウ内のオーディオ信号1204の以前のオーディオサンプルのそれぞれの周波数領域表現間の位相差を計算することを含んでいてもよい。音声検出器1220は、それぞれの周波数領域表現間で計算された位相差が周波数に対して実質的に直線的であるか否かを判定するように構成されていてもよい。音声検出装置1220は、計算された位相差が周波数に対して実質的に直線的であると判定することによって、有声音声の存在を検出するように構成されていてもよい。音声検出器1220は、検出された有声音声の存在の表示1212をオーディオエンハンサー1222に通信するように構成されていてもよい。オーディオエンハンサー1222は、オーディオ信号1204に対して音声強化を行うことによってオーディオ通信システムを介して通信された有声音声の声質を強化し、強化されたオーディオ信号1210を生成するように構成してもよい。音声強化は、通信された表示1212に基づくものであってもよい。
【0105】
現在のショートウィンドウおよび少なくとも1つ前のショートウィンドウは、オーディオ信号内の有声音声の周期的な有声励起インパルス信号の全周期のオーディオサンプルを取り込むことができないほど短いウィンドウ長を有するものであってもよく、オーディオ通信システムは、車内通信(ICC)システムであってもよく、ウィンドウ長はICCシステムのオーディオ通信レイテンシを低減するように設定されていてもよい。
【0106】
音声検出装置1220は、さらに、周波数領域において直接に、検出された有声音声の存在と計算された位相差とに基づいて有声音声のピッチ周波数を推定するように構成されていてもよい。音声検出器1220は、有声音声の存在の表示1212およびその有声音声に関連するピッチ周波数1214のような音声検出結果をオーディオエンハンサー1222に報告するように構成されていてもよい。
【0107】
前述の計算動作は、それぞれの周波数領域表現の正規化されたクロススペクトルの隣り合う周波数間の位相関係の周波数に対する加重和を計算することと、計算された荷重和の平均値を計算することとを含んでいてもよい。前述の判定動作は、計算された平均値の大きさを直線性を示す閾値と比較して、計算された位相差が実質的に直線的であるか否かを判定することを含んでいてもよい。
【0108】
この平均値は複素数であってもよく、計算された位相差が実質的に直線的であると判定された場合、音声検出器1220は、周波数領域において直接に、複素数の角度に基づいて有声音声のピッチ周期を推定するようにさらに構成されていてもよい。
【0109】
音声検出器1220は、計算された平均値を、現在のショートウィンドウと別の以前のショートウィンドウとに基づいてそれぞれ計算された他の平均値と比較して、周波数領域において直接に、最大の平均値の角度に基づいて有声音声のピッチ周波数を推定するようにさらに構成されていてもよい。この最大の平均値は、比較動作に基づいて、計算された平均値および他の平均値から選択されたものである。
【0110】
荷重和を計算するには、音声検出器1220は、有声音声の周波数領域内の周波数で重み係数を使用して、少なくとも1つ前のフレームが複数のフレームを含む場合は、平滑化定数を適用するようにさらに構成されていてもよい。
【0111】
音声検出器1220は、周波数領域において直接に、検出された有声音声の存在に基づいて有声音声のピッチ周波数を推定するようにさらに構成されていてもよい。前述の計算動作は、それぞれの周波数領域表現の正規化されたクロススペクトルを計算することを含んでいてもよい。前述の推定動作は、計算された正規化されたクロススペクトルの傾きを計算し、計算された傾きをピッチ周期に変換することを含んでいてもよい。
【0112】
音声検出器1220は、さらに、周波数領域において直接に、検出された有声音声の存在と計算された位相差とに基づいて有声音声のピッチ周波数を推定し、推定されたピッチ周波数をオーディオエンハンサー1222に通信するように構成されていてもよい。オーディオエンハンサー1222は、さらに、有声音声の存在が検出されなかったことを示す通信された表示1212に基づいて、減衰率をオーディオ信号1204に適用するように構成されていてもよい。前記音声強化は、推定され通信されたピッチ周波数1214に基づいて有声音声を再構築すること、または、雑音追跡を無効にすること、または、適応利得をオーディオ信号に適用すること、または、それらの組み合わせを含んでいてもよい。
【0113】
前述のように、ここに開示する一例示的実施形態は、前述の図1AのICCシステムのようなオーディオ通信システムによって採用されてもよい。しかし、ここに開示する一例示的実施形態は、いかなる適切なオーディオ通信システム又はアプリケーションに採用されてもよいと理解すべきである。
【0114】
以下に開示する図13図16は、前述の例示的実施形態を適用可能なアプリケーションを示している。したがって、図13図16には、基準指標一式全てを示してはいない。
【0115】
図13は、雑音を抑制することによって音声強化を行うように構成されたICCシステム1302の一例示的実施形態のブロック図1300を示す。前述の図12の音声検出器1220の一例示的実施形態は、雑音を抑制するためにICCシステム1302によって採用されてもよい。ICCシステム1302において、背景雑音の特性を推定し、それを使用して雑音を抑制してもよい。音声検出器1220を使用して、音声がなく純粋な雑音が得られる場合に、雑音のみが推定されるようにICCシステム1302における雑音推定を制御してもよい。
【0116】
図14は、利得制御によって音声強化を行うように構成されたICCシステム1402の一例示的実施形態のブロック図1400を示す。前述の図12の音声検出器1220の一例示的実施形態は、利得制御用のICCシステム1402によって使用されてもよい。ICCシステム1402において、適応利得をオーディオ信号に適用することによって、音声レベルのばらつきを補償してもよい。音声レベルの推定は、前述の図12の音声検出器1220を使用することによって、音声が存在する間隔に着目して行われてもよい。
【0117】
図15は、損失制御を行うように構成されたICCシステム1502の一例示的実施形態のブロック図1500を示す。図15の損失制御アプリケーションにおいて、音声検出は、結果的に、反響を防ぐために一方向のみで活性化する。どの方向を活性化するか(非活性化するか)に関する決定は、音声検出結果を含む精巧なルールに依存するものであってもよい。このように、損失制御を使用して、音声強化の検出をどの方向で活性化するかを制御するようにしてもよい。前述の図12の音声検出器1220の一例示的実施形態は、損失制御用のICCシステム1502によって使用されてもよい。図15の例示的実施形態においては、一方向(前から後への方向又は後から前への方向)のみが活性化される。どの方向で活性化するかに関する決定は、どの話者、つまり、運転手か乗客のどちらが話しているかに基づいてされてもよく、前述の音声検出器1220によって検出された有声音声の存在に基づいてこのような決定がされてもよい。
【0118】
このように、図15の例示的実施形態において、音声が検出されない場合には、ある方向を非活性化するように、つまり、損失を与えるようにし、音声が検出されて存在する場合には、その方向を活性化するように、つまり、損失を与えないようにしてもよい。損失制御を使用して、双方向システムにおいて、話している話者のICC方向のみを活性化するようにしてもよい。例えば、運転手が後部座席の乗客に話していてもよい。この場合、運転手のマイクの音声信号のみを処理し、強化して、後部座席の拡声器を介して再生するようにしてもよい。後部座席の拡声器からのフィードバックが運転席の拡声器に戻らないようにするために、損失制御を使用して後部座席のマイク信号処理をブロックしてもよい。
【0119】
図16は、音声及びピッチ検出に基づく音声強化を行うように構成されたICCシステムの一例示的実施形態のブロック図1600を示す。
【0120】
図17は、本開示の様々な実施形態が実現されるコンピュータ1700の内部構造の一例のブロック図を示す。コンピュータ1700は、バスがコンピュータや処理システムの構成要素間でのデータ転送のために使用されるハードウエア回線一式であるシステムバス1702を備えている。システムバス1702は、本質的に、要素間で情報の伝達を可能にするコンピュータシステムの異なる要素(例えば、プロセッサ、ディスクストレージ、メモリ、入出力ポート、ネットワークポート等)を接続する共通のコンジットである。様々な出入力装置(例えば、キーボード、マウス、ディスプレイ、プリンタ、スピーカー等)をコンピュータ1700に接続する出入力インターフェース1704は、システムバス1702に接続されている。ネットワークインターフェース1706は、ネットワークに接続された他の様々な装置にコンピュータ1700が接続できるようにするものである。メモリ1708は、本開示の実施形態を実現するために使用するコンピュータソフトウエア命令1710やデータ1712のための揮発性ストレージを提供する。ディスクストレージ1714は、本開示の実施形態を実現するために使用するコンピュータソフトウエア命令1710やデータ1712のための不揮発性ストレージを提供する。中央演算処理装置1718もまたシステムバス1702に接続されて、コンピュータ命令を実行する。
【0121】
ここに開示するさらなる例示的実施形態は、コンピュータプログラム製品を使用して構成されるものであってもよく、例えば、制御は、例示的実施形態を実現するためのソフトウエアにプログラムされたものであってもよい。さらなる例示的実施形態には、プロセッサによって実行される命令であって、ロードして実行されるとプロセッサにここに記載した方法を行わせる命令を含む非一時的なコンピュータ可読媒体が含まれていてもよい。ブロック図及びフロー図に示す要素は、前述の図12の電気回路構成の1以上の配列等、それと同等のもの、ファームウエア、それらを組み合わせたもの、または将来の実現が想定されるその他同様のもの等のソフトウエア又はハードウエアにおいて実現されるものであると理解されるべきである。例えば、前述の図12の音声検出器1220およびオーディオエンハンサー1222は、前述の図17の電気回路構成の1以上の配列や、それと同等のもの、ファームウエア、それらを組み合わせたもの、または将来の実現が想定されるその他同様のもの等を介して、ソフトウエア又はハードウエアにおいて実現されるものであってもよい。さらに、ここに記載しているブロック図及びフロー図の要素は、ソフトウエア、ハードウエア、又は、ファームウエア内であらゆる方法によって組み合わせられてもよいし、又は、分割されてもよい。ソフトウエア内で実現される場合は、ソフトウエアは、ここに開示する例示的実施形態をサポートすることができる言語であればどのような言語で作成されていてもよい。ソフトウエアは、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、CD-ROM等のコンピュータ可読媒体のどんな形態で保存されてもよい。動作中においては、汎用のプロセッサ、もしくは、用途特定のプロセッサ、又は、処理コアは、当該技術で公知の方法でソフトウエアをロードし実行する。さらに、ブロック図及びフロー図は、より多く、もしくは、より少ない数の要素を含むものであってもよく、異なる配置や向きで構成されてもよく、又は、異なる方法で示してもよいと理解するべきである。実現は、ブロック図、フロー図、及び/又は、ネットワーク図、ここに開示する実施形態の実行を示すブロック図及びフロー図の数に従うものであると理解されるべきである。
【0122】
ここに引用する全ての特許、公開された出願、参考文献の内容は、それらの全体の参照により援用される。
【0123】
例示的実施形態を、特に示し説明してきたが、添付された請求項に含まれる実施形態の範囲から逸脱することなく、形態や詳細における様々な変更を行うことができることは当業者によって理解されるべきである。
図1A
図1B
図2
図3
図4
図5
図6
図7A
図7B
図7C
図7D
図7E
図7F
図8A
図8B
図9
図10
図11
図12
図13
図14
図15
図16
図17