(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0018】
本出願は、添付の図面を参照することでより理解されるだろう。
【0019】
文脈から明確に限定されない限り、「信号」という用語は、本明細書では、ワイヤ、バス、または他の伝送媒体上で表されるようなメモリの位置(またはメモリの位置のセット)の状態を含む、その通常の意味のいずれをも示すために使用される。文脈から明確に限定されない限り、「発生(generating)」という用語は、本明細書では、計算(computing)または別様の生成(producing)など、その通常の意味のいずれをも示すために使用される。文脈から明確に限定されない限り、「計算」という用語は、本明細書では、値のセットから計算すること、評価すること、および/または選択することなど、その通常の意味のいずれをも示すために使用される。文脈にから明確に限定されない限り、「得る(obtaining)」という用語は、計算、導出、(たとえば、外部デバイスからの)受信、および/または(たとえば、記憶要素のアレイからの)取り出しなど、その通常の意味のいずれをも示すために使用される。「備える(comprising)」という用語は、本明細書および特許請求の範囲において使用される場合、他の要素または動作を除外するものではない。「に基づく」(「AはBに基づく」など)という用語は、(i)「少なくとも〜に基づく」(たとえば、「Aは少なくともBに基づく」)という場合、および、適切であれば特定の文脈においては、(ii)「と等しい」(たとえば、「AはBと等しい」)という場合を含む、その通常の意味のいずれをも示すために使用される。
【0020】
別段示されない限り、特定の特徴を有する装置の動作の任意の開示は、類似の特徴を有する方法を開示する(その逆も同様)ことをも明確に意図し、特定の構成による装置の動作の任意の開示は、類似の構成による方法を開示する(その逆も同様)ことをも明確に意図する。別段示されない限り、「コンテキスト(context)」(または「オーディオコンテキスト」)という用語は、オーディオまたは発話の構成要素を示すために使用され、話者の周囲の環境からの情報を伝え、「ノイズ」という用語は、オーディオ信号または発話信号の中の、任意の他のアーチファクト(artifact)を示すために使用される。
【0021】
図1Aは、スマートオーディオロギングシステムの概念を示す図である。モバイルデバイスの1つまたは複数のマイクロフォンは、モバイルデバイスがアイドルモードにあるときに、連続的または周期的に音響信号を受信するように構成され得る。受信された音響信号は、アナログデジタル(A/D)コンバータによって、デジタルオーディオ信号に変換され得る。この変換は、一般にはアナログ形式または連続的な形式で、受信された音響信号を電気信号に変換して、その電気信号をサンプリングまたは量子化して、デジタルオーディオ信号を生成することを含み得る。デジタルオーディオ信号の数およびサイズは、各デジタルオーディオサンプルのサンプリング周波数およびデータ幅に依存し得る。このデジタルオーディオ信号は、メモリまたはバッファに一時的に記憶されるように構成され得る。このデジタルオーディオ信号は、意味のある情報を抽出するように処理され得る。この情報は一般に、「コンテキスト情報S600」または互換的に「聴覚コンテキスト情報」と呼ばれる。コンテキスト情報は、モバイルデバイスが記録を行なっている環境についての情報と、少なくとも1つのマイクロフォンによって受信されるオーディオ入力信号の特性とを含み得る。コンテキスト情報S600の詳細な説明は、以下の開示で提示される。
【0022】
スマートオーディオロギングシステムは、オーディオロギングのスマートな開始115またはスマートな終了150を実行するように構成され得る。ユーザが手動でオーディオ信号の記録を開始または終了する、従来のオーディオロギングシステムと比較して、スマートオーディオロギングシステムは、イベント開始インジケータまたはイベント終了インジケータを自動的に検出することによって、オーディオロギングを開始または終了するように構成され得る。これらのインジケータは、オーディオ信号、モバイルデバイス内に位置する、もしくは、有線ネットワーク接続もしくはワイヤレスネットワーク接続を通じてモバイルデバイスに接続されているデータベース、非音響センサ、またはさらに、他のスマートオーディオロギングデバイスからのシグナリングから導出される、コンテキスト情報に基づき得る。あるいは、これらのインジケータは、ユーザの音声命令またはキー命令をも含むように構成され得る。一実施形態では、イベント終了インジケータは、予め定められた期間に、聴覚イベントが発生しないことに少なくとも一部基づくように構成され得る。イベント開始インジケータおよびイベント終了インジケータの検出は、少なくとも1つの聴覚コンテキスト情報の中から少なくとも1つの特定のコンテキスト情報を選択するステップと、選択されたコンテキスト情報を少なくとも1つの予め定められた閾値と比較するステップと、比較に基づいてイベント開始インジケータまたはイベント終了インジケータが検出されたかどうかを判定するステップとを含み得る。
【0023】
スマートオーディオロギングシステムは、いくつかのスマートサブブロックを、または互換的に、少なくとも1つの聴覚コンテキスト情報に少なくとも一部基づくスマート構成ブロックを含むように、構成され得る。スマート構成ブロックは、構成モードまたは動作モードが事前に決定され得る、または動作中に静的に決定され得る、従来のオーディオロギングとは対照的に、オーディオロギング処理の間に固有の動作モードまたは機能パラメータを動的に構成する能力によって、特徴付けられ得る。
【0024】
たとえば、スマートオーディオロギングの一実施形態では、
図1Aのスマートマイクロフォン制御ブロック120が、コンテキスト情報S600に基づいて、オーディオロギング処理の間に、アクティブなマイクロフォンの数または少なくとも1つのマイクロフォンのオン/オフタイミング制御を動的に調整するように構成され得る。別の実施形態では、
図1AのスマートA/Dコンバータブロック125は、コンテキスト情報S600に基づいて、固有の動作パラメータを動的に調整するように構成され得る。そのようなパラメータは、コンテキスト情報S600に基づく、少なくとも1つのマイクロフォンからキャプチャされたオーディオ信号のサンプリング周波数、またはキャプチャされたデジタルオーディオサンプルのデータ幅を含み得る。これらのパラメータの選択は、記録されるオーディオロギングの品質またはサイズに影響を与えるので、これらのパラメータは「記録パラメータ」と呼ばれ得る。これらのパラメータは、オーディオ入力信号の非アクティブな部分の間に、オーディオ品質に与える影響を最小化するように、再構成されまたは切り替えられるように構成され得る。オーディオ入力信号の非アクティブな部分は、何らかのレベルの最小のオーディオアクティビティを依然として含み得る。しかし一般には、「非アクティブな部分」は、オーディオ入力信号の非アクティブな部分とともに、比較的アクティブではない部分も意味する。
【0025】
別の実施形態では、
図1Aのスマートオーディオ増強ブロック130は、オーディオ信号の増強が必要かどうか、および必要な場合、どのようなタイプの信号増強が実行されるべきであるかを、コンテキスト情報S600に基づいて動的に選択するように構成され得る。スマートオーディオ増強ブロック130は、コンテキスト情報S600に基づいて、たとえば強力な増強または強力ではない増強のような、信号増強のレベルの度合いを選択するように構成され得る。信号増強は、単一のマイクロフォンまたは複数のマイクロフォンに基づくように構成され得る。
図1Aのスマートオーディオ圧縮ブロック135は、コンテキスト情報S600に基づいて、圧縮モード、ビットレート、またはオーディオ/発話チャネルの数のような、用いられるべき符号化フォーマットのタイプまたはその符号化パラメータを動的に選択するように構成され得る。スマートサブブロックの動的な構成の機構のより詳細な説明および例が、後で提示される。
図1Aの記憶ブロック145へのスマートなオーディオの保存は、キャプチャされたオーディオロギングがコンテキスト情報S600に基づいて記憶される位置を選択するように、構成され得る。この選択は、モバイルデバイスのローカルメモリと、有線チャネルまたはワイヤレスチャネルを通じてモバイルデバイスに接続されるリモートメモリとの間で行なわれ得る。記憶ブロック145へのスマートなオーディオの保存は、オーディオロギングの処理の間に、デフォルトでローカルメモリにデジタルオーディオ信号を保存し、次いで、ローカルの記憶装置とネットワーク記憶装置から、長期記憶装置の位置を決定するように構成され得る。
【0026】
図1Aで開示される、スマート構成ブロック120、125、130、135、145およびその順序は、単に例示を目的としたものであることに留意すべきであり、したがって、本出願の範囲内で、構成ブロックの一部は順序を変えられ、組み合わされ、またはさらには全体もしくは一部が省略されてもよいことが、当業者には明白であろう。たとえば、本出願による一実施形態では、スマートオーディオ増強ブロック130は、省略されてもよく、または、コンテキスト情報S600に従って固有の動作モードを動的に再構成することができない、従来のオーディオ増強ブロックによって置き換えられてもよい。同様に、スマートオーディオ圧縮ブロック135は、省略されてもよく、または従来のオーディオ圧縮によって置き換えられてもよい。
【0027】
スマートオーディオロギングシステムはまた、
図1Bで提示されたような、既存の従来のオーディオロギングシステムのいくつかと、スマート構成ブロックとロギングのスマートな開始/終了の機構のいずれかのいくつかとの組合せを用いるように構成され得る、システムも指し得る。対照的に、
図1Cは、オーディオロギングのスマートな開始/終了の機構も、スマート構成ブロックも全く含まれない、従来のオーディオロギングシステムの概念を示す図である。
【0028】
図1Bは、スマートオーディオロギングシステムの、3つの異なる例示的かつ概念的な構成を示す。構成1は、オーディオロギングのスマートな開始/終了の機構165とスマート構成ブロック175の両方が実装される、システムを提示する。したがって、構成1のシステムは、最も進んだスマートオーディオロギングシステムと見なされる。構成2は、構成1のオーディオロギングのスマートな開始/終了の機構165を、オーディオロギングの従来の開始/終了の機構160と置き換えるように構成され得るシステムを示す。ある代替的な構成では、構成3は、構成1のスマート構成ブロック175を、従来の構成ブロック170と置き換えるように構成され得るシステムを示す。
【0029】
図2は、スマートオーディオロギングシステムの例示的な実施形態である。マイクロフォンユニット200とA/Dコンバータ210とを備えるオーディオキャプチャユニット215は、スマートオーディオロギングシステムのフロントエンドである。マイクロフォンユニット200は、音響オーディオ信号を捉えまたは受信し、その信号を電気信号に変換するように構成され得る、少なくとも1つのマイクロフォンを備える。A/Dコンバータ210は、オーディオ信号を離散的なデジタル信号に変換する。別の実施形態では、マイクロフォンユニット200の中の少なくとも1つのマイクロフォンは、デジタルマイクロフォンであってよい。そのような場合、A/D変換のステップは、省略されるように構成され得る。
【0030】
聴覚イベントS210は、オーディオ信号を全般に、または、ユーザが関心のあるオーディオ信号を特に指す。たとえば、聴覚イベントS210は、限定はされないが、発話信号、音楽、特定のバックグラウンドノイズ特性、または特定のキーワードの存在を含み得る。聴覚イベントS210は、当技術分野では「聴覚シーンauditory scene」と呼ばれることがある。
【0031】
オーディオキャプチャユニット215は、少なくとも1つのマイクロフォンまたは少なくとも1つのA/Dコンバータを含み得る。少なくとも1つのマクロフォンまたは少なくとも1つのA/Dコンバータは、従来のオーディオロギングシステムの一部であった可能性があるが、モバイルデバイスをアクティブに使用する間だけ起動することができる。たとえば、従来のシステムの従来のオーディオキャプチャユニットは、電話をかけるまたは受けるというユーザの選択に応答して、または、映像記録開始ボタンを押したことに応答して、音声通話全体または映像記録全体の間だけ起動するように構成され得る。
【0032】
しかし、本出願では、オーディオキャプチャユニット215は、音声通話の間、または少なくとも1つのマイクロフォンのアクティブな使用を必要とし得る任意の他のアプリケーションを実行する間に加えて、モバイルデバイスのアイドルモードの間でも、断続的に始動または起動するように構成され得る。オーディオキャプチャユニット215は、起動した状態を保ち、連続的にオーディオ信号を捉えるようにも構成され得る。この手法は、「常時オン」と呼ばれ得る。捉えられたオーディオ信号S260は、離散形式でバッファ220に記憶されるように構成され得る。
【0033】
別段規定されない限り、本明細書で説明されるモバイルデバイスの「アイドルモード」は一般に、モバイルデバイスがユーザの手動入力に応答してアプリケーションを何らアクティブに動作させていない状態を指す。たとえば、通常のモバイルデバイスは、ユーザの選択なしでも、1つまたは複数の基地局へ、かつそこから、周期的に信号を送信または受信する。このタイプの動作を実行しているモバイルデバイスの状態は、本出願の範囲内ではアイドルモードであると見なされる。ユーザが、自身のモバイルデバイスを用いてアクティブに音声通信または映像記録に関わっている場合、それはアイドルモードとは見なされない。
【0034】
バッファ220は、デジタルオーディオデータがオーディオロギングプロセッサ230によって処理される前に、デジタルオーディオデータを一時的に記憶する。バッファ220は、任意の物理的なメモリであってよく、より高速なアクセスという利点と、オーディオキャプチャユニット215から要求されるメモリフットプリントが比較的小さいこととによって、モバイルデバイス内に位置することが好ましいが、バッファ220は、ワイヤレスネットワーク接続または有線ネットワーク接続を介して、モバイルデバイスの外側に位置してもよい。別の実施形態では、捉えられたオーディオ信号S260は、バッファ220に一時的に記憶されることなく、オーディオロギングプロセッサ230に直接接続されるように構成され得る。そのような場合、捉えられたオーディオ信号S260は、オーディオ入力S270と同一であり得る。
【0035】
オーディオロギングプロセッサ230は、スマートオーディオロギングシステムのためのメイン処理ユニットである。オーディオロギングプロセッサ230は、いつロギングを開始もしくは終了すべきか、または、スマート構成ブロックをどのように構成すべきかに関する、様々な決定を行なうように構成され得る。オーディオロギングプロセッサ230はさらに、隣り合うブロックを制御し、入力処理ユニット250または出力処理ユニット240とのインターフェースをとり、スマートオーディオロギングシステムの内部状態を判定し、補助データユニット280またはデータベースへアクセスするように構成され得る。オーディオロギングプロセッサ230の実施形態の一例が、
図5に提示される。オーディオロギングプロセッサ230は、バッファに記憶される離散的なオーディオ入力データを読み取るように構成され得る。そして、オーディオ入力データは、コンテキスト情報S600の抽出のために処理されてよく、次いでコンテキスト情報S600は、オーディオロギングプロセッサ230の内部と外部のいずれかに位置するメモリに記憶され得る。コンテキスト情報S600のさらに詳細な説明は、
図6および
図7の説明とともに提示される。
【0036】
補助データユニット280は、様々なデータベースまたはアプリケーションプログラムを含んでもよく、オーディオロギングプロセッサ230によって一部または全体が使用され得る追加の情報を提供するように、構成され得る。一実施形態では、補助データユニット280は、スマートオーディオロギング機構を備えたモバイルデバイスの所有者のスケジューリング情報を含み得る。そのような場合、スケジューリング情報はたとえば、いくつか例を挙げると、「次の仕事のビジネス会議の日時および/または長さ」、「招待される参加者」、「会議場所の位置」、または「会議の議題」のような詳細情報を含む。一実施形態では、スケジューリング情報は、Microsoft Outlookまたは任意の他の購入可能なカレンダーアプリケーションのような、カレンダーアプリケーションから取得され得る。補助データユニット280からこれらのタイプの詳細情報を受信すると、または能動的に取り出すと、オーディオロギングプロセッサ230は、好ましくは、バッファ220に記憶される離散的なオーディオ入力データから抽出されたコンテキスト情報S600と組み合わせて、上記の詳細情報に従って、オーディオロギングをいつ開始または停止すべきかに関する決定を行なうように構成され得る。
【0037】
記憶装置は一般に、オーディオロギングプロセッサ230からの処理されたオーディオロギングを記憶するように設計された、システムの中の1つまたは複数のメモリの位置を指す。記憶装置は、モバイルデバイスの内部でローカルに利用可能なローカル記憶装置270、または、有線通信チャネルもしくはワイヤレス通信チャネルを介してモバイルデバイスにリモートで接続されるリモート記憶装置290を備えるように、構成され得る。オーディオロギングプロセッサ230は、ローカル記憶装置270とリモート記憶装置290のどちらに、処理されたオーディオロギングを記憶すべきかを選択するように構成され得る。記憶装置の選択は、限定はされないが、コンテキスト情報S600、オーディオロギングの推定サイズ、利用可能なメモリサイズ、ネットワーク速度、ネットワークの遅延、またはコンテキスト情報S600の優先度を含み得る、様々な要因に従って行なわれ得る。記憶装置の選択は、必要であれば、アクティブなオーディオロギング処理の間に、ローカル記憶装置270とリモート記憶装置290との間で動的に切り替えられるようにも構成されてよい。
【0038】
図3は、出力処理ユニット240の実施形態の例示的な図である。出力処理ユニット240は、スピーカ、ディスプレイ、触覚デバイス、または外部のスマートオーディオロギングデバイスのような、様々な周辺デバイスに、オーディオロギングプロセッサ230から生成された出力信号S230を送達するように、構成され得る。触覚デバイスは、触覚フィードバック機構に基づく改善されたユーザ体験を、システムが提供できるようにする。触覚デバイスは、力、振動、および/または動きをユーザに対して与えることによって、ユーザの触覚を利用することができる。スマートオーディオロギングシステムは、出力処理ユニット240を通じて、出力信号S230を、別の少なくとも1つのスマートオーディオロギングシステムに送信することができる。出力信号の送信は、ワイヤレスチャネルを通じたものであってよく、好ましくは、GSM、UMTS、HSPA+、CDMA、Wi−Fi、LTE、VOIP、またはWiMaxのような、様々なワイヤレス通信プロトコルが用いられ得る。出力処理ユニット240は、適切な周辺デバイスに選択的に出力信号S230を分配することができる、デマルチプレクサ(De−Mux)310を含むように構成され得る。オーディオ出力生成器315は、De−Mux310によって選択されると、出力信号S230に従って、スピーカまたはヘッドセットに対するオーディオ信号を生成する。ディスプレイ出力生成器320は、De−Mux310によって選択されると、出力信号S230に従って、ディスプレイデバイスに対するビデオ信号を生成する。触覚出力生成器330は、De−Mux310によって選択されると、触覚デバイスのための触覚信号を生成する。送信機は、De−Mux310によって選択されると、他のスマートオーディオロギングシステムを含む外部デバイスへの送信の準備ができている、処理された信号を生成する。
【0039】
図4は、入力処理ユニット250の実施形態の例示的な図である。この例では、入力処理ユニット250は、様々なタイプの入力を処理し、マルチプレクサ(Mux)410を通じてオーディオロギングプロセッサ230に選択的に移送され得る、入力信号S220を生成する。入力は、限定はされないが、ユーザの声またはキー命令、カメラ、タイマー、GPS、近接センサ、ジャイロ、周辺環境センサ、加速度計などのような非音響センサからの信号を含み得る。入力は、別の少なくとも1つのスマートオーディオロギングシステムに送信され得る。そして入力は、オーディオロギングプロセッサ230に送られる前に、音声命令プロセッサ420、キー命令プロセッサ430、タイマーインターフェース440、受信機450、またはセンサインターフェース460のような様々なモジュールによって、処理され得る。
【0040】
図5は、オーディオロギングプロセッサ230の実施形態の例示的な図である。オーディオロギングプロセッサ230は、スマートオーディオロギングシステムのメインコンピューティングエンジンであり、少なくとも1つのマイクロプロセッサ、または少なくとも1つのデジタルシグナルプロセッサ、またはこれらの任意の組合せによって、実際には実装され得る。あるいは、オーディオロギングプロセッサ230の一部またはすべてのモジュールは、ハードウェアで実装されてもよい。
図5に示されるように、オーディオロギングプロセッサ230は、「汎用オーディオ信号プロセッサ595」という名前のより汎用的なモジュールとともに、特定の動作に専用のいくつかのモジュールを備え得る。
【0041】
聴覚アクティビティ検出器モジュール510または「オーディオ検出器」は、オーディオ入力S270からのオーディオアクティビティのレベルを検出することができる。オーディオアクティビティは、アクティブと非アクティブのような二値の分類として定義されてもよく、または必要であれば、より多くのレベルの分類として定義されてもよい。オーディオ入力S270のオーディオレベルを求めるための、様々な方法が用いられ得る。たとえば、聴覚アクティビティ検出器510は、信号エネルギー、信号対雑音比(SNR)、周期性、スペクトル傾斜、および/またはゼロクロッシング・レートに基づき得る。しかし、計算の複雑度を可能な限り低く保つために、比較的簡単な方法を用いることが好ましく、このことは電池の寿命を伸ばすのに役立つ。オーディオ品質増強器モジュール520は、バックグラウンドノイズを能動的に(アクティブに)または受動的(パッシブに)に抑制することによって、音響エコーを除去することによって、入力利得を調整することによって、または、会話の発話信号についてオーディオ入力S270の明瞭さを向上させることによって、オーディオ入力S270の品質を向上させることができる。
【0042】
補助信号分析器モジュール530は、補助データユニット280からの補助信号を分析することができる。たとえば、補助信号は、カレンダープログラムまたは電子メールクライアントプログラムのような、スケジューリングプログラムを含み得る。補助信号はまた、辞書、従業員名簿、または、第三者のソースのデータまたは訓練データから取得される、様々なオーディオおよび発話パラメータのような、追加のデータベースを含み得る。入力信号ハンドラモジュール540は、入力処理ユニット250からの入力信号S220を検出し、処理し、または分析することができる。そして、出力信号ハンドラモジュール590は、出力処理ユニット240に対する出力信号S230を生成することができる。
【0043】
制御信号ハンドラ550は、スマートオーディオロギングシステムの周辺ユニットに与えられ得る様々な制御信号を扱う。A/Dコンバータ制御S215およびマイクロフォンユニット制御S205という、制御信号の2つの例が、例示を目的として
図5で開示される。イベント開始マネジャ570は、イベント開始インジケータを扱い、検出し、または生成するように構成され得る。イベント開始インジケータは、スマートオーディオロギングの開始の準備ができてい得ることを示す、フラグまたは信号である。オーディオロギングプロセッサ230は、その動作がステートマシンに基づいている場合、内部状態を切り替えるのにイベント開始インジケータを使用することが望ましい可能性がある。イベント開始インジケータは、オーディオロギングプロセッサ230の動作を理解するための、概念的なフラグまたは信号であることが、当業者には明白であろう。一実施形態では、イベント開始インジケータは、ソフトウェア実装では1つまたは複数の変数を用いて、または、ハードウェア設計では1つまたは複数の配線信号を用いて、実装され得る。イベント開始インジケータは、1つまたは複数の条件が満たされた場合にイベント開始インジケータS910がトリガされる、単一レベルであってもよく、または、2つ以上のレベルのイベント開始インジケータがすべてトリガされた場合に実際のスマートオーディオロギングが開始される、複数レベルであってもよい。
【0044】
汎用オーディオ信号プロセッサ595は、本出願では明示的に示されないが実装を成功させるためにはやはり必要である、すべての他の基本的なオーディオ信号および発話信号の処理方法を扱うための、複数目的のモジュールである。たとえば、これらの信号処理方法は、限定はされないが、時間から周波数もしくは周波数から時間への変換、雑多なもののフィルタリング、信号利得の調整、またはダイナミックレンジの制御を含み得る。
図5で別々に開示される各モジュールは、単に、オーディオロギングプロセッサ230の機能の説明の例示を目的として与えられることに、留意されたい。一実施形態では、一部のモジュールは、単一のモジュールまたはいくつかのモジュールに組み合わされてもよく、さらに、システムの実際の実装においては、より小さなモジュールに分割されてもよい。別の実施形態では、
図5に開示されるモジュールのすべてが、単一のモジュールに統合されてもよい。
【0045】
図6は、コンテキスト情報S600の例を示す図である。別段示されない限り、「コンテキスト」(または「コンテキスト情報S600」)という用語は、身元、感情、習慣、生体の状態、もしくは関与しているアクティビティのようなユーザの情報;絶対的な位置もしくは相対的な位置のような物理的な環境;キーワードもしくは分類の識別のようなコンテンツについての情報;または、社会的相互作用(social interaction)またはビジネスアクティビティ(business activity)のような社会的な環境を指す。
図7は、コンテキスト識別器560の実施形態の図である。コンテキスト識別器560は、オーディオロギングプロセッサ230の一部であり、オーディオ入力S270からコンテキスト情報S600を抽出する。一実施形態では、コンテキスト識別器560は、専用のハードウェアエンジンまたはデジタルシグナルプロセッサで実装されるように構成され得る。
【0046】
図8は、コンテキスト識別器560およびコンテキスト情報S600の例示的な実施形態の図である。キーワード識別器は、オーディオ入力S270を分析し、会話の発話内容から重要なキーワードを認識する。認識処理は、1つまたは複数の単語を記憶する辞書または参照テーブルのような、補助データベースに基づき得る。音楽/発話検出器は、オーディオ入力信号S270を、入力信号の特性に基づいて、2つ以上のカテゴリーとして分類するように構成され得る。この検出は、オーディオパラメータまたは発話パラメータの識別と、識別されたオーディオパラメータまたは発話パラメータの1つまたは複数の閾値との比較とに、基づき得る。本出願の範囲内の分類は、互換的に検出と見なされ得る。
【0047】
音楽/発話検出器820はまた、入力信号を複数レベルの分類に分類するように構成され得る。たとえば、音楽/発話検出器820の一実施形態では、音楽/発話検出器820は、「音楽」、または「発話」、または「音楽+発話」のような、第1のレベルの分類に入力信号を分類することができる。次に、音楽/発話検出器820はさらに、第1のレベルの分類の段階で「音楽」として分類された信号について、「ロック」、「ポップ」または「クラシック」のような第2のレベルの分類を決定することができる。同じように、音楽/発話検出器820はまた、第1のレベルの分類の段階で「発話」として分類された信号について、「商談」、「個人的な会話」または「講義」のような第2のレベルの分類を決定することができる。
【0048】
話者識別器830は、発話信号入力の話者の身元を検出するように構成され得る。話者識別処理は、信号エネルギーもしくはフレームエネルギー、信号対雑音比(SNR)、周期性、スペクトル傾斜、および/またはゼロクロッシング・レートのような、入力発話信号の特性に基づき得る。話者識別器830は、「男性の話者」または「女性の話者」のような単純な分類を識別するように構成されてもよく、または、話者の名前もしくは表題のようなより高度な情報を識別するように構成されてもよい。話者の名前または表題の識別には、非常に複雑な計算が必要になり得る。話者識別器830が、様々な理由によって、大量の発話サンプルを検索しなければならない場合には、さらにより困難になる。
【0049】
たとえば、以下のような仮の状況を想定する。会社Xには全体で15000人の従業員がおり、ユーザYは、スマートオーディオロギング機構を備えた自身のモバイルデバイスを用いて、毎日仕事に関係する一連の音声会議に出席しなければならない。ユーザYは、会社Xの従業員である多数の話者が会話に関わっているときに、リアルタイムで話者を識別することを望んでいる。第1に、発話サンプルから抽出された発話サンプルまたは発話の特性は、そもそもすべての従業員については利用可能ではないことがある。第2に、発話サンプルが、ローカルメモリにおいて、またはワイヤレスチャネルを介して接続されたリモートサーバ側ですでに利用可能であったとしても、大量の発話サンプルをモバイルデバイスにおいてリアルタイムで検索することは、非常に困難であり得る。第3に、検索をリモートサーバ側で行なうことができ、サーバの計算能力をモバイルデバイスの計算能力よりもはるかに高くできるとしても、リアルタイムの処理は、受信/送信の遅延を考慮するとやはり困難であり得る。これらの問題は、追加の情報が補助データベースから利用可能であれば、扱いやすくなり得る。たとえば、会議の参加者のリストがカレンダープログラムから利用可能であれば、話者識別器は、検索空間を狭めることによって、検索される人の数を効果的に大きく減らすことができる。
【0050】
環境検出器850は、フレームエネルギー、信号対雑音比(SNR)、周期性、スペクトル傾斜、および/またはゼロクロッシング・レートのような、入力発話信号の1つまたは複数の特性に基づいて、聴覚シーンを識別するように構成され得る。たとえば、環境検出器850は、現在の入力信号の環境を、「事務所」、「自動車」、「レストラン」、「地下鉄」、「野球場」などとして識別することができる。
【0051】
ノイズ分類器840は、オーディオ入力S270のバックグラウンドノイズの特性を分類するように構成され得る。たとえば、ノイズ分類器840は、「安定vs不安定」、「道路のノイズ」、「飛行機のノイズ」、またはこれらの組合せとして、バックグラウンドノイズを識別することができる。ノイズ分類器840は、バックグラウンドノイズの重大さのレベルに基づいて、「重大」または「普通」のようにバックグラウンドノイズを分類することができる。ノイズ分類器840は、単一段階の処理または複数段階の処理で、入力を分類するように構成され得る。
【0052】
感情検出器850は、会話の発話についての話者の感情、または音楽の内容の感情的な側面を検出するように構成され得る。音楽は、多くの興味深い音響パラメータから構成される。たとえば、音楽は、リズム、楽器、音程、歌、音色、調子、および歌詞を含み得る。これらのパラメータは、幸福、怒り、恐怖、勝利、心配、または落ち込みのような、1つまたは複数の感情のカテゴリーについて、話者の感情を検出または推定するために用いられ得る。関与アクティビティ検出器870は、オーディオ入力S270の特性に基づいて、話者のアクティビティを検出するように構成され得る。たとえば、関与アクティビティ検出器870は、話者が、「話している」、「走っている」、「歩いている」、「スポーツを行なっている」、「授業中である」、または「買い物をしている」ことを検出することができる。この検出は、発話パラメータおよび/または音楽信号パラメータに基づき得る。この検出はまた、補助データユニット280または
図8の他のモジュールから、補足的な情報を得るように構成され得る。たとえば、感情検出器850は、環境検出器860、ノイズ分類器840、または
図8で開示されるモジュールの任意の他の組合せからの、情報を用いるように構成され得る。
【0053】
図9Aおよび
図9Bはそれぞれ、単一レベルおよび複数レベルのイベント開始インジケータの生成機構の、例示的な実施形態の図である。単一レベルのイベント開始インジケータは、比較的簡単な開始機構の実施形態に対して望ましく、一方複数レベルのイベント開始インジケータは、やや複雑な開始機構の実施形態に対して望ましく、その場合、より強力な段階的な始動方式が、効率的な電力消費のために望ましい。イベント開始マネジャ570は、聴覚アクティビティ検出器510、補助信号分析器530、または入力信号ハンドラ540からの、出力の任意の組合せまたは内部トリガ信号に従って、イベント開始インジケータS910を生成するように構成され得る。たとえば、聴覚アクティビティ検出器510は、1つまたは複数の関心のある聴覚イベントまたはアクティビティが検出されたとき、オーディオ入力S270のアクティビティに基づいて、内部トリガ信号を生成するように構成され得る。
【0054】
補助信号分析器530は、ユーザのカレンダープログラムのスケジュールに従って、内部トリガ信号を生成することもできる。ユーザが記録を望んでいた特定の会議は、ユーザからの手動の操作なしで、内部トリガ信号を自動的に生成することができる。あるいは、補助信号分析器530は、会議の明示的または暗黙的な優先度に基づいて、そのような決定を行なうように構成され得る。内部トリガ信号の生成は、オーディオ入力S270または補助信号の分析以外の入力から開始されてもよい。そのような入力は、ユーザの声もしくは手動のキー操作、タイマー、または、カメラ、タイマー、GPS、近接センサ、ジャイロ、周辺環境センサ、もしくは加速度計のような非音響センサからの信号、または、別の少なくとも1つのスマートオーディオロギングシステムから送信された信号を含み得る。組合せ論理回路900は、内部トリガ信号のある組合せ機構に基づいて、イベント開始インジケータS910を生成するように構成され得る。たとえば、組合せ論理回路は、聴覚アクティビティ検出器510、補助信号分析器530、または入力信号ハンドラ540からの、内部トリガ信号のOR操作またはAND操作に従って、イベント開始インジケータS910を生成するように構成され得る。別の実施形態では、組合せ論理回路は、1つまたは複数の内部トリガ信号が設定またはトリガされたときに、イベント開始インジケータS910を生成するように構成され得る。
【0055】
図9Bに戻って参照すると、イベント開始マネジャ570は、実際のロギングの開始の前に、第1のレベルのイベント開始インジケータS920を、次いで第2のレベルのイベント開始インジケータS930を生成するように構成され得る。本明細書で開示される複数レベルのイベント開始インジケータ機構は、インジケータの2つ以上のレベルを用いることによって、オーディオロギングのより正確な開始点を決定するのに、好ましいことがある。複数レベルのイベント開始インジケータの例示的な実装形態は、第1のレベルのイベント開始インジケータS920に対しては、比較的簡単で複雑度の低い決定機構を採用するように構成されてよく、第2のレベルのイベント開始インジケータS930に対しては、高度で複雑度の高い決定機構を採用するように構成されてよい。一実施形態では、第1のレベルのイベント開始インジケータS920の生成は、
図9Aのイベント開始インジケータS910の生成方法と実質的に同様の方法となるように、構成され得る。
図9Aとは対照的に、オーディオロギングプロセッサ230は、第1のレベルのイベント開始インジケータS920がトリガされても実際のロギングを開始せず、好ましくは代わりに、オーディオ入力S270のさらなる深い分析に基づいて第2のレベルのイベント開始インジケータ信号S930をトリガするのに必要な追加のモジュールを起動させ、または互換的には始動させてもよい。これらのモジュールは、コンテキスト識別器560およびコンテキスト評価論理回路950を含み得る。そしてコンテキスト識別器560は、
図8で開示される方法に従ってオーディオ入力S270を分析し、コンテキスト評価論理回路950によって評価され得る多数のコンテキスト情報S600を検出または識別することができる。コンテキスト評価論理回路950は、様々な内部決定方法に従って、第2のレベルのイベント開始インジケータS930をトリガするように構成され得る。そのような方法はたとえば、
図8で開示されるサブモジュールの一部またはすべての出力についての優先度の加重和の計算と、1つまたは複数の閾値に対するその加重和の比較とを含み得る。コンテキスト評価論理回路950は、ソフトウェアとハードウェアのいずれかで実装されてよく、または、
図8の汎用オーディオ信号プロセッサ595の一部として実装されてよいことに、留意されたい。
【0056】
図10は、イベント終了インジケータの生成機構の実施形態である。イベント終了インジケータS940は、聴覚アクティビティ検出器510、補助信号分析器530、または入力信号ハンドラ540からの出力、すなわち内部のトリガ信号の任意の組合せに従って、イベント終了マネジャ580によって生成され得る。
図10のモジュールの動作は、
図9Aと
図9Bのいずれかで説明された方法と実質的に同様であるが、各モジュールからの内部トリガ信号は通常、各モジュールが、実際のロギングを停止するという指示、または現在の動作モードから省電力モードに切り替えるという指示を検出したときに、トリガされる。たとえば、聴覚アクティビティ検出器510は、オーディオ入力S270のオーディオアクティビティが比較してかなり小さくなると、内部トリガ信号をトリガすることができ、または同様に、補助信号分析器530は、会議が終了予定時刻に達すると、内部トリガ信号をトリガすることができる。組合せ論理回路900は、内部トリガ信号のある組合せ機構に基づいて、イベント終了インジケータS940を生成するように構成され得る。たとえば、組合せ論理回路900は、聴覚アクティビティ検出器510、補助信号分析器530、または入力信号ハンドラ540からの、内部トリガ信号のたとえばOR操作またはAND操作に従って、イベント終了インジケータS940を生成するように構成され得る。別の実施形態では、組合せ論理回路900は、1つまたは複数の内部トリガ信号が設定またはトリガされたときに、イベント終了インジケータS940を生成するように構成され得る。
【0057】
図11は、複数レベルのイベント開始インジケータシステムの、オーディオロギングプロセッサ230の内部状態とその内部状態の遷移とを示す、第1の例示的な実施形態の図である。スマートオーディオロギングの始動時のデフォルト状態は、スマートオーディオロギング機構を含むモバイルデバイスが通常のアイドルモード状態と実質的に同じである、パッシブ(passive)オーディオ監視状態S1であってよい。パッシブオーディオ監視状態S1の間、消費電力を最小化することが重要である。なぜなら、統計的に、モバイルデバイスは、大半の時間この状態にあるからである。したがって、スマートオーディオロギングシステムのモジュールの大半は、オーディオ入力S270のアクティビティを検出するのに必要な少数のモジュールを除いて、スリープ状態にとどまるように、または任意の他の電力節減モードになるように構成され得る。たとえば、そのような少数の例外的なモジュールは、オーディオキャプチャユニット215、バッファ220、または聴覚アクティビティ検出器510を含み得る。一実施形態では、これらのモジュールは、常にオンになるように構成されてもよく、または、間欠的に起動するように構成されてもよい。
【0058】
第1のレベルのイベント開始インジケータS920のトリガによって、状態は、パッシブオーディオ監視状態S1からアクティブオーディオ監視状態S2に変更され得る。アクティブオーディオ監視状態S2の間、スマートオーディオロギングシステムは、たとえば、コンテキスト識別器560またはコンテキスト評価論理回路950のような、1つまたは複数のさらなるモジュールを起動するように構成され得る。これらのさらなるモジュールは、
図9Bで提示される説明に従って、第2のレベルのイベント開始インジケータS930がトリガされる必要があるかどうかを判定するための、オーディオ入力S270の深い監視および分析を実現するために、用いられ得る。第2のレベルのイベント開始インジケータS930が最終的にトリガされると、システムはアクティブオーディオロギング状態S3に遷移し、この状態の間、実際のオーディオロギングが続く。各状態における例示的な動作の詳細な説明が以下の段落で提示される。イベント終了インジケータS940が、アクティブオーディオ監視状態S2の間にトリガされると、システムは、その状態の間に始動されたさらなるモジュールをスリープモードに入れて、状態をパッシブオーディオ監視状態S1に戻すように切り替えるように構成され得る。同様の方式で、イベント終了インジケータS940が、アクティブオーディオロギング状態S3の間にトリガされると、システムは、オーディオロギングを停止し、状態をパッシブオーディオ監視状態S1に戻すように切り替えるように構成され得る。
【0059】
図12は、単一レベルのイベント開始インジケータシステムの、オーディオロギングプロセッサ230の内部状態とその内部状態の遷移とを示す、第2の例示的な実施形態の図である。この実施形態は、利用可能な動作状態が2つしかないため、
図11で開示された実施形態よりも簡単である。スマートオーディオロギングの始動時のデフォルト状態は、スマートオーディオロギング機構を含むモバイルデバイスが通常のアイドルモード状態と実質的に同じである、オーディオ監視状態S1であってよい。オーディオ監視状態S4の間、消費電力を最小化することが好ましい。なぜなら、統計的に、モバイルデバイスは、大半の時間この状態にあるからである。したがって、スマートオーディオロギングシステムのモジュールの大半は、オーディオ入力S270のアクティビティを検出するのに最低限必要な少数のモジュールを除いて、スリープ状態にとどまるように、または任意の他の電力節減モードになるように構成され得る。たとえば、その少数の例外的なモジュールは、オーディオキャプチャユニット215、バッファ220、または聴覚アクティビティ検出器510を含み得る。一実施形態では、これらのモジュールは、常にオンになるように構成されてもよく、または、間欠的に起動するように構成されてもよい。
【0060】
イベント開始インジケータS910のトリガによって、状態は、オーディオ監視状態S4からアクティブオーディオロギング状態S5に変更され得る。アクティブオーディオロギング状態S5の間、実際のオーディオロギングが続く。各状態における典型的な動作の詳細な説明が、以下の段落で提示される。イベント終了インジケータS940が、アクティブオーディオロギング状態S5の間にトリガされると、システムは、オーディオロギングを停止し、状態をオーディオ監視状態S4に戻すように切り替えるように構成され得る。
【0061】
図13は、
図11のパッシブオーディオ監視状態S1または
図12のオーディオ監視状態S4の間の、オーディオキャプチャユニット215の実施形態の流れ図である。スマートオーディオロギング機構を備えるモバイルデバイスは、最初はアイドルモードであると仮定される。2つの間隔(interval)が
図13に提示される。T
1は、マイクロフォンの起動間隔を表し、T
2は、マイクロフォンがオンにとどまる期間を表す。本明細書で提示される流れ図は、単に例示が目的であり、流れ図の中のブロックの一部は本出願の範囲内で、交換可能に並べ替えられてもよいことが、当業者には明白であろう。たとえば、一実施形態では、
図13のA/Dコンバータ1315、1320の設定に専用のブロックは、マイクロフォンおよび/またはA/Dコンバータ1330をオンにするブロックの後で、処理されるように構成され得る。そのような場合、ブロック1315、1320は、動作の開始時の1度だけではなく、間隔T
1毎に実行するように構成され得る。
【0062】
加えて、
図13は、スマートオーディオロギングの実施に対して基本的な、いくつかの重要な概念を開示する。A/Dコンバータは、サンプリング周波数および/またはデータ幅に関して低い分解能(resolution)を保つように、プログラムされ得る。低い分解能の設定は、処理されるデータおよび/またはバッファ220に保存されるデータのサイズを最小化するのに役立つ。高い分解能は、デジタル化されるオーディオ入力の精度を向上させるために用いられ得る。しかし、例示的な実装形態では、分解能を高く設定するとバッファ使用量と消費電力とが増大するため、低い分解能の設定を用いることが好ましい可能性がある。オーディオ監視状態S1、S2、S4の目的が主に、アクティブなオーディオロギングを開始する正しいタイミングを待機する環境を感知して監視することであることを考慮すると、低い分解能の設定が望ましい可能性がある。
【0063】
マイクロフォンは、T
1間隔毎すなわちマイクロフォン起動間隔毎に起動し、T
2期間、すなわちマイクロフォンがオンの期間にオーディオ入力S270を収集するように構成され得る。T
1またはT
2の値は、固定された間隔として事前に決定されていてもよく、またはランタイム中に動的に適応させられてもよい。システムのある例示的な実装形態では、T
1はT
2よりも長くてよく、T
2はT
1より短いがT
1に比例するように決定されてもよい。マイクロフォンユニット200の中に2つ以上のマイクロフォンがある場合、各マイクロフォンは、同じ間隔を有するように構成されてもよく、一部のマイクロフォンが、他とは異なる間隔を有するように構成されてもよい。一実施形態では、マイクロフォンの一部は、
図11のパッシブオーディオ監視状態S1または
図12のオーディオ監視状態S4の間、全くオンにされなくてもよい。別の実施形態では、1つまたは複数のマイクロフォンは常にオンにされてもよく、これは単に、T
1がT
2と等しい特別な場合であり得る。
【0064】
T
2期間の間のデジタル化されたオーディオ入力は、T
1間隔毎にバッファ220に記憶されてよく、記憶されたデジタルオーディオ入力は、T
3間隔毎に、オーディオロギングプロセッサ230によってアクセスされ処理され得る。これは、
図14によってさらに理解することができ、
図14は、パッシブオーディオ監視状態S1またはオーディオ監視状態S4の間に、オーディオキャプチャユニット215においてデジタルオーディオ入力をバッファ220に記憶するための例示的な図を示す。バッファ220に記憶されるデジタルオーディオ入力1415、1425、1435、1445は、オーディオロギングプロセッサ230内の聴覚アクティビティ検出器510によって分析され得る。ある例示的な実装形態では、T
3間隔はT
2期間と同一であってよく、または、T
2期間とは無関係に決定されてもよい。T
3間隔がT
2期間よりも長い場合、聴覚アクティビティ検出器510は、T
1間隔の一サイクルの間にバッファ220に記憶されるデータのサイズよりも大きなサイズのデータにアクセスしてそのデータを処理するように構成され得る。
【0065】
図15は、パッシブオーディオ監視状態S1の間の、オーディオロギングプロセッサ230の実施形態の流れ図である。この状態において、
図15の動作に必要な最小の数のモジュールを除いて、オーディオロギングプロセッサ230内のモジュールの大半を、省電力モードにできることが望ましい可能性がある。これらの必要なモジュールは、
図9Bに示されるモジュールであってよい。したがって、
図15の流れ図は、
図9Bによってさらに理解され得る。モバイルデバイスがアイドルモードにあるときに、入力信号S220から発信されたイベント開始要求が、入力信号ハンドラ540によって検出されると(1515)、イベント開始要求は、第1のレベルのイベント開始インジケータトリガすることができる(1540)。補助信号S240から発信されたイベント開始要求が、補助信号分析器530によって検出されると(1520)、イベント開始要求は、第1のレベルのイベント開始インジケータをトリガすることができる(1540)。
図15はまた、聴覚アクティビティ検出器510が、T
3間隔毎に、バッファ220の中のデータを分析する(1530)ことを示し、さらに深い分析が必要であり得ることを示す任意の聴覚アクティビティが検出されたか否かを決定することができる。この検査の例示的な実施形態の詳細な説明は、
図5とともに、本出願において前に開示されている。関心のある聴覚アクティビティが検出されると、その聴覚アクティビティは、第1のレベルのイベント開始インジケータをトリガすることができる(1540)。
【0066】
図15のブロックの順序は、オーディオロギングプロセッサ230の動作を説明する際の例示のみを目的とするものであるので、
図15と機能的に等価であり得る、または実質的に等価であり得る多くの変形形態が存在し得ることを、当業者は認識するだろう。たとえば、1つのブロック1515と他のブロック1520は、1520が最初に実行され得るように並べ替えられてもよく、または、これらのブロックが続いて実行され得ないように並べ替えられてもよい。
【0067】
図16は、アクティブオーディオ監視状態S2の間の、オーディオキャプチャユニット215の実施形態の流れ図である。
図16のオーディオキャプチャユニット215の動作は、いくつかの違いを除いて、
図13に開示された動作と非常に類似しており、したがって、違う部分のみがここでは説明され得る。A/Dコンバータは、サンプリング周波数および/またはデータ幅に関して、
図13の「低」分解能よりも高い、
図16では「中」と呼ばれる分解能を保つように、プログラムされ得る。中程度の分解能の設定は、より高精度のデジタル化されたオーディオ入力データを得るのに役立つことができ、このことは、オーディオロギングプロセッサ230が、より信頼性のあるコンテキスト情報S600を抽出するのに有益であり得る。
【0068】
マイクロフォンは、T
4間隔毎すなわちマイクロフォン起動間隔毎に起動し、T
5期間、すなわちマイクロフォンがオンの期間にオーディオ入力S270を収集するように構成され得る。T
4またはT
5の値はそれぞれ、T
1またはT
2の値と同一または実質的に同様であってよい。しかし、T
4をT
1よりも短く設定するのが好ましいことがある。それは、オーディオロギングプロセッサ230が、より正確なコンテキスト情報S600を抽出するのに有益であり得るからである。別の実施形態では、T
4またはT
5の値は、固定された間隔として事前に決定されていてもよく、またはランタイム中に動的に適応させられてもよい。マイクロフォンユニット200に複数のマイクロフォンが存在する別の実施形態では、1つまたは複数のマイクロフォンは常にオンにされてもよく、これは単に、T
4がT
5と等しい特別な場合であり得る。
【0069】
図17は、アクティブオーディオ監視状態S2の間に、オーディオキャプチャユニット215においてデジタルオーディオ入力をバッファ220に記憶するための例示的な図である。バッファ220に記憶されるデジタルオーディオ入力1715、1725、1735、1745は、T
6間隔毎に、オーディオロギングプロセッサ230内のコンテキスト識別器560およびコンテキスト評価論理回路950によって、分析され得る。ある例示的な実装形態では、T
6間隔はT
5期間と同一であってよく、または代替的には、T
5期間とは無関係に決定されてもよい。T
6間隔がT
5期間よりも長い場合、聴覚アクティビティ検出器510は、T
4間隔の1つまたは複数サイクルの間にバッファ220に記憶されるデータにアクセスしてそのデータを処理するように構成され得る。
【0070】
図18は、アクティブオーディオ監視状態S2の間の、オーディオロギングプロセッサ230の実施形態の流れ図である。この状態において、オーディオロギングプロセッサ230内のコンテキスト識別器560は、バッファ220に記憶されたオーディオ入力S270を分析して、T
6間隔毎にコンテキスト情報S600を識別する(1815)。コンテキスト情報S600は、今後の参照のために、メモリの位置に記憶される(1820)ように構成され得る。コンテキスト評価論理回路950は、コンテキスト情報S600を評価することができ(1825)、様々な内部決定方法に従って、第2のレベルのイベント開始インジケータをトリガすることができる(1835)。そのような判定の方法はたとえば、
図8で開示されるサブモジュールの一部またはすべての出力についての優先度の加重和の計算と、1つまたは複数の閾値に対するその加重和の比較とを含み得る。
図18はまた、イベント終了インジケータS940をトリガする例示的な機構を示す。イベント終了インジケータS940は、コンテキスト評価論理回路950が最後のS期間の間第2のレベルのイベント開始インジケータS930をトリガしなかったときにトリガされてよく、S期間は、好ましくはT
6間隔よりもはるかに長くてよい。別の実施形態では、イベント終了インジケータS940は、イベント終了マネジャ580が、
図10に示されるような、補助信号分析器530または入力信号ハンドラ540からの信号S1052、S1053を検出すると、生成され得る。
【0071】
図19は、アクティブオーディオ監視状態S2の間の、オーディオロギングプロセッサ230におけるコンテキスト識別の実施形態の例示的な図である。この図は、T
6間隔毎にコンテキスト識別器560によって実行されるコンテキスト識別処理が、T
4期間とは同期せずに開始するように構成され得ることを示す。T
6間隔は、消費電力と判定の精度との間のトレードオフと、バッファ220のサイズとを考慮して、決定され得る。コンテキスト識別処理が頻繁にありすぎると、またはT
6間隔が短すぎると、消費電力が増大し得るが、コンテキスト識別処理が頻繁すぎると、またはT
6間隔が長すぎると、コンテキスト情報S600の精度が低下し得る。
【0072】
図20は、アクティブオーディオロギング状態S3、S5の間の、オーディオキャプチャユニット215の実施形態の流れ図である。A/Dコンバータは、サンプリング周波数および/またはデータ幅に関して、
図13の「低」分解能または
図16の「中」分解能よりも高い、ここでは「高」と呼ばれる分解能を保つように、プログラムされ得る。高い分解能の設定は、オーディオロギングデータのサイズを増大させ得るが、より品質の高いオーディオ入力データを取得することにも役立ち得る。A/Dコンバータの分解能の設定は、オーディオロギングプロセッサ230からの制御信号に従って、動的に調整されるように構成されてもよい。より詳細な説明が、本出願の後の部分で提示される。現在の状態において、オーディオロギングプロセッサ230は、所望の記憶装置の位置にオーディオデータをロギングする(記憶する)ことに関与していてもよい。所望の記憶装置は、ローカルのモバイルデバイスの中に、または、有線接続もしくはワイヤレス接続を通じたリモートサーバ側に存在し得る。オーディオロギングは、イベント終了インジケータS940が、
図10に示されるようなイベント終了マネジャ580によって検出されるまで、継続し得る。
【0073】
図21は、アクティブオーディオロギング状態S3の間の、オーディオロギングプロセッサ230の実施形態の流れ図である。入力信号S220から発信されたイベント終了要求が、入力信号ハンドラ540によって検出されると(2110)、イベント終了要求は、イベント終了インジケータをトリガすることができる(2130)。補助信号S240から発信されたイベント終了要求が、補助信号分析器530によって検出されると(2115)、イベント終了要求は、イベント終了インジケータをトリガすることができる(2130)。入力信号ハンドラ540と補助信号分析器530のいずれかから検出される終了イベントがない場合は、実際のオーディオロギングはコアオーディオロギングモジュール2120において実行される。オーディオロギングの間、コンテキスト識別器560は、コンテキスト情報S600を識別し続けるように構成されてよく、メモリの位置に記憶された古い識別されたコンテキスト情報S600は、新しい識別されたコンテキスト情報S600によって更新され得る。コアオーディオロギングモジュールの内部動作の詳細な説明は、
図24において提示される。実際のオーディオロギングが進行している間、コンテキスト評価論理回路950は、オーディオ入力S270を監視し分析し続けて、それによって、予め定められた期間に関心のあるコンテキスト情報S600が検出されなかった場合に、イベント終了インジケータS940をトリガするように構成され得る。予め定められた期間の例示的な実装形態は、最後のS秒のオーディオデータを用いることを含み得る。イベント終了インジケータS940を生成するこの方法は、「タイムアウト機構」と呼ばれ得る。そのような検査の方法はたとえば、
図8で開示されるサブモジュールの一部またはすべての出力についての優先度の加重和の計算と、1つまたは複数の閾値に対するその加重和の比較とを含み得る。
【0074】
図22は、オーディオ監視状態S4の間の、オーディオロギングプロセッサ230の実施形態の流れ図である。この流れ図は、最後のブロック2240が、第1のレベルのイベント開始インジケータ1540ではなくイベント開始インジケータをトリガし得るということを除いて、
図15の流れ図と実質的に同様になるように構成され得る。この類似は、
図11のパッシブオーディオ監視状態S1と、
図12のオーディオ監視状態S4の両方が、同一の目的、すなわち、省電力の方式で、環境の聴覚イベントを周期的に感知するという目的を有し得るという、事実によるものである。
【0075】
図23は、アクティブオーディオロギング状態S5の間の、オーディオロギングプロセッサ230の実施形態の流れ図である。S3とS5のいずれのアクティブロギングプロセッサも同様の動作を実行し得るので、この流れ図も、流れ図の最初の追加のブロック2300、2305を除いて、
図21の流れ図にかなり近く、またはそれと同一であってよい。
設計上の選好に応じて周期的にまたは連続的に、コンテキスト識別器560がコンテキスト情報S600を識別するように構成され得る、アクティブオーディオ監視状態S2が常に前の状態であったS3状態とは異なり、これらの追加のブロック2300、2305はここでは必要となり得る。それは、S5の前の状態はオーディオ監視状態S4であり、コンテキスト識別のステップはS4状態では実行され得ないからである。入力信号S220から発信されたイベント終了要求が、入力信号ハンドラ540によって検出されると(2310)、イベント終了要求は、イベント終了インジケータをトリガすることができる(2330)。補助信号S240から発信されたイベント終了要求が、補助信号分析器530によって検出されると(2315)、イベント終了要求は、イベント終了インジケータをトリガすることができる(2330)。入力信号ハンドラ540と補助信号分析器530のいずれかから検出される終了イベントがない場合は、実際のオーディオロギングはコアオーディオロギングモジュール2320において実行される。オーディオロギングの間、コンテキスト識別器560は、コンテキスト情報S600を識別し続けるように構成されてよく、メモリ位置に記憶された古い識別されたコンテキスト情報S600は、新しい識別されたコンテキスト情報S600によって更新され得る。コアオーディオロギングモジュールの内部動作の詳細な説明が、
図24において提示される。実際のオーディオロギングが進行している間、コンテキスト評価論理回路は、オーディオ入力S270を監視し分析し続けて、それによって、予め定められた期間に関心のあるコンテキスト情報S600が検出されなかった場合に、イベント終了インジケータS940をトリガするように構成され得る。予め定められた期間の例示的な実装形態は、最後のS期間のオーディオデータを用いることを含み得る。イベント終了インジケータS940を生成するこの方法は、「タイムアウト機構」と呼ばれ得る。そのような検査の方法はたとえば、
図8で開示されるサブモジュールの一部またはすべての出力についての優先度の加重和の計算と、1つまたは複数の閾値に対するその加重和の比較とを含み得る。
【0076】
図24は、アクティブオーディオロギング状態S3、S5の間の、コアオーディオロギングモジュールの実施形態の流れ図である。この例示的な実施形態では、流れ
図2410、2415、2420という上から最初の3つのブロックは、コンテキスト情報S600に従った、スマートオーディオロギングシステムの動的な構成の特性を示す。A/Dコンバータのサンプリング周波数2410および/またはデータ幅2415は、コンテキスト情報S600に基づいて、オーディオロギング処理の間に動的に再構成され得る。コンテキスト情報S600は通常、数分以上または数時間にもわたり得る、オーディオロギングの過程全体において、徐々に、またはさらには突然、変化する。たとえば、会話の発話の題材は、時間とともに変化し得る。たとえば、話者が道を歩いているとき、または公共交通機関を用いて移動しているときは、話者のバックグラウンドノイズまたは環境が変化し得る。また、たとえば、オーディオ入力S270の内容は、時間とともに、会話の発話から音楽に、または音楽と発話に変わることがあり、その逆もあり得る。音楽のコンテンツに対しては、高い分解能のサンプリング周波数またはデータ幅を用い、発話が主の信号に対しては、低い分解能のサンプリング周波数またはデータ幅を用いるのが望ましいことがある。別の実施形態では、分解能は、発話の内容の特性に従って異なるように構成され得る。たとえば、システムは、友人の間の個人的な会話と比較して、ビジネス上のコミュニケーションに対して異なる分解能を用いるように構成され得る。コンテキスト情報S600に従った、A/Dコンバータの構成の動的な設定と、メモリの位置の動的な選択とのための、ブロック2410、2415、2420は、本明細書で開示される一般的な原理の範囲内で、流れ図の中の他のブロックとは対照的に、それらのブロックの間で異なる順序で再配置されてよい。
【0077】
システムはまた、コンテキスト情報S600に基づいて、メモリの位置を動的に選択する(2420)ように構成され得る。たとえば、会話中の1人または複数の話者が、主要なビジネス上の顧客であることのようなある特徴を満たすと判明した場合、または、オーディオ入力S270が、発話信号よりも音楽信号をかなり含む場合、サーバ側に遠隔で接続される記憶装置に、オーディオロギングデータを記憶するように構成され得る。そのような場合、より高い分解能のA/Dコンバータを用いることが望ましい可能性があるので、より大きな記憶スペースが必要であり得る。
【0078】
そして、オーディオロギングプロセッサ230は、バッファ220からオーディオデータ2424を読み取るように構成され得る。新しいコンテキスト情報は、最新のオーディオデータから識別することができ(2430)、新しいコンテキスト情報は、メモリに記憶することができる(2435)。別の実施形態では、コンテキスト情報S600のコンテキスト識別処理2430または保存処理2434は、流れ図の中の他のブロックとは対照的に、本明細書で開示される一般的な原理の範囲内で、飛ばされてもよく、または異なる順序で再配置されてもよい。
【0079】
オーディオロギングプロセッサ230は、オーディオ入力信号S270の増強が望ましいかどうかを判定するか、または望ましい場合には、どのようなタイプの増強処理が望ましい可能性があるかを、処理された信号が選択されたメモリに記憶される前に判定する(2440)ように構成され得る。この判定は、コンテキスト情報S600に基づいてもよく、システムによって自動的に事前に構成されてもよく、またはユーザによって手動で事前に構成されてもよい。そのような増強処理は、音響エコー除去(AEC)、音声増強の受信(RVE)、アクティブノイズ除去(ANC)、ノイズ抑制(NS)、音響利得制御(AGC)、音量制御(AVC)、または音響ダイナミックレンジ制御(ADRC)を含み得る。一実施形態では、信号増強の強さは、オーディオ入力S270の内容またはコンテキスト情報S600に基づき得る。
【0080】
オーディオロギングプロセッサ230は、オーディオ入力信号S270の圧縮が望ましいかどうかを判定するか、または望ましい場合には、どのようなタイプの圧縮処理が望ましい可能性があるかを、処理された信号が選択されたメモリの位置に記憶される前に判定する(2445)ように構成され得る。この判定は、コンテキスト情報S600に基づいてもよく、システムによって自動的に事前に構成されてもよく、またはユーザによって手動で事前に構成されてもよい。たとえば、システムは、好ましくはカレンダー情報に基づくオーディオロギングの予想される長さに基づいて、オーディオロギングが開始する前に圧縮を用いることを選択することができる。発話の符号化またはオーディオの符号化のような圧縮方法の選択は、オーディオ入力S270の内容またはコンテキスト情報S600に基づいて、動的に構成され得る。別段規定されない限り、本出願の文脈内での圧縮とは、発話の符号化/復号およびオーディオの符号化/復号のような、情報源の符号化を意味し得る。したがって、圧縮を符号化と互換的に用いることができ、解凍を復号と互換的に用いることができることが、当業者には明白であろう。ビットレート、符号化モード、またはチャネルの数のような、符号化パラメータも、オーディオ入力S270の内容またはコンテキスト情報S600に基づいて、動的に構成され得る。
【0081】
図25は、従来のマイクロフォン制御による、単一のマイクロフォンのオンおよびオフの制御の実施形態の図である。モバイルデバイスがアイドルモードにある場合(2550)、マイクロフォンと、A/Dコンバータのようなマイクロフォンの動作に必要な関連するブロックとは、通常はオフにされている(2510)。マイクロフォンおよびその関連するブロックは、通常、音声通話または映像記録のようなマイクロフォンの使用を必要とする用途で、モバイルデバイスがアクティブに使用される間だけ、オンにされる(2520)。
【0082】
図26は、単一のマイクロフォンのオンおよびオフの制御の第1の実施形態の図である。
図25とは対照的に、マイクロフォンは、モバイルデバイスがアイドルモードである(2550)期間でも、選択的にオンになる(2520)ように構成され得る。マイクロフォンは、オーディオ入力S270のコンテキスト情報S600に従って、選択的にオンになるように構成され得る。一実施形態では、この機能は、パッシブオーディオ監視状態S1、アクティブオーディオ監視状態S2、またはオーディオ監視状態S4に対して望ましいことがある。
【0083】
図27は、単一のマイクロフォンのオンおよびオフの制御の第2の実施形態の図である。
図26とは対照的に、マイクロフォンは、モバイルデバイスがアイドルモードである(2550)期間でも、連続的にオンになる(2700)ように構成され得る。そのような場合、マイクロフォンがオンになっている間、システムの消費電力は増大し得る。一実施形態では、この機能は、パッシブオーディオ監視状態S1、アクティブオーディオ監視状態S2、オーディオ監視状態S4、またはアクティブオーディオロギング状態S3、S5に適用可能であり得る。
【0084】
図28は、複数のマイクロフォンのオンおよびオフの制御の第1の実施形態の図である。一実施形態では、1つまたは複数のマイクロフォンは、従来のシステムと同様の方法で動作するように構成され得る。言い換えると、1つまたは複数のマイクロフォンは、アクティブな音声通話の間、または、映像記録の間、または、ユーザの手動の選択に応答して1つもしくは複数のマイクロフォンのアクティブな使用を必要とする任意の他の用途の間だけ、オンにされ得る。しかし、他のマイクロフォンは、間欠的にオンにされるように構成され得る。2つのマイクロフォンのみが、例示を目的に図中で提示されるが、マイクロフォンの制御の同一の概念は、3つ以上のマイクロフォンにも適用され得る。
【0085】
図29は、複数のマイクロフォンのオンおよびオフの制御の第2の実施形態の図である。
図28とは対照的に、1つまたは複数のマイクロフォンは、アクティブな音声通信の間、または映像記録の間、または、ユーザの手動の選択に応答して1つもしくは複数のマイクロフォンのアクティブな使用を必要とする任意の他の用途の間だけ、オンにされ得るように、従来のシステムと同様の方法で動作するように構成され得る。しかし、他のマイクロフォンは、常にオンにされるように構成され得る。そのような場合、マイクロフォンがオンになっている間、システムの消費電力は増大し得る。2つのマイクロフォンのみが、例示を目的に図中で提示されるが、マイクロフォンの制御の同一の概念は、3つ以上のマイクロフォンにも適用され得る。
【0086】
図30は、アクティブなマイクロフォンの数がコンテキスト情報S600に従って動的に制御され得る、本出願によるアクティブなマイクロフォンの数の制御の実施形態の図である。例示を目的として、利用可能なマイクロフォンの最大の数は、3つであると仮定され、パッシブオーディオ監視状態S1、アクティブオーディオ監視状態S2、またはオーディオ監視状態S4の間にオンにされ得るマイクロフォンの最大の数でもある。しかし、異なる数のマイクロフォンの選択も、本開示の範囲内にあり得る。パッシブオーディオ監視状態S1またはオーディオ監視状態S4の状態の間、マイクロフォンは、環境の聴覚イベントを監視できるように、周期的にオンにされるように構成され得る。したがって、これらの状態の間、アクティブなマイクロフォンの数は、好ましくは0と1の間で変化し得る。アクティブオーディオ監視状態S2の状態の間、アクティブなマイクロフォンの数は、好ましくは0と1の間で変化し続け得るが、オン期間とオン期間との間の間隔T
4は、パッシブオーディオ監視状態S1またはオーディオ監視状態S4の状態の間の、オン期間とオン期間との間の間隔T
1よりも、長くなるように構成され得る。
【0087】
アクティブオーディオロギング状態S3、S5の間、アクティブなマイクロフォンの数は、コンテキスト情報S600に従って動的に変化するように構成され得る。たとえば、アクティブなマイクロフォンの数は、特定のコンテキスト情報S600または高優先度のコンテキスト情報S600を検出すると、1(3045)から2(3050)に増えるように構成され得る。別の例では、マイクロフォンの数は、バックグラウンドノイズの特性が、安定した状態から不安定な状態に変わると、または中程度のレベルから重大なレベルに変わると、増えるように構成され得る。そのような場合、複数のマイクロフォンに基づくノイズ抑制方法が、オーディオ入力S270の品質を向上させることができ得る。アクティブなマイクロフォンの数の増大または減少は、オーディオ入力S270の品質にも基づき得る。マイクロフォンの数は、オーディオ入力S270の品質、たとえば、オーディオ入力S270の信号対雑音比(SNR)がある閾値を下回ったことに従って、増えてもよい。
【0088】
オーディオロギングの記憶装置は、実際のオーディオロギング処理の間、またはオーディオロギングが完了した後、ローカル記憶装置とリモート記憶装置との間で動的に変更されるように構成され得る。たとえば、
図31は、事前に定められたコンテキスト情報S600の優先度に従って選択が制御され得る、記憶装置の位置の選択の実施形態を示す。この選択は、オーディオロギングの開始の前、またはオーディオロギングの完了の後に、実行され得る。たとえば、コンテキスト情報S600は、異なるレベルの優先度を有するように事前に構成され得る。そして、各オーディオロギングの開始の前に、記憶装置は、ある期間のウィンドウの間のコンテキスト情報S600の複数の特性と、1つまたは複数の事前に定義された閾値との比較に従って、選択され得る。別の実施形態では、長期記憶装置の選択は、各々のオーディオロギングの完了の後で決定され得る。最初のオーディオロギングは、たとえば、短期間の記憶の目的で、ローカル記憶装置内にデフォルトで記憶され得る。オーディオロギングが完了すると、オーディオロギングは、オーディオロギングのための長期記憶装置の位置を決定するために、オーディオロギングプロセッサ230によって分析され得る。各オーディオロギングは、オーディオロギングの完了の前または後に、優先度を割り当てられ得る。長期記憶装置の選択は、オーディオロギングの優先度に基づくように構成され得る。
図31は、低優先度のコンテキスト情報を有するオーディオロギングがローカル記憶装置に記憶され、一方で、高優先度のコンテキスト情報を有するオーディオロギングがネットワーク記憶装置に記憶される、例示的なシステムを示す。本開示の範囲内で、低優先度のコンテキスト情報を有するオーディオロギングが、ネットワーク記憶装置に記憶されてもよく、高優先度のコンテキスト情報を有するオーディオロギングが、ローカル記憶装置に記憶されてもよいことに、留意されたい。
【0089】
図32は、アクティブオーディオロギング状態S3、S5の間に、コンテキスト情報S600の優先度に従って選択が動的に制御され得る、記憶装置の位置の選択の実施形態を示す。
図31とは対照的に、記憶装置の選択は、コンテキスト情報S600、利用可能なメモリ空間、または、モバイルデバイスとリモートサーバとの間のチャネルの品質に従って、実際のオーディオロギング処理の間に動的に切り替えられ得る。
【0090】
図33は、事前に定められたコンテキスト情報S600の優先度に従って期限切れ時間が制御され得る、記憶装置の期限切れ時間の設定の実施形態の図である。記憶装置に記憶されるオーディオロギングは、ユーザの手動の選択によって削除されるように、または、事前に定められた期限切れ時間に基づき得る機構によって自動的に期限切れになるように構成され得る。オーディオロギングが期限切れになると、期限切れになったオーディオロギングは、削除されるか、または、「ゴミ箱」のような一時的な記憶場所に移されるように構成され得る。期限切れになったオーディオロギングは、記録時に圧縮されていなかった場合には、圧縮されるように構成され得る。期限切れになったオーディオロギングは、記録時にすでに符号化されていた場合には、さらなる圧縮を可能にし得る符号化フォーマットまたは符号化パラメータを用いてトランスコードされてもよく、オーディオロギングのサイズがさらに小さくなる。
【0091】
期限切れ時間の設定は、オーディオロギングの時点で、またはオーディオの完了の後で、決定され得る。一実施形態では、各々のオーディオロギングは、オーディオロギングのコンテキスト情報S600の特性または統計に従って、優先度の値を割り当てられ得る。たとえば、
図33のオーディオロギング#1 3340は、オーディオロギング#3 3320よりも低い優先度を有し得る。ある例示的な実装形態では、オーディオロギング#1の期限切れ時間ET
1を、オーディオロギング#3の期限切れ時間ET
3よりも短く設定するのが望ましいことがある。例として、ET
1は「1週間」と設定されてよく、ET
3は「2週間」と設定されてよい。オーディオロギングの期限切れ時間を、オーディオロギングの優先度に比例させることが一般に望ましい。しかし、異なる優先度を有するオーディオロギングは、必ずしも常に異なる期限切れ時間の設定を有さなくてもよいことに留意されたい。
【0092】
図34は、アクティブなブロックの数およびその全体の消費電力が各状態に従って動的に制御され得る、スマートオーディオロギングシステム内のブロックの段階的なパワーアップの実施形態の図である。パッシブオーディオ監視状態S1の間、1つまたは複数の数のマイクロフォンが、オーディオ入力S270を受信するために、一定期間毎に起動するように構成され得る。この受信動作を実行するために、システムは、システムの一部を起動するように構成され得るので、システムのアクティブなブロックの数、または互換的には起動ブロックの数が、
図34においてN1に増える。アクティブオーディオ監視状態S2の間、1つまたは複数の追加のブロックが、N1に加えて起動するように構成されてよく、これによって、1つまたは複数のマイクロフォンがアクティブである(3420)期間の、アクティブなブロックの全体の数がN2になる。たとえば、コンテキスト識別器560およびコンテキスト評価論理回路950が、
図9Bで例示されたように起動するように構成され得る。アクティブオーディオロギング状態S3の間、少なくともいくつかのさらなるブロックが、N2に加えて起動する必要があり得る可能性が高く、これによって、アクティブオーディオロギング状態S3の状態の間の、アクティブなブロックの全体の数はN3になる。アクティブオーディオ監視状態S2の状態の間の、アクティブなブロックの基本の数3425は、
図34ではN1に設定され、これは偶然、パッシブオーディオ監視状態S1の状態の間のアクティブなブロックの数と同じであるが、数3425は、本開示の範囲内の別の実施形態では、異なるように構成されてもよいことが、当業者には明白であろう。オーディオ監視状態S4またはアクティブオーディオロギング状態S5のアクティブなブロックの数は、それぞれ、パッシブオーディオ監視状態S1またはアクティブオーディオロギング状態S3と同様に実装され得る。
【0093】
図35は、精度が、各々の事前に決定された状態に従って構成され得る、または、コンテキスト情報S600にふさわしいように動的に制御され得る、A/Dコンバータの精度制御の実施形態の図である。パッシブオーディオ監視状態S1の状態の間のA/Dコンバータユニットは、
図35では「低」と呼ばれる、低分解能の設定を有するように構成され得るが、アクティブオーディオ監視状態S2またはアクティブオーディオロギング状態S3の状態では、それぞれ、中程度の分解能の設定である「中」設定、または高い分解能の設定である「高」設定を有するように構成され得る。この機構は、各状態に対する最適な設定を可能にすることによって、消費電力またはメモリ使用量を節減するのに、役立ち得る。別の実施形態では、パッシブオーディオ監視状態S1およびアクティブオーディオ監視状態S2の段階の間のA/Dコンバータ設定が、同一の分解能を有するように構成され得る。あるいは、アクティブオーディオ監視状態S2およびアクティブオーディオロギング状態S3の段階の間のA/Dコンバータ設定が、同一の分解能を有するように構成され得る。
【0094】
A/Dコンバータユニットの精度設定は、コンテキスト情報S600に基づいて、アクティブオーディオロギング状態S3の間に動的に変更されるように構成され得る。
図35は、動的な変更が、アクティブオーディオロギング処理の間の、全体の期間と部分的な期間のいずれかで有効になる(3540)ように構成され得ることを示す。アクティブオーディオロギング状態S3のデフォルトの精度設定は、「高」であると仮定される(3520)。コンテキスト情報S600の優先度に関して大きな変化があった場合には、精度設定は「中」(3535)または「低」(3525)の設定に低くされ得る。たとえば、精度設定の変更は、コンテキスト情報S600のサブセットであるコンテンツの分類の、「音楽」から「発話」または「発話」から「音楽」への変更によって、開始されてよい。あるいは、精度設定の変更は、オーディオ入力S270のバックグラウンドノイズのレベルまたはノイズのタイプの変化によって、開始されてもよい。別の実施形態では、精度設定の変更は、ローカル記憶装置の利用可能なメモリのサイズ、または、モバイルデバイスとリモートサーバとの間のチャネルの品質によって、開始されてもよい。
【0095】
図36は、増強が、コンテキスト情報S600に従って動的に構成され得る、オーディオ入力信号の増強制御の実施形態の図である。例示を目的として、いくつかの信号増強レベル、すなわち、増強なし、低レベルの増強、中レベルの増強、高レベルの増強が存在すると、仮定された。アクティブオーディオロギング状態S3、S5の間、オーディオ信号の増強レベルは、コンテキスト情報S600に従って動的に調整されるように構成され得る。たとえば、バックグラウンドノイズの特性またはレベルを用いて、オーディオ信号の増強レベルの変更をトリガすることができる。バックグラウンドノイズのレベルが非常に高い場合、または、バックグラウンドノイズのレベルの特性が安定的なタイプのノイズから不安定なタイプのノイズに実質的に変化した場合、オーディオ信号の増強の設定は、低レベルの増強または増強なしから、中程度の増強、またはさらには高レベルの増強に変更されるように構成され得る。たとえば、スマートオーディオロギングシステムが、オーディオロギング状態S3、S5にあり、オーディオ入力S270をアクティブにロギングしている可能性があるときに、ユーザは、列車が到着するのを地下鉄の駅で待っていることがある。列車がプラットホームに到着するとき、または発車するときは、通常の会話の発話を理解するのが難しくなるある閾値を、ノイズレベルが超えることが多い。重大なバックグラウンドノイズのレベルもしくはバックグラウンドノイズのタイプの変化を検出すると、または、主要な聴覚シーンの変化を検出すると、スマートオーディオロギングシステムは、それに従ってオーディオ信号の増強の設定を再構成することができる。オーディオ信号の増強の設定の変更は、マイクロフォンのアクティブな数の前でも後でもよい。
【0096】
図37は、圧縮が、コンテキスト情報S600に従って動的に構成され得る、オーディオ圧縮パラメータの制御の実施形態の図である。例示を目的として、いくつかの圧縮レベル、すなわち、圧縮なし、「低」圧縮、「中」圧縮、および「高」圧縮が存在すると、仮定された。アクティブオーディオロギング状態S3、S5の間、オーディオ信号の圧縮レベルは、コンテキスト情報S600に従って動的に調整されるように構成され得る。たとえば、圧縮モードの変更は、コンテキスト情報S600のサブセットであるコンテンツの分類の、「音楽」から「発話」または「発話」から「音楽」への変更によって、開始されてよい。「音楽」のコンテンツに対しては高いビットレートを用いるのが望ましいことがあるが、符号化される信号の帯域幅が通常は「音楽」のコンテンツよりもはるかに狭い、「発話」のコンテンツに対しては、低いビットレートを用いるのが望ましいことがある。あるいは、圧縮モードの変更は、ローカル記憶装置の利用可能なメモリのサイズ、または、モバイルデバイスとリモートサーバとの間のチャネルの品質によって、開始されてもよい。
【0097】
符号化フォーマットは、コンテキスト情報S600にも従って変更されるように、構成され得る。
図38は、圧縮符号化フォーマットの選択またはその選択の欠如が、コンテキスト情報S600に従って動的に構成され得る、圧縮符号化フォーマットの選択の実施形態の図である。例示を目的として、オーディオコーデック#1および発話コーデック#1が
図38で示されるが、一般には、符号化フォーマットはまた、複数のオーディオコーデックまたは複数の発話コーデックの間で変化するように構成され得る。
【0098】
たとえば、本オーディオコーデック#1 3810は、「音楽」から「発話」への主要な信号の分類の変化を検出すると、発話コーデック#1 3820に変更されるように構成され得る。別の実施形態では、符号化フォーマットの変更は、あったとしても「圧縮なしモード」(3830)の後にのみトリガされてもよく、または代替的には、間に「圧縮なしモード」(3830)がなくても、事前に定められたコンテキスト情報S600の変化を検出するといつでもトリガされてもよい。
【0099】
様々な例示的な構成は、本明細書で開示する方法および他の構造を当業者が製造または使用できるように与えたものである。本明細書で図示および説明した流れ図、ブロック図、および他の構造は例にすぎず、これらの構造の他の変形形態も開示の範囲内である。これらの構成に対する様々な変更が可能であり、本明細書で提示した一般的原理は他の構成にも同様に適用できる。たとえば、本開示の範囲は例示した構成に限定されないことが強調される。むしろ、本明細書で説明する様々な特定の構成の特徴が互いに矛盾していない場合、そのような特徴を組み合わせて、本開示の範囲内に含まれる他の構成を生成することができることが明確に企図され、本明細書によって開示される。また、装置の2つ以上の要素の間の接続について説明する場合は、1つまたは複数の介在する要素(フィルタなど)が存在してもよく、方法の2つ以上のタスクの間の接続について説明する場合は、1つまたは複数の介在するタスクまたは動作(フィルタ処理演算など)が存在してもよいことが明確に企図され、本明細書によって開示される。
【0100】
本明細書で説明する構成は、部分的にまたは全体的に、配線回路として、特定用途向け集積回路中に作成された回路構成として、または不揮発性記憶装置にロードされるファームウェアプログラム、または、マイクロプロセッサもしくは他のデジタル信号処理ユニットなどの論理要素のアレイによって実行可能な命令である機械可読コードとしてコンピュータ可読媒体からロードされる、もしくはコンピュータ可読媒体にロードされる、ソフトウェアプログラムとして実装され得る。コンピュータ可読媒体は、(限定はしないが、ダイナミックもしくはスタティックRAM(ランダムアクセスメモリ)、ROM(読取り専用メモリ)、および/またはフラッシュRAMを含み得る)半導体メモリ、強誘電体メモリ、ポリマーメモリ、もしくは位相変化メモリのような記憶要素のアレイ、磁気ディスクもしくは光ディスクのようなディスク媒体、または、データ記憶用の任意の他のコンピュータ可読媒体であってよい。「ソフトウェア」という用語は、ソースコード、アセンブリ言語コード、機械コード、バイナリコード、ファームウェア、マクロコード、マイクロコード、論理要素のアレイによって実行可能な命令の1つまたは複数のセットまたはシーケンス、およびそのような例の任意の組合せを含むことを理解されたい。
【0101】
また、本明細書で開示する方法の各々は、論理要素(たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械)のアレイを含む機械によって読取り可能かつ/または実行可能な命令の1つまたは複数のセットとして(たとえば、上記に記載する1つまたは複数のコンピュータ可読媒体中で)、有形に具現化することができる。したがって、本開示は、上記に示した構成に限定されるものではなく、原開示の一部をなす、出願した添付の特許請求の範囲を含む、本明細書において任意の方法で開示された原理および新規の特徴に一致する最も広い範囲が与えられるべきである。
以下に本願の出願当初の特許請求の範囲に記載された発明を付記する。
[C1] モバイルデバイスのためのデジタルオーディオ信号を処理する方法であって、
少なくとも1つのマイクロフォンによって音響信号を受信することと、
前記受信された音響信号を前記デジタルオーディオ信号に変換することと、
前記デジタルオーディオ信号から、少なくとも1つの聴覚コンテキスト情報を抽出することと、
イベント開始インジケータを自動的に検出したことに応答して、前記デジタルオーディオ信号のオーディオロギングを実行することと、
イベント終了インジケータを自動的に検出したことに応答して、前記オーディオロギングを終了することと、を備える、方法。
[C2] 前記変換することは、
前記受信された音響信号を電気信号に変換することと、
前記電気信号をサンプリングして、前記デジタルオーディオ信号を得ることと、
前記デジタルオーディオ信号をバッファに記憶することと、を備え、
前記サンプリングは、サンプリング周波数およびデータ幅に基づく、C1に記載のデジタルオーディオ信号を処理する方法。
[C3] 前記少なくとも1つの聴覚コンテキスト情報は、オーディオの分類、キーワードの識別、または話者の識別のうちの少なくとも1つに関連する、C1に記載のデジタルオーディオ信号を処理する方法。
[C4] 前記少なくとも1つの聴覚コンテキスト情報は、信号エネルギー、信号対雑音比、スペクトル傾斜、またはゼロクロッシング・レートのうちの1つに少なくとも一部基づく、C3に記載のデジタルオーディオ信号を処理する方法。
[C5] 前記少なくとも1つの聴覚コンテキスト情報は、非聴覚情報に少なくとも一部基づく、C3に記載のデジタルオーディオ信号を処理する方法。
[C6] 前記非聴覚情報が、スケジューリング情報またはカレンダー情報を備える、C5に記載のデジタルオーディオ信号を処理する方法。
[C7] 前記イベント開始インジケータを前記検出することは、前記少なくとも1つの聴覚コンテキスト情報から、少なくとも1つのコンテキスト情報を選択することと、
前記選択されたコンテキスト情報と、少なくとも1つの予め定められた閾値との比較に応答して、前記イベント開始インジケータが検出されたかどうかを判定することと、を備える、C1に記載のデジタルオーディオ信号を処理する方法。
[C8] 前記イベント開始インジケータを前記検出することは、非聴覚情報に少なくとも一部基づき、前記非聴覚情報がスケジューリング情報またはカレンダー情報を備える、C1に記載のデジタルオーディオ信号を処理する方法。
[C9] 前記オーディオロギングを前記実行することは、
前記少なくとも1つの聴覚コンテキスト情報に少なくとも一部基づいて、前記変換と関連する少なくとも1つのパラメータを更新することと、
追加の処理が必要かどうかを、前記少なくとも1つの聴覚コンテキスト情報に少なくとも一部基づいて判定したことに応答して、前記デジタルオーディオ信号に前記追加の処理を適用して、処理されたオーディオ信号を得ることと、
前記処理されたオーディオ信号をメモリ記憶装置に記憶することと、を備える、C1に記載のデジタルオーディオ信号を処理する方法。
[C10] 前記追加の処理は信号増強処理を含む、C9に記載のデジタルオーディオ信号を処理する方法。
[C11] 前記信号増強処理は、音響エコー除去(AEC)、音声増強の受信(RVE)、アクティブノイズ除去(ANC)、ノイズ抑制(NS)、音響利得制御(AGC)、音量制御(AVC)、または音響ダイナミックレンジ制御(ADRC)のうちの少なくとも1つを含む、C10に記載のデジタルオーディオ信号を処理する方法。
[C12] 前記ノイズ抑制は複数のマイクロフォンに基づく、C11に記載のデジタルオーディオ信号を処理する方法。
[C13] 前記追加の処理は信号圧縮処理を含む、C9に記載のデジタルオーディオ信号を処理する方法。
[C14] 前記信号圧縮処理は、発話圧縮またはオーディオ圧縮を含む、C13に記載のデジタルオーディオ信号を処理する方法。
[C15] 少なくとも1つの圧縮パラメータは、前記聴覚コンテキスト情報に基づいて決定される、C13に記載のデジタルオーディオ信号を処理する方法。
[C16] 前記少なくとも1つの圧縮パラメータは、圧縮モード、ビットレート、またはチャネルの数を含む、C15に記載のデジタルオーディオ信号を処理する方法。
[C17] 前記メモリ記憶装置は、前記モバイルデバイス内のローカルメモリ、または、ワイヤレスチャネルを通じて前記モバイルデバイスに接続されるリモートメモリを備える、C9に記載のデジタルオーディオ信号を処理する方法。
[C18] 前記メモリ記憶装置は、前記聴覚コンテキスト情報に少なくとも一部基づいて選択される、C17に記載のデジタルオーディオ信号を処理する方法。
[C19] 前記イベント終了インジケータを前記検出することは、
前記少なくとも1つの聴覚コンテキスト情報から、少なくとも1つのコンテキスト情報を選択することと、
前記選択されたコンテキスト情報と、少なくとも1つの予め定められた閾値との比較に応答して、前記イベント終了インジケータが検出されたかどうかを判定することと、を備える、C1に記載のデジタルオーディオ信号を処理する方法。
[C20] 前記イベント終了インジケータを前記検出することは、予め定められた時間期間の間聴覚イベントが発生しなかったことに少なくとも一部基づく、C1に記載のデジタルオーディオ信号を処理する方法。
[C21] 前記イベント終了インジケータを前記検出することは、非聴覚情報に少なくとも一部基づき、前記非聴覚情報はスケジューリング情報またはカレンダー情報を備える、C1に記載のデジタルオーディオ信号を処理する方法。
[C22] モバイルデバイスのためのデジタルオーディオ信号を処理するための装置であって、
音響信号を受信するように構成される少なくとも1つのマイクロフォンと、
前記受信された音響信号を前記デジタルオーディオ信号に変換するように構成される変換器と、
前記デジタルオーディオ信号から、少なくとも1つの聴覚コンテキスト情報を抽出するように構成されるコンテキスト識別器と、
イベント開始インジケータを自動的に検出するように構成されるイベント開始マネジャと、
イベント終了インジケータを自動的に検出するように構成されるイベント終了マネジャと、
オーディオロギングプロセッサと、を備え、
前記オーディオロギングプロセッサは、前記イベント開始インジケータの前記検出に応答して、前記デジタルオーディオ信号のオーディオロギングを実行し、
前記イベント終了インジケータの前記検出に応答して、前記オーディオロギングを終了するように構成される、装置。
[C23] 前記変換器は、
前記受信された音響信号を電気信号に変換し、
前記電気信号をサンプリングして、前記デジタルオーディオ信号を得て、前記デジタルオーディオ信号をバッファに記憶するように構成され、
前記サンプリングは、サンプリング周波数およびデータ幅に基づく、C22に記載のデジタルオーディオ信号を処理するための装置。
[C24] 前記少なくとも1つの聴覚コンテキスト情報は、オーディオの分類、キーワードの識別、または話者の識別のうちの少なくとも1つに関連する、C22に記載のデジタルオーディオ信号を処理するための装置。
[C25] 前記少なくとも1つの聴覚コンテキスト情報は、信号エネルギー、信号対雑音比、スペクトル傾斜、またはゼロクロッシング・レートの1つに少なくとも一部基づく、C24に記載のデジタルオーディオ信号を処理するための装置。
[C26] 前記少なくとも1つの聴覚コンテキスト情報は、非聴覚情報に少なくとも一部基づく、C24に記載のデジタルオーディオ信号を処理するための装置。
[C27] 前記非聴覚情報は、スケジューリング情報またはカレンダー情報を備える、C26に記載のデジタルオーディオ信号を処理するための装置。
[C28] 前記イベント開始マネジャは、
前記少なくとも1つの聴覚コンテキスト情報から、少なくとも1つのコンテキスト情報を選択し、
前記選択されたコンテキスト情報を、少なくとも1つの予め定められた閾値と比較し、
前記比較に応答して、前記イベント開始インジケータが検出されたかどうかを判定するように構成される、C22に記載のデジタルオーディオ信号を処理するための装置。
[C29] 前記イベント開始インジケータを前記検出することは、非聴覚情報に少なくとも一部基づき、前記非聴覚情報がスケジューリング情報またはカレンダー情報を備える、C22に記載のデジタルオーディオ信号を処理するための装置。
[C30] 前記オーディオロギングプロセッサは、
前記少なくとも1つの聴覚コンテキスト情報に少なくとも一部基づいて、前記変換器と関連する少なくとも1つのパラメータを更新し、
前記少なくとも1つの聴覚コンテキスト情報に少なくとも一部基づいて、追加の処理が必要かどうかを判定し、
前記判定に応答して、前記追加の処理を前記デジタルオーディオ信号に適用して、処理されたオーディオ信号を得、
前記処理されたオーディオ信号をメモリ記憶装置に記憶するように構成される、C22に記載のデジタルオーディオ信号を処理するための装置。
[C31] 前記追加の処理は信号増強処理を含む、C30に記載のデジタルオーディオ信号を処理するための装置。
[C32] 前記信号増強処理は、音響エコー除去(AEC)、音声増強の受信(RVE)、アクティブノイズ除去(ANC)、ノイズ抑制(NS)、音響利得制御(AGC)、音量制御(AVC)、または音響ダイナミックレンジ制御(ADRC)のうちの少なくとも1つを含む、C31に記載のデジタルオーディオ信号を処理するための装置。
[C33] 前記ノイズ抑制は複数のマイクロフォンに基づく、C32に記載のデジタルオーディオ信号を処理するための装置。
[C34] 前記追加の処理は信号圧縮処理を含む、C30に記載のデジタルオーディオ信号を処理するための装置。
[C35] 前記信号圧縮処理は、発話圧縮またはオーディオ圧縮を含む、C34に記載のデジタルオーディオ信号を処理するための装置。
[C36] 少なくとも1つの圧縮パラメータは、前記聴覚コンテキスト情報に基づいて決定される、C34に記載のデジタルオーディオ信号を処理するための装置。
[C37] 前記少なくとも1つの圧縮パラメータは、圧縮モード、ビットレート、またはチャネルの数を含む、C36に記載のデジタルオーディオ信号を処理するための装置。
[C38] 前記メモリ記憶装置は、前記モバイルデバイス内のローカルメモリ、または、ワイヤレスチャネルを通じて前記モバイルデバイスに接続されるリモートメモリを備える、C30に記載のデジタルオーディオ信号を処理するための装置。
[C39] 前記メモリ記憶装置は、前記聴覚コンテキスト情報に少なくとも一部基づいて選択される、C38に記載のデジタルオーディオ信号を処理するための装置。
[C40] 前記イベント終了マネジャは、
前記少なくとも1つの聴覚コンテキスト情報から、少なくとも1つのコンテキスト情報を選択し、
前記選択されたコンテキスト情報を、少なくとも1つの予め定められた閾値と比較し、
前記比較に応答して、前記イベント終了インジケータが検出されたかどうかを判定するように構成される、C22に記載のデジタルオーディオ信号を処理するための装置。
[C41] 前記イベント終了インジケータを前記検出することは、予め定められた時間期間の間聴覚イベントが発生しなかったことに少なくとも一部基づく、C22に記載のデジタルオーディオ信号を処理するための装置。
[C42] 前記イベント終了インジケータを前記検出することは、非聴覚情報に少なくとも一部基づき、前記非聴覚情報はスケジューリング情報またはカレンダー情報を備える、C22に記載のデジタルオーディオ信号を処理するための装置。
[C43] モバイルデバイスのためのデジタルオーディオ信号を処理するための装置であって、
少なくとも1つのマイクロフォンによって音響信号を受信するための手段と、
前記受信された音響信号を前記デジタルオーディオ信号に変換するための手段と、
前記デジタルオーディオ信号から、少なくとも1つの聴覚コンテキスト情報を抽出するための手段と、
イベント開始インジケータを自動的に検出するための手段と、
前記イベント開始インジケータの前記検出に応答して、前記デジタルオーディオ信号のオーディオロギングを実行するための手段と、
イベント終了インジケータを自動的に検出するための手段と、
前記イベント終了インジケータの前記検出に応答して、前記デジタルオーディオ信号のオーディオロギングを終了するための手段と、を備える、装置。
[C44] 前記変換するための手段は、
前記受信された音響信号を電気信号に変換するための手段と、
前記電気信号をサンプリングして、前記デジタルオーディオ信号を得るための手段と、前記デジタルオーディオ信号をバッファに記憶するための手段と、を備え、
前記サンプリングは、サンプリング周波数およびデータ幅に基づく、C43に記載のデジタルオーディオ信号を処理するための装置。
[C45] 前記少なくとも1つの聴覚コンテキスト情報は、オーディオの分類、キーワードの識別、または話者の識別のうちの少なくとも1つに関連する、C43に記載のデジタルオーディオ信号を処理するための装置。
[C46] 前記少なくとも1つの聴覚コンテキスト情報は、信号エネルギー、信号対雑音比、スペクトル傾斜、またはゼロクロッシング・レートのうちの1つに少なくとも一部基づく、C45に記載のデジタルオーディオ信号を処理するための装置。
[C47] 前記少なくとも1つの聴覚コンテキスト情報は、非聴覚情報に少なくとも一部基づく、C45に記載のデジタルオーディオ信号を処理するための装置。
[C48] 前記非聴覚情報は、スケジューリング情報またはカレンダー情報を備える、C47に記載のデジタルオーディオ信号を処理するための装置。
[C49] 前記イベント開始インジケータを検出するための前記手段は、
前記少なくとも1つの聴覚コンテキスト情報から、少なくとも1つのコンテキスト情報を選択するための手段と、
前記選択されたコンテキスト情報を、少なくとも1つの予め定められた閾値と比較するための手段と、
前記比較に応答して、前記イベント開始インジケータが検出されたかどうかを判定するための手段と、を備える、C43に記載のデジタルオーディオ信号を処理するための装置。
[C50] 前記イベント開始インジケータの前記検出は、非聴覚情報に少なくとも一部基づき、前記非聴覚情報はスケジューリング情報またはカレンダー情報を備える、C43に記載のデジタルオーディオ信号を処理するための装置。
[C51] 前記オーディオロギングを実行するための前記手段は、
前記少なくとも1つの聴覚コンテキスト情報に少なくとも一部基づいて、前記変換するための手段と関連する少なくとも1つのパラメータを更新するための手段と、
前記少なくとも1つの聴覚コンテキスト情報に少なくとも一部基づいて、追加の処理が必要かどうかを判定するための手段と、
前記判定に応答して、前記追加の処理を前記デジタルオーディオ信号に適用し、処理されたオーディオ信号を得るための手段と、
前記処理されたオーディオ信号をメモリ記憶装置に記憶するための手段と、を備える、C43に記載のデジタルオーディオ信号を処理するための装置。
[C52] 前記追加の処理は信号増強処理を含む、C51に記載のデジタルオーディオ信号を処理するための装置。
[C53] 前記信号増強処理は、音響エコー除去(AEC)、音声増強の受信(RVE)、アクティブノイズ除去(ANC)、ノイズ抑制(NS)、音響利得制御(AGC)、音量制御(AVC)、または音響ダイナミックレンジ制御(ADRC)のうちの少なくとも1つを含む、C52に記載のデジタルオーディオ信号を処理するための装置。
[C54] 前記ノイズ抑制は複数のマイクロフォンに基づく、C53に記載のデジタルオーディオ信号を処理するための装置。
[C55] 前記追加の処理は信号圧縮処理を含む、C51に記載のデジタルオーディオ信号を処理するための装置。
[C56] 前記信号圧縮処理は、発話圧縮またはオーディオ圧縮を含む、C55に記載のデジタルオーディオ信号を処理するための装置。
[C57] 少なくとも1つの圧縮パラメータは、前記聴覚コンテキスト情報に基づいて決定される、C55に記載のデジタルオーディオ信号を処理するための装置。
[C58] 前記少なくとも1つの圧縮パラメータは、圧縮モード、ビットレート、またはチャネルの数を含む、C57に記載のデジタルオーディオ信号を処理するための装置。
[C59] 前記メモリ記憶装置は、前記モバイルデバイス内のローカルメモリ、または、ワイヤレスチャネルを通じて前記モバイルデバイスに接続されるリモートメモリを備える、C51に記載のデジタルオーディオ信号を処理するための装置。
[C60] 前記メモリ記憶装置は、前記聴覚コンテキスト情報に少なくとも一部基づいて選択される、C59に記載のデジタルオーディオ信号を処理するための装置。
[C61] 前記イベント終了インジケータを検出するための前記手段は、
前記少なくとも1つの聴覚コンテキスト情報から、少なくとも1つのコンテキスト情報を選択するための手段と、
前記選択されたコンテキスト情報を、少なくとも1つの予め定められた閾値と比較するための手段と、
前記比較に応答して、前記イベント終了インジケータが検出されたかどうかを判定するための手段と、を備える、C43に記載のデジタルオーディオ信号を処理するための装置。
[C62] 前記イベント終了インジケータを検出するための前記手段は、予め定められた時間期間の間聴覚イベントが発生しなかったことに少なくとも一部基づく、C43に記載のデジタルオーディオ信号を処理するための装置。
[C63] 前記イベント終了インジケータを検出するための前記手段は、非聴覚情報に少なくとも一部基づき、前記非聴覚情報はスケジューリング情報またはカレンダー情報を備える、C43に記載のデジタルオーディオ信号を処理するための装置。
[C64] モバイルデバイスのためのデジタルオーディオ信号を処理するための命令を備える非一時的なコンピュータ可読媒体であって、前記命令は、プロセッサによって実行されたとき、前記プロセッサに、
少なくとも1つのマイクロフォンによって音響信号を受信させ、
前記受信された音響信号をデジタルオーディオ信号に変換させ、
前記デジタルオーディオ信号から、少なくとも1つの聴覚コンテキスト情報を抽出させ、イベント開始インジケータを自動的に検出させ、
前記イベント開始インジケータの前記検出に応答して、前記デジタルオーディオ信号のオーディオロギングを実行させ、
イベント終了インジケータを自動的に検出させ、
前記イベント終了インジケータの前記検出に応答して、前記オーディオロギングを終了させる、コンピュータ可読媒体。
[C65] プロセッサによって実行されたとき、前記プロセッサに、前記受信された音響信号を変換させる前記命令は、前記プロセッサに、
前記受信された音響信号を電気信号に変換させ、前記デジタルオーディオ信号を取得するために、前記電気信号をサンプリングさせ、
前記デジタルオーディオ信号をバッファに記憶させるように構成され、前記サンプリングは、サンプリング周波数およびデータ幅に基づく、C64に記載のコンピュータ可読媒体。
[C66] 前記少なくとも1つの聴覚コンテキスト情報は、オーディオの分類、キーワードの識別、または話者の識別のうちの少なくとも1つに関連する、C64に記載のコンピュータ可読媒体。
[C67] 前記少なくとも1つの聴覚コンテキスト情報は、信号エネルギー、信号対雑音比、スペクトル傾斜、またはゼロクロッシング・レートの1つに少なくとも一部基づく、C66に記載のコンピュータ可読媒体。
[C68] 前記少なくとも1つの聴覚コンテキスト情報は、非聴覚情報に少なくとも一部基づく、C66に記載のコンピュータ可読媒体。
[C69] 前記非聴覚情報は、スケジューリング情報またはカレンダー情報を備える、C68に記載のコンピュータ可読媒体。
[C70] プロセッサによって実行されたとき、前記プロセッサに、前記イベント開始インジケータを検出させる前記命令は、前記プロセッサに、
前記少なくとも1つの聴覚コンテキスト情報から、少なくとも1つのコンテキスト情報を選択させ、
前記選択されたコンテキスト情報を、少なくとも1つの予め定められた閾値と比較させ、
前記比較に応答して、前記イベント開始インジケータが検出されたかどうかを判定させるように構成される、C64に記載のコンピュータ可読媒体。
[C71] プロセッサによって実行されたとき、前記プロセッサに、前記イベント開始インジケータを検出させる前記命令は、
非聴覚情報に少なくとも一部基づいて前記イベント開始インジケータを検出するように構成され、前記非聴覚情報は、スケジューリング情報またはカレンダー情報を備える、C64に記載のコンピュータ可読媒体。
[C72] プロセッサによって実行されたとき、前記プロセッサに、前記オーディオロギングを実行させる前記命令は、前記プロセッサに、
前記少なくとも1つの聴覚コンテキスト情報に少なくとも一部基づいて、前記変換と関連する少なくとも1つのパラメータを更新させ、
前記少なくとも1つの聴覚コンテキスト情報に少なくとも一部基づいて、追加の処理が必要かどうかを判定させ、
処理されたオーディオ信号を取得するために、前記判定に応答して、前記追加の処理を前記デジタルオーディオ信号に適用させ、
前記処理されたオーディオ信号をメモリ記憶装置に記憶させるように構成される、C64に記載のコンピュータ可読媒体。
[C73] 前記追加の処理は信号増強処理を含む、C72に記載のコンピュータ可読媒体。
[C74] 前記信号増強処理は、音響エコー除去(AEC)、音声増強の受信(RVE)、アクティブノイズ除去(ANC)、ノイズ抑制(NS)、音響利得制御(AGC)、音量制御(AVC)、または音響ダイナミックレンジ制御(ADRC)のうちの少なくとも1つを含む、C73に記載のコンピュータ可読媒体。
[C75] 前記ノイズ抑制は複数のマイクロフォンに基づく、C74に記載のコンピュータ可読媒体。
[C76] 前記追加の処理は信号圧縮処理を含む、C72に記載のコンピュータ可読媒体。
[C77] 前記信号圧縮処理は、発話圧縮またはオーディオ圧縮を含む、C76に記載のコンピュータ可読媒体。
[C78] 少なくとも1つの圧縮パラメータは、前記聴覚コンテキスト情報に基づいて決定される、C76に記載のコンピュータ可読媒体。
[C79] 前記少なくとも1つの圧縮パラメータは、圧縮モード、ビットレート、またはチャネルの数を含む、C78に記載のコンピュータ可読媒体。
[C80] 前記メモリ記憶装置は、前記モバイルデバイス内のローカルメモリ、または、ワイヤレスチャネルを通じて前記モバイルデバイスに接続されるリモートメモリを備える、C72に記載のコンピュータ可読媒体。
[C81] 前記メモリ記憶装置は、前記聴覚コンテキスト情報に少なくとも一部基づいて選択される、C80に記載のコンピュータ可読媒体。
[C82] プロセッサによって実行されたとき、前記プロセッサに、前記イベント終了インジケータを検出させる前記命令は、前記プロセッサに、
前記少なくとも1つの聴覚コンテキスト情報から、少なくとも1つのコンテキスト情報を選択させ、
前記選択されたコンテキスト情報を、少なくとも1つの予め定められた閾値と比較させ、
前記比較に応答して、前記イベント終了インジケータが検出されたかどうかを判定させるように構成される、C64に記載のコンピュータ可読媒体。
[C83] プロセッサによって実行されたとき、前記プロセッサに、前記イベント終了インジケータを検出させる前記命令は、予め定められた期間期間の間聴覚イベントが発生しないことに少なくとも一部基づいて前記イベント終了インジケータを検出するように構成される、C64に記載のコンピュータ可読媒体。
[C84] プロセッサによって実行されたとき、前記プロセッサに、前記イベント終了インジケータを検出させる前記命令は、非聴覚情報に少なくとも一部基づいて前記イベント終了インジケータを検出するように構成され、前記非聴覚情報は、スケジューリング情報またはカレンダー情報を備える、C64に記載のコンピュータ可読媒体。
[C85] イベント開始インジケータを自動的に検出したことに応答して、オーディオ入力信号の第1の部分を処理して第1の情報を得ることと、
前記第1の情報に基づいて、少なくとも1つの記録パラメータを決定することと、
前記決定された少なくとも1つの記録パラメータに基づいて、前記モバイルデバイスのオーディオキャプチャユニットを再構成することと、を備える、モバイルデバイスのための方法。
[C86] 前記オーディオキャプチャユニットを前記再構成することは、前記オーディオ入力信号の非アクティブな部分の間に発生する、C85に記載の方法。
[C87] 前記少なくとも1つの記録パラメータは、前記モバイルデバイスのA/Dコンバータのサンプリング周波数またはデータ幅を示す情報を含む、C85に記載の方法。
[C88] 前記少なくとも1つの記録パラメータは、前記モバイルデバイスのアクティブなマイクロフォンの数を示す情報を含む、C85に記載の方法。
[C89] 前記少なくとも1つの記録パラメータは、少なくとも1つのマイクロフォンの起動間隔またはアクティブ期間を示すタイミング情報を含む、C85に記載の方法。
[C90] 前記第1の情報は、前記モバイルデバイスが記録を行なっている環境を表すコンテキスト情報である、C85に記載の方法。
[C91] 前記第1の情報は、前記オーディオ入力信号の特性を表すコンテキスト情報である、C85に記載の方法。
[C92] 前記イベント開始インジケータは、ワイヤレスチャネルを通じて送信される信号に基づく、C85に記載の方法。
[C93] 前記オーディオ入力信号の第2の部分を処理して、第2の情報を得ることと、
バックグラウンドノイズを抑制することによって、前記オーディオ入力信号を増強して、増強された信号を得ることと、
前記増強された信号を符号化して、符号化された信号を得ることと、
前記モバイルデバイス内のローカル記憶装置に、前記符号化された信号を記憶することと、をさらに備える、C85に記載の方法。
[C94] 前記第2の情報に基づいて、前記オーディオ入力信号の前記増強の度合いを決定することをさらに備える、C93に記載の方法。
[C95] 前記増強された信号を前記符号化することは、
前記第2の情報に基づいて、符号化タイプを決定することと、
前記決定された符号化のための少なくとも1つの符号化パラメータを決定することと、
前記決定された符号化タイプおよび前記決定された少なくとも1つの符号化パラメータに基づいて、前記増強された信号を処理して、前記符号化された信号を得ることと、を備え、
前記少なくとも1つの符号化パラメータは、ビットレートまたは符号化モードを備える、C93に記載の方法。
[C96] イベント終了インジケータを自動的に検出することと、
イベント終了インジケータの前記検出に応答して、前記モバイルデバイス内の前記ローカル記憶装置と、ワイヤレスチャネルを通じて前記モバイルデバイスに接続されるネットワーク記憶装置から、前記符号化された信号のための長期記憶装置の位置を決定することと、をさらに備える、C93に記載の方法。
[C97] 前記長期記憶装置の位置を前記決定することは、前記符号化された信号の優先度に基づく、C96に記載の方法。
[C98] モバイルデバイスのための装置であって、
イベント開始インジケータを自動的に検出し、
前記イベント開始インジケータの前記検出に応答して、オーディオ入力信号の第1の部分を処理して第1の情報を得て、
前記第1の情報に基づいて、少なくとも1つの記録パラメータを決定するように構成される、オーディオロギングプロセッサと、
前記決定された少なくとも1つの記録パラメータに基づいて、自身を再構成するように構成されたオーディオキャプチャユニットと、を備える、装置。
[C99] 前記オーディオキャプチャユニットは、前記オーディオ入力信号の非アクティブな部分の間に、自身を再構成するように構成される、C98に記載の装置。
[C100] 前記少なくとも1つの記録パラメータは、前記オーディオキャプチャユニットのA/Dコンバータのサンプリング周波数またはデータ幅を示す情報を含む、C98に記載の装置。
[C101] 前記少なくとも1つの記録パラメータは、前記モバイルデバイスのアクティブなマイクロフォンの数を示す情報を含む、C98に記載の装置。
[C102] 前記少なくとも1つの記録パラメータは、少なくとも1つのマイクロフォンの起動間隔またはアクティブ期間を示すタイミング情報を含む、C98に記載の装置。
[C103] 前記第1の情報は、前記モバイルデバイスが記録を行なっている環境を示すコンテキスト情報である、C98に記載の装置。
[C104] 前記第1の情報は、前記オーディオ入力信号の特性を示すコンテキスト情報である、C98に記載の装置。
[C105] 前記イベント開始インジケータは、ワイヤレスチャネルを通じて送信される信号に基づく、C98に記載の装置。
[C106] 前記オーディオロギングプロセッサはさらに、
前記オーディオ入力信号の第2の部分を処理して、第2の情報を得、
バックグラウンドノイズを抑制することによって、前記オーディオ入力信号を増強して、増強された信号を得、
前記増強された信号を符号化して、符号化された信号を得、
前記モバイルデバイス内のローカル記憶装置に、前記符号化された信号を記憶するように構成される、C98に記載の装置。
[C107] 前記オーディオロギングプロセッサはさらに、前記第2の情報に基づいて、前記オーディオ入力信号の前記増強の度合いを決定するように構成される、C106に記載の装置。
[C108] 前記オーディオロギングプロセッサは、
前記第2の情報に基づいて、符号化タイプを決定し、
前記決定された符号化のための少なくとも1つの符号化パラメータを決定し、
前記決定された符号化タイプおよび前記決定された少なくとも1つの符号化パラメータに基づいて、前記増強された信号を処理して、前記符号化された信号を得るように構成され、
前記少なくとも1つの符号化パラメータは、ビットレートまたは符号化モードを備える、C106に記載の装置。
[C109] 前記オーディオロギングプロセッサはさらに、
イベント終了インジケータを自動的に検出し、
イベント終了インジケータの前記検出に応答して、前記モバイルデバイス内の前記ローカル記憶装置と、ワイヤレスチャネルを通じて前記モバイルデバイスに接続されるネットワーク記憶装置から、前記符号化された信号のための長期記憶装置の位置を決定するように構成される、C106に記載の装置。
[C110] 前記長期記憶装置の位置を前記決定することは、前記符号化された信号の優先度に基づく、C109に記載の装置。
[C111] イベント開始インジケータを自動的に検出するための手段と、
前記イベント開始インジケータの検出に応答して、オーディオ入力信号の第1の部分を処理して第1の情報を得るための手段と、
前記第1の情報に基づいて、少なくとも1つの記録パラメータを決定するための手段と、
前記決定された少なくとも1つの記録パラメータに基づいて、前記モバイルデバイスのオーディオキャプチャユニットを再構成するための手段と、を備える、モバイルデバイスのための装置。
[C112] 前記オーディオキャプチャユニットを再構成するための前記手段は、前記オーディオ入力信号の非アクティブな部分の間に発生する、C111に記載の装置。
[C113] 前記少なくとも1つの記録パラメータは、前記オーディオキャプチャユニットのA/Dコンバータのサンプリング周波数またはデータ幅を示す情報を含む、C111に記載の装置。
[C114] 前記少なくとも1つの記録パラメータは、前記モバイルデバイスのアクティブなマイクロフォンの数を示す情報を含む、C111に記載の装置。
[C115] 前記少なくとも1つの記録パラメータは、少なくとも1つのマイクロフォンの起動間隔またはアクティブ期間を示すタイミング情報を含む、C111に記載の装置。
[C116] 前記第1の情報は、前記モバイルデバイスが記録を行なっている環境を示すコンテキスト情報である、C111に記載の装置。
[C117] 前記第1の情報は、前記オーディオ入力信号の特性を示すコンテキスト情報である、C111に記載の装置。
[C118] 前記イベント開始インジケータは、ワイヤレスチャネルを通じて送信される信号に基づく、C111に記載の装置。
[C119] 前記オーディオ入力信号の第2の部分を処理して、第2の情報を得るための手段と、
バックグラウンドノイズを抑制することによって、前記オーディオ入力信号を増強して、増強された信号を得るための手段と、
前記増強された信号を符号化して、符号化された信号を得るための手段と、
前記モバイルデバイス内のローカル記憶装置に、前記符号化された信号を記憶するための手段と、をさらに備える、C111に記載の装置。
[C120] 前記第2の情報に基づいて、前記オーディオ入力信号の前記増強の度合いを決定するための手段をさらに備える、C119に記載の装置。
[C121] 前記増強された信号を符号化するための前記手段は、
前記第2の情報に基づいて、符号化タイプを決定するための手段と、
前記決定された符号化のための少なくとも1つの符号化パラメータを決定するための手段と、
前記決定された符号化タイプおよび前記決定された少なくとも1つの符号化パラメータに基づいて、前記増強された信号を処理して、前記符号化された信号を得るための手段と、を備え、
前記少なくとも1つの符号化パラメータは、ビットレートまたは符号化モードを備える、C119に記載の装置。
[C122] イベント終了インジケータを自動的に検出するための手段と、
イベント終了インジケータの前記検出に応答して、前記モバイルデバイス内の前記ローカル記憶装置と、ワイヤレスチャネルを通じて前記モバイルデバイスに接続されるネットワーク記憶装置とから、前記符号化された信号のための長期記憶装置の位置を決定するための手段と、をさらに備える、C119に記載の装置。
[C123] 前記長期記憶装置の位置を決定するための前記手段は、前記符号化された信号の優先度に基づく、C122に記載の装置。
[C124] プロセッサによって実行されたとき、前記プロセッサに、
イベント開始インジケータを自動的に検出させ、
前記イベント開始インジケータの検出に応答して、第1の情報を取得するために、オーディオ入力信号の第1の部分を処理させ、
前記第1の情報に基づいて、少なくとも1つの記録パラメータを決定させ、
前記決定された少なくとも1つの記録パラメータに基づいて、前記モバイルデバイスのオーディオキャプチャユニットを再構成させる、命令を備える、非一時的なコンピュータ可読媒体。
[C125] プロセッサによって実行されたとき、前記プロセッサに、前記オーディオキャプチャユニットを再構成させる前記命令は、前記オーディオ入力信号の非アクティブな部分の間に前記オーディオキャプチャユニットを再構成するように構成される、C124に記載のコンピュータ可読媒体。
[C126] 前記少なくとも1つの記録パラメータは、前記オーディオキャプチャユニットのA/Dコンバータのサンプリング周波数またはデータ幅を示す情報を含む、C124に記載のコンピュータ可読媒体。
[C127] 前記少なくとも1つの記録パラメータは、前記モバイルデバイスのアクティブなマイクロフォンの数を示す情報を含む、C124に記載のコンピュータ可読媒体。
[C128] 前記少なくとも1つの記録パラメータは、少なくとも1つのマイクロフォンの起動間隔またはアクティブ期間を示すタイミング情報を含む、C124に記載のコンピュータ可読媒体。
[C129] 前記第1の情報は、前記モバイルデバイスが記録を行なっている環境を示すコンテキスト情報である、C124に記載のコンピュータ可読媒体。
[C130] 前記第1の情報は、前記オーディオ入力信号の特性を示すコンテキスト情報である、C124に記載のコンピュータ可読媒体。
[C131] 前記イベント開始インジケータは、ワイヤレスチャネルを通じて送信される信号に基づく、C124に記載のコンピュータ可読媒体。
[C132] 前記命令は、プロセッサによって実行されたとき、前記プロセッサに、
第2の情報を取得するために、前記オーディオ入力信号の第2の部分を処理させ、
増強された信号を取得するために、バックグラウンドノイズを抑制することによって、前記オーディオ入力信号を増強させ、
符号化された信号を取得するために、前記増強された信号を符号化させ、
前記モバイルデバイス内のローカル記憶装置に、前記符号化された信号を記憶させる、C124に記載のコンピュータ可読媒体。
[C133] 前記命令は、プロセッサによって実行されたとき、前記プロセッサに、前記第2の情報に基づいて、前記オーディオ入力信号の前記増強の度合いを決定させる、C132に記載のコンピュータ可読媒体。
[C134] プロセッサによって実行されたとき、前記プロセッサに、前記増強された信号を符号化させる前記命令は、前記プロセッサに、
前記第2の情報に基づいて、符号化タイプを決定させ、
前記決定された符号化のための少なくとも1つの符号化パラメータを決定させ、
前記符号化された信号を取得するために、前記決定された符号化タイプおよび前記決定された少なくとも1つの符号化パラメータに基づいて、前記増強された信号を処理させる、ように構成され、
前記少なくとも1つの符号化パラメータは、ビットレートまたは符号化モードを備える、C132に記載のコンピュータ可読媒体。
[C135] 前記命令は、プロセッサによって実行されたとき、前記プロセッサに、
イベント終了インジケータを自動的に検出させ、
イベント終了インジケータの前記検出に応答して、前記モバイルデバイス内の前記ローカル記憶装置と、ワイヤレスチャネルを通じて前記モバイルデバイスに接続されるネットワーク記憶装置とから、前記符号化された信号のための長期記憶装置の位置を決定させる、C132に記載のコンピュータ可読媒体。
[C136] プロセッサによって実行されたとき、前記プロセッサに、前記長期記憶装置の位置を決定させる前記命令は、前記プロセッサに、前記符号化された信号の優先度に基づいて、前記長期記憶装置の位置を決定させる、C135に記載のコンピュータ可読媒体。