特許6689664 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ クゥアルコム・インコーポレイテッドの特許一覧

特許6689664モバイルデバイスのためのスマートオーディオロギングのシステムおよび方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
1C
2
3
4
5
6
7
8
9A
9B
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6689664

(24)【登録日】2020年4月10日

(45)【発行日】2020年4月28日

(54)【発明の名称】モバイルデバイスのためのスマートオーディオロギングのシステムおよび方法

(51)【国際特許分類】

G10L 19/00 20130101AFI20200421BHJP

H04M 1/65 20060101ALI20200421BHJP

【ＦＩ】

G10L19/00 312

H04M1/65 A

【請求項の数】56

【全頁数】55

(21)【出願番号】特願2016-93278(P2016-93278)

(22)【出願日】2016年5月6日

(62)【分割の表示】特願2013-504014(P2013-504014)の分割

【原出願日】2011年4月8日

(65)【公開番号】特開2016-180988(P2016-180988A)

(43)【公開日】2016年10月13日

【審査請求日】2016年6月2日

【審判番号】不服2018-9367(P2018-9367/J1)

【審判請求日】2018年7月6日

(31)【優先権主張番号】13/076,242

(32)【優先日】2011年3月30日

(33)【優先権主張国】US

(31)【優先権主張番号】61/322,176

(32)【優先日】2010年4月8日

(33)【優先権主張国】US

(73)【特許権者】

【識別番号】595020643

【氏名又は名称】クゥアルコム・インコーポレイテッド

【氏名又は名称原語表記】ＱＵＡＬＣＯＭＭＩＮＣＯＲＰＯＲＡＴＥＤ

(74)【代理人】

【識別番号】100108855

【弁理士】

【氏名又は名称】蔵田昌俊

(74)【代理人】

【識別番号】100109830

【弁理士】

【氏名又は名称】福原淑弘

(74)【代理人】

【識別番号】100158805

【弁理士】

【氏名又は名称】井関守三

(74)【代理人】

【識別番号】100112807

【弁理士】

【氏名又は名称】岡田貴志

(74)【代理人】

【識別番号】100184332

【弁理士】

【氏名又は名称】中丸慶洋

(72)【発明者】

【氏名】テ−ウォン・リ

(72)【発明者】

【氏名】クハレド・エル−マレー

(72)【発明者】

【氏名】ヘジョン・ヨ

(72)【発明者】

【氏名】ジョンウォン・シン

【合議体】

【審判長】千葉輝久

【審判官】菊池智紀

【審判官】須田勝巳

(56)【参考文献】

【文献】特開２００５−２２１５６５（ＪＰ，Ａ）

【文献】特開２００２−３２４２９０（ＪＰ，Ａ）

【文献】特開２００２−５７７４９（ＪＰ，Ａ）

【文献】特開平１１−１８７１５６（ＪＰ，Ａ）

【文献】特開平４−１０８２４６（ＪＰ，Ａ）

【文献】特開２００７−１４００６３（ＪＰ，Ａ）

【文献】特開２００３−１９８７１６（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

G10L 19/00-19/26

H04M 1/00- 1/82

G11B 20/00-20/24

(57)【特許請求の範囲】

【請求項1】

モバイルデバイスのためのデジタルオーディオ信号を処理する方法であって、
前記モバイルデバイスの少なくとも１つのマイクロフォンによって音響信号を受信することと、
前記受信された音響信号を前記デジタルオーディオ信号に変換することと、
前記デジタルオーディオ信号から、聴覚コンテキスト情報を抽出することと、
前記抽出された聴覚コンテキスト情報の少なくとも一部に基づいてイベント開始を自動的に検出したことに応答して、前記デジタルオーディオ信号のオーディオロギングを実行することと、
イベント終了を自動的に検出したことに応答して、前記オーディオロギングを終了することと、を備え、
ここにおいて、前記方法は、前記モバイルデバイスによって実行され、
前記オーディオロギングを前記実行することは、前記イベント開始を前記自動的に検出することより前に発生せず、
前記方法は、前記イベント開始を前記自動的に検出することより前に、前記少なくとも１つのマイクロフォン中のマイクロフォンまたはプロセッサを間欠的に起動することを備える、
方法。

【請求項2】

前記プロセッサは、前記デジタルオーディオ信号において聴覚アクティビティを検出するように構成される、請求項１に記載のデジタルオーディオ信号を処理する方法。

【請求項3】

前記モバイルデバイスは、音声通話に関与することができる携帯電話であり、
前記音響信号を前記受信することの間、前記モバイルデバイスは、何れの音声通話にも関与しない、
請求項１に記載のデジタルオーディオ信号を処理する方法。

【請求項4】

前記抽出された聴覚コンテキスト情報は、オーディオの分類、キーワードの識別、または話者の識別のうちの少なくとも１つに関連する、請求項１に記載のデジタルオーディオ信号を処理する方法。

【請求項5】

前記抽出された聴覚コンテキスト情報は、非聴覚情報に少なくとも一部基づく、請求項４に記載のデジタルオーディオ信号を処理する方法。

【請求項6】

前記非聴覚情報が、スケジューリング情報またはカレンダー情報を備える、請求項５に記載のデジタルオーディオ信号を処理する方法。

【請求項7】

前記イベント開始を前記検出することは、前記抽出された聴覚コンテキスト情報から、少なくとも１つのコンテキスト情報を選択することと、
前記選択されたコンテキスト情報と、少なくとも１つの予め定められた閾値との比較に応答して、前記イベント開始が検出されたかどうかを判定することと、を備える、請求項１に記載のデジタルオーディオ信号を処理する方法。

【請求項8】

前記方法は、前記イベント開始を前記自動的に検出することより前に、前記デジタルオーディオ信号からの情報に基づいて、第１の開始インジケータをトリガすることを備え、
前記情報は、信号エネルギー、信号対雑音比、周期性、スペクトル傾斜、またはゼロクロッシング・レートのうちの１つに少なくとも一部基づく、請求項１に記載のデジタルオーディオ信号を処理する方法。

【請求項9】

前記少なくとも１つのマイクロフォン中の前記マイクロフォンまたは前記プロセッサを前記間欠的に起動することは、前記第１のイベント開始インジケータを前記トリガすることより前に発生する、請求項８に記載のデジタルオーディオ信号を処理する方法。

【請求項10】

前記方法は、前記第１のイベント開始インジケータを前記トリガすることに応答して、前記マイクロフォンのデューティーサイクルを増加させることを備える、請求項９に記載のデジタルオーディオ信号を処理する方法。

【請求項11】

前記第１の開始インジケータを前記トリガすることはまた、少なくとも１つの非聴覚センサからの情報に基づく、請求項８に記載のデジタルオーディオ信号を処理する方法。

【請求項12】

前記方法は、前記第１のイベント開始インジケータを前記トリガすることに応答して、前記変換の分解能を増加させることを備える、請求項８に記載のデジタルオーディオ信号を処理する方法。

【請求項13】

前記方法は、前記第１のイベント開始インジケータを前記トリガすることに応答して、前記変換のサンプリングレートを増加させることを備える、請求項８に記載のデジタルオーディオ信号を処理する方法。

【請求項14】

前記方法は、前記受信することの間であり前記第１のイベント開始インジケータを前記トリガすることの前に、前記少なくとも１つのマイクロフォン中のアクティブなマイクロフォンの数を増加させることを備える、請求項８に記載のデジタルオーディオ信号を処理する方法。

【請求項15】

前記オーディオロギングを前記実行することは、ワイヤレス通信チャネルを介して前記デジタルオーディオ信号に基づいたオーディオ信号を送信することを備える、請求項１に記載のデジタルオーディオ信号を処理する方法。

【請求項16】

前記方法は、前記抽出された聴覚コンテキスト情報の少なくとも一部に基づいて、前記変換のサンプリングレートを増加させることを備える、請求項１に記載のデジタルオーディオ信号を処理する方法。

【請求項17】

前記方法は、前記デジタルオーディオ信号のオーディオ品質に基づいて、アクティブなマイクロフォンの数を変化させることを備える、請求項１に記載のデジタルオーディオ信号を処理する方法。

【請求項18】

前記方法は、前記オーディオロギングを前記実行する間に、前記少なくとも１つのマイクロフォン中のアクティブなマイクロフォンの数を増加させることを備える、請求項１に記載のデジタルオーディオ信号を処理する方法。

【請求項19】

前記アクティブなマイクロフォンの数を前記増加させることは、前記受信された音響信号の非アクティブな部分の間に実行され、
聴覚コンテキスト情報を前記抽出することは、前記受信された音響信号のアクティブな部分の間に実行される、
請求項１８に記載のデジタルオーディオ信号を処理する方法。

【請求項20】

前記オーディオロギングを前記実行することは、
処理されたオーディオ信号を生成するために前記デジタルオーディオ信号を処理することと、ここにおいて、前記処理することは、増強および圧縮のうちの少なくとも１つを含む、
前記処理されたオーディオ信号をメモリ記憶装置に記憶することと、を備え、
ここにおいて、増強および圧縮のうちの前記少なくとも１つは、（Ａ）前記デジタルオーディオ信号のコンテンツと、（Ｂ）前記抽出された聴覚コンテキスト情報の少なくとも一部とのうちの少なくとも１つに基づくパラメータの値に基づく、
請求項１に記載のデジタルオーディオ信号を処理する方法。

【請求項21】

前記処理することは、音響エコー除去（ＡＥＣ）、音声増強の受信（ＲＶＥ）、アクティブノイズ除去（ＡＮＣ）、ノイズ抑制（ＮＳ）、音響利得制御（ＡＧＣ）、音量制御（ＡＶＣ）、または音響ダイナミックレンジ制御（ＡＤＲＣ）のうちの少なくとも１つを含む、請求項２０に記載のデジタルオーディオ信号を処理する方法。

【請求項22】

前記処理することは、複数のマイクロフォンに基づくノイズ抑制を含む、請求項２０に記載のデジタルオーディオ信号を処理する方法。

【請求項23】

前記処理することは、発話圧縮またはオーディオ圧縮のうちの少なくとも１つを含む、請求項２０に記載のデジタルオーディオ信号を処理する方法。

【請求項24】

前記パラメータは、圧縮モード、出力ビットレート、または出力チャネルの数のうちの少なくとも１つを含む、請求項２３に記載のデジタルオーディオ信号を処理する方法。

【請求項25】

前記オーディオロギングを前記実行することは、
前記抽出された聴覚コンテキスト情報の少なくとも一部に基づいて、前記モバイルデバイス内のローカルメモリ、または、ワイヤレスチャネルを通じて前記モバイルデバイスに接続されるリモートメモリを選択することと、
前記選択されたメモリに、前記デジタルオーディオ信号に基づいたオーディオ信号を記憶することと、
を備える、請求項１に記載のデジタルオーディオ信号を処理する方法。

【請求項26】

前記イベント終了を前記検出することは、
前記抽出された聴覚コンテキスト情報から、少なくとも１つのコンテキスト情報を選択することと、
前記選択されたコンテキスト情報と、少なくとも１つの予め定められた閾値との比較に応答して、前記イベント終了が検出されたかどうかを判定することと、を備える、請求項１に記載のデジタルオーディオ信号を処理する方法。

【請求項27】

前記イベント終了を前記検出することは、予め定められた時間期間の間聴覚イベントが発生しなかったことに少なくとも一部基づく、請求項１に記載のデジタルオーディオ信号を処理する方法。

【請求項28】

前記イベント終了を前記検出することは、非聴覚情報に少なくとも一部基づき、前記非聴覚情報はスケジューリング情報またはカレンダー情報を備える、請求項１に記載のデジタルオーディオ信号を処理する方法。

【請求項29】

モバイルデバイスのためのデジタルオーディオ信号を処理するための装置であって、
音響信号を受信するように構成される少なくとも１つのマイクロフォンと、
前記受信された音響信号を前記デジタルオーディオ信号に変換するように構成される変換器と、
前記デジタルオーディオ信号から、聴覚コンテキスト情報を抽出するように構成されるコンテキスト識別器と、
前記抽出された聴覚コンテキスト情報の少なくとも一部に基づいてイベント開始を自動的に検出するように構成されるイベント開始マネジャと、
イベント終了を自動的に検出するように構成されるイベント終了マネジャと、
オーディオロギングプロセッサと、を備え、
前記オーディオロギングプロセッサは、前記イベント開始の前記検出に応答して、前記デジタルオーディオ信号のオーディオロギングを実行し、
前記イベント終了インジケータの前記検出に応答して、前記オーディオロギングを終了するように構成され、
ここにおいて、前記装置は、前記モバイルデバイスの一部であり、
前記オーディオロギングを前記実行することは、前記イベント開始を前記自動的に検出することより前に発生せず、
ここにおいて、（Ａ）前記オーディオロギングプロセッサのプロセッサと、（Ｂ）前記少なくとも１つのマイクロフォン中のマイクロフォンとのうちの少なくとも１つは、前記イベント開始を前記自動的に検出することより前に、間欠的に起動するように構成される、
装置。

【請求項30】

前記プロセッサは、前記デジタルオーディオ信号において聴覚アクティビティを検出するように構成される、請求項２９に記載のデジタルオーディオ信号を処理するための装置。

【請求項31】

前記モバイルデバイスは、音声通話に関与することができる携帯電話であり、
前記音響信号を前記受信する間、前記モバイルデバイスは、何れの音声通話にも関与しない、
請求項２９に記載のデジタルオーディオ信号を処理するための装置。

【請求項32】

前記抽出された聴覚コンテキスト情報は、オーディオの分類、キーワードの識別、または話者の識別のうちの少なくとも１つに関連する、請求項２９に記載のデジタルオーディオ信号を処理するための装置。

【請求項33】

前記イベント開始マネジャは、前記イベント開始を前記自動的に検出することより前に、前記デジタルオーディオ信号からの情報に基づいて、第１の開始インジケータをトリガするように構成され、
前記情報は、信号エネルギー、信号対雑音比、周期性、スペクトル傾斜、またはゼロクロッシング・レートのうちの１つに少なくとも一部基づく、請求項２９に記載のデジタルオーディオ信号を処理するための装置。

【請求項34】

前記少なくとも１つのマイクロフォン中の前記マイクロフォンまたは前記プロセッサを前記間欠的に起動することは、前記第１のイベント開始インジケータを前記トリガすることより前に発生する、請求項３３に記載のデジタルオーディオ信号を処理するための装置。

【請求項35】

前記装置は、前記第１のイベント開始インジケータを前記トリガすることに応答して、前記マイクロフォンのデューティーサイクルを増加させるように構成されるオーディオキャプチャユニットを備える、請求項３４に記載のデジタルオーディオ信号を処理するための装置。

【請求項36】

前記少なくとも１つのマイクロフォン中のアクティブなマイクロフォンの数は、前記受信することの間であり前記第１のイベント開始インジケータを前記トリガすることの前に、増加する、請求項３３に記載のデジタルオーディオ信号を処理するための装置。

【請求項37】

前記オーディオロギングプロセッサは、前記オーディオロギングを前記実行する間に、前記少なくとも１つのマイクロフォン中のアクティブなマイクロフォンの数を増加させることを備える、請求項２９に記載のデジタルオーディオ信号を処理するための装置。

【請求項38】

前記アクティブなマイクロフォンの数を前記増加させることは、前記受信された音響信号の非アクティブな部分の間に実行され、
聴覚コンテキスト情報を前記抽出することは、前記受信された音響信号のアクティブな部分の間に実行される、
請求項３７に記載のデジタルオーディオ信号を処理するための装置。

【請求項39】

前記オーディオロギングプロセッサは、
処理されたオーディオ信号を生成するために前記デジタルオーディオ信号を処理し、ここにおいて、前記処理は、増強および圧縮のうちの少なくとも１つを含む、
前記処理されたオーディオ信号をメモリ記憶装置に記憶する
ように構成され、
ここにおいて、増強および圧縮のうちの前記少なくとも１つは、（Ａ）前記デジタルオーディオ信号のコンテンツと、（Ｂ）前記抽出された聴覚コンテキスト情報の少なくとも一部とのうちの少なくとも１つに基づくパラメータの値に基づく、請求項２９に記載のデジタルオーディオ信号を処理するための装置。

【請求項40】

モバイルデバイスのためのデジタルオーディオ信号を処理するための装置であって、
少なくとも１つのマイクロフォンによって音響信号を受信するための手段と、
前記受信された音響信号を前記デジタルオーディオ信号に変換するための手段と、
前記デジタルオーディオ信号から、聴覚コンテキスト情報を抽出するための手段と、
前記抽出された聴覚コンテキスト情報の少なくとも一部に基づいて、イベント開始を自動的に検出するための手段と、
前記イベント開始の前記検出に応答して、前記デジタルオーディオ信号のオーディオロギングを実行するための手段と、
イベント終了を自動的に検出するための手段と、
前記イベント終了の前記検出に応答して、前記デジタルオーディオ信号の前記オーディオロギングを終了するための手段と、を備え、
ここにおいて、前記装置は、前記モバイルデバイスの一部であり、
前記オーディオロギングを前記実行することは、前記イベント開始を前記自動的に検出することより前に発生せず、
ここにおいて、（Ａ）前記装置のプロセッサと、（Ｂ）前記少なくとも１つのマイクロフォン中のマイクロフォンとのうちの少なくとも１つは、前記イベント開始を前記自動的に検出することより前に、間欠的に起動するように構成される、
装置。

【請求項41】

前記プロセッサは、前記デジタルオーディオ信号において聴覚アクティビティを検出するように構成される、請求項４０に記載のデジタルオーディオ信号を処理するための装置。

【請求項42】

前記抽出された聴覚コンテキスト情報は、オーディオの分類、キーワードの識別、または話者の識別のうちの少なくとも１つに関連する、請求項４０に記載のデジタルオーディオ信号を処理するための装置。

【請求項43】

前記装置は、前記イベント開始を前記自動的に検出することより前に、前記デジタルオーディオ信号からの情報に基づいて、第１の開始インジケータをトリガするための手段を備え、
前記情報は、信号エネルギー、信号対雑音比、周期性、スペクトル傾斜、またはゼロクロッシング・レートのうちの１つに少なくとも一部基づく、請求項４０に記載のデジタルオーディオ信号を処理するための装置。

【請求項44】

前記少なくとも１つのマイクロフォン中の前記マイクロフォンまたは前記プロセッサを前記間欠的に起動することは、前記第１のイベント開始インジケータを前記トリガすることより前に発生する、請求項４３に記載のデジタルオーディオ信号を処理するための装置。

【請求項45】

前記装置は、前記第１のイベント開始インジケータを前記トリガすることに応答して、前記マイクロフォンのデューティーサイクルを増加させるための手段を備える、請求項４４に記載のデジタルオーディオ信号を処理するための装置。

【請求項46】

前記少なくとも１つのマイクロフォン中のアクティブなマイクロフォンの数は、前記受信することの間であり前記第１のイベント開始インジケータを前記トリガすることの前に、増加する、請求項４３に記載のデジタルオーディオ信号を処理するための装置。

【請求項47】

前記装置は、前記オーディオロギングを前記実行する間に、前記少なくとも１つのマイクロフォン中のアクティブなマイクロフォンの数を増加させるための手段を備える、請求項４０に記載のデジタルオーディオ信号を処理するための装置。

【請求項48】

前記アクティブなマイクロフォンの数を前記増加させることは、前記受信された音響信号の非アクティブな部分の間に実行され、
聴覚コンテキスト情報を前記抽出することは、前記受信された音響信号のアクティブな部分の間に実行される、
請求項４７に記載のデジタルオーディオ信号を処理するための装置。

【請求項49】

デジタルオーディオ信号を処理するための命令を備える非一時的なコンピュータ可読媒体であって、前記命令は、モバイルデバイスのプロセッサによって実行されたとき、前記プロセッサに、
前記モバイルデバイスの少なくとも１つのマイクロフォンによって受信された音響信号を変換した結果であるデジタルオーディオ信号を受信させ、
前記デジタルオーディオ信号から、聴覚コンテキスト情報を抽出させ、
前記抽出された聴覚コンテキスト情報の少なくとも一部に基づいて、イベント開始を自動的に検出させ、
前記イベント開始を前記自動的に検出させることより前に、前記少なくとも１つのマイクロフォン中のマイクロフォンまたは前記モバイルデバイスの別のプロセッサを間欠的に起動させ、
前記イベント開始の前記検出に応答して、前記デジタルオーディオ信号のオーディオロギングを実行させ、
イベント終了を自動的に検出させ、
前記イベント終了の前記検出に応答して、前記オーディオロギングを終了させ、
ここにおいて、前記オーディオロギングを前記実行させることは、前記イベント開始を前記自動的に検出させることより前に発生しない、
コンピュータ可読媒体。

【請求項50】

前記モバイルデバイスの前記別のプロセッサは、前記デジタルオーディオ信号において聴覚アクティビティを検出するように構成される、請求項４９に記載のコンピュータ可読媒体。

【請求項51】

前記抽出された聴覚コンテキスト情報は、オーディオの分類、キーワードの識別、または話者の識別のうちの少なくとも１つに関連する、請求項４９に記載のコンピュータ可読媒体。

【請求項52】

前記命令は、前記プロセッサによって実行されたとき、前記プロセッサに、前記イベント開始を前記自動的に検出させることより前に、前記デジタルオーディオ信号からの情報に基づいて、第１の開始インジケータをトリガさせ、
前記情報は、信号エネルギー、信号対雑音比、周期性、スペクトル傾斜、またはゼロクロッシング・レートのうちの１つに少なくとも一部基づく、請求項５１に記載のコンピュータ可読媒体。

【請求項53】

前記少なくとも１つのマイクロフォン中の前記マイクロフォンまたは前記モバイルデバイスの別のプロセッサを前記間欠的に起動させることは、前記第１のイベント開始インジケータを前記トリガさせることより前に発生する、請求項５２に記載のコンピュータ可読媒体。

【請求項54】

前記命令は、前記プロセッサによって実行されたとき、前記プロセッサに、前記第１のイベント開始インジケータを前記トリガさせることに応答して、前記マイクロフォンのデューティーサイクルを増加させる、請求項５３に記載のコンピュータ可読媒体。

【請求項55】

前記命令は、前記プロセッサによって実行されたとき、前記プロセッサに、前記オーディオロギングを前記実行させている間に、前記少なくとも１つのマイクロフォン中のアクティブなマイクロフォンの数を増加させる、請求項４９に記載のコンピュータ可読媒体。

【請求項56】

前記アクティブなマイクロフォンの数を前記増加させることは、前記受信された音響信号の非アクティブな部分の間に実行され、
聴覚コンテキスト情報を前記抽出させることは、前記受信された音響信号のアクティブな部分の間に実行される、
請求項５５に記載のコンピュータ可読媒体。

【発明の詳細な説明】

【優先権の主張】

【0001】

関連出願
本出願の譲受人に譲渡され、参照により本明細書に明確に組み込まれる、２０１０年４月８日に出願された「ＳＭＡＲＴＡＵＤＩＯＬＯＧＧＩＮＧ」と題する米国特許仮出願第６１／３２２，１７６号の優先権が主張される。

【技術分野】

【0002】

本開示は全般に、オーディオ信号および発話信号のキャプチャに関する。より具体的には、本開示は、オーディオコンテキスト情報の分析に基づいて、オーディオ信号および発話信号のキャプチャ動作または代替的にはロギング動作を、開始および／または終了できるモバイルデバイスに関する。

【背景技術】

【0003】

特定用途向け集積回路（ＡＳＩＣ）における電力制御技術と、デジタルシグナルプロセッサ（ＤＳＰ）またはマイクロプロセッサのようなモバイルプロセッサの計算能力の向上によって、最近までは必要な計算能力またはハードウェア（ＨＷ）のサポートの不足によって不可能であると見られていたはるかに複雑な機能を、現在ではさらに多くのモバイルデバイスが実現できる。たとえば、移動局（ＭＳ）または携帯電話は、最初は、従来の回線ベースのワイヤレスセルラーネットワークを通じて、音声または発話の通信を可能にするように開発された。したがって、ＭＳは元々、音声圧縮、音響エコー除去（ＡＥＣ：acoustic echo cancellation）、ノイズ抑制（ＮＳ：noise suppression）、および音声記録のような、基本的な音声用途に対処するように設計された。

【0004】

音声圧縮アルゴリズムを実施する処理はボコーディングとして知られ、実施する装置はボコーダまたは「スピーチコーダ」として知られる。発話の通信を必要とする様々なデジタル通信システムをサポートする、いくつかの標準化されたボコーディングアルゴリズムが存在する。第３世代パートナーシッププロジェクト２（３ＧＰＰ２）は、ＩＳ−９５、ＣＤＭＡ２０００１ｘＲａｄｉｏＴｒａｎｓｍｉｓｓｉｏｎＴｅｃｈｎｏｌｏｇｙ（１ｘＲＴＴ）、およびＣＤＭＡ２０００Ｅｖｏｌｕｔｉｏｎ−ＤａｔａＯｐｔｉｍｉｚｅｄ（ＥＶ−ＤＯ）通信システムのような、符号分割多元接続（ＣＤＭＡ）技術を規定する、例示的な標準化団体である。第３世代パートナーシッププロジェクト（３ＧＰＰ）（登録商標）は、ＧｌｏｂａｌＳｙｓｔｅｍｆｏｒＭｏｂｉｌｅＣｏｍｍｕｎｉｃａｔｉｏｎｓ（ＧＳＭ）（登録商標）、ＵｎｉｖｅｒｓａｌＭｏｂｉｌｅＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＳｙｓｔｅｍ（ＵＭＴＳ）、Ｈｉｇｈ−ＳｐｅｅｄＤｏｗｎｌｉｎｋＰａｃｋｅｔＡｃｃｅｓｓ（ＨＳＤＰＡ）、Ｈｉｇｈ−ＳｐｅｅｄＵｐｌｉｎｋＰａｃｋｅｔＡｃｃｅｓｓ（ＨＳＵＰＡ）、Ｈｉｇｈ−ＳｐｅｅｄＰａｃｋｅｔＡｃｃｅｓｓＥｖｏｌｕｔｉｏｎ（ＨＳＰＡ＋）、およびＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ（ＬＴＥ）（登録商標）を規定する、別の例示的な標準化団体である。ＶｏｉｃｅｏｖｅｒＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ（ＶＯＩＰ）は、３ＧＰＰおよび３ＧＰＰ２などで定義された通信システムにおいて使用される例示的なプロトコルである。そのような通信システムおよびプロトコルにおいて採用されるボコーダの例には、ＩｎｔｅｒｎａｔｉｏｎａｌＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＵｎｉｏｎ（ＩＴＵ）−ＴＧ．７２９、ＡｄａｐｔｉｖｅＭｕｌｔｉ−Ｒａｔｅ（ＡＭＲ）ｃｏｄｅｃ、およびＥｎｈａｎｃｅｄＶａｒｉａｂｌｅＲａｔｅＣｏｄｅｃ（ＥＶＲＣ）ｓｐｅｅｃｈｓｅｒｖｉｃｅｏｐｔｉｏｎｓ３、６８および７０がある。

【0005】

音声記録は、人の声を録音するための適用例である。音声記録は、互換的に、音声ロギングまたは音声メモリと呼ばれることがよくある。音声記録は、１つまたは複数のマイクロフォンによって捉えられた発話信号の一部を、ユーザがメモリ空間に保存できるようにする。保存された音声記録は、同じデバイスで後で再生することができ、または、音声通信システムを通じて異なるデバイスに送信することができる。音声レコーダは何らかの音楽信号を記録できるが、音声レコーダは、人の声道によって発せられる発話の特性に最適化されているので、録音された音楽の品質は通常は優れてはいない。

【0006】

オーディオ記録またはオーディオロギングは、音声記録と互換的に用いられることがあるが、人の声道によって生成される信号よりも高周波の信号を捉える能力によって、人の声と、楽器と、音楽とを含むあらゆる可聴の音を記録するための、異なる適用例として理解されることがある。本出願の文脈では、「オーディオロギング」または「オーディオ記録」という用語は、音声記録またはオーディオ記録を指すために広く用いられる。

【0007】

オーディオロギングは、１つまたは複数のマイクロフォンによって通常捉えられる、関心のあるオーディオ信号のすべてまたは一部を、１つまたは複数のモバイルデバイスに記録することを可能にする。オーディオロギングは、互換的に、オーディオ記録またはオーディオメモと呼ばれることがある。

【発明の概要】

【0008】

本明細書は、デジタルオーディオ信号を処理する、モバイルデバイスのための方法を説明する。この方法は、少なくとも１つのマイクロフォンによって音響信号を受信するステップと、受信された音響信号をデジタルオーディオ信号に変換するステップと、デジタルオーディオ信号から少なくとも１つの聴覚コンテキスト情報を抽出するステップと、イベント開始インジケータを自動的に検出したことに応答して、デジタルオーディオ信号のオーディオロギングを実行するステップと、イベント終了インジケータを自動的に検出したことに応答して、オーディオロギングを終了するステップとを含む。この少なくとも１つの聴覚コンテキスト情報は、オーディオの分類、キーワードの識別、または話者の識別に関連し得る。この少なくとも１つの聴覚コンテキスト情報は、信号エネルギー、信号対雑音比、スペクトル傾斜、またはゼロクロッシング・レート（ゼロ交差レートzero-crossing rate）に少なくとも一部基づき得る。この少なくとも１つの聴覚コンテキスト情報は、スケジューリング情報またはカレンダー情報のような、非聴覚情報に少なくとも一部基づき得る。本明細書はまた、本方法に関係する装置と、手段の組合せと、コンピュータ可読媒体とを説明する。

【0009】

本明細書は、デジタルオーディオ信号を処理する、モバイルデバイスのための方法も説明する。この方法は、少なくとも１つのマイクロフォンによって音響信号を受信するステップと、受信された音響信号を電気信号に変換するステップと、各々のサンプリングされるデータのサンプリング周波数およびデータ幅に基づいて電気信号をサンプリングして、デジタルオーディオ信号を得るステップと、デジタルオーディオ信号をバッファに記憶するステップと、デジタルオーディオ信号から少なくとも１つの聴覚コンテキスト情報を抽出するステップと、イベント開始インジケータを自動的に検出したことに応答して、デジタルオーディオ信号のオーディオロギングを実行するステップと、イベント終了インジケータを自動的に検出したことに応答して、オーディオロギングを終了するステップとを含む。イベント開始インジケータまたはイベント終了インジケータのこの検出は、スケジューリング情報またはカレンダー情報のような、非聴覚情報に少なくとも一部基づき得る。本明細書はまた、本方法に関係する装置と、手段の組合せと、コンピュータ可読媒体とを説明する。

【0010】

本明細書はまた、イベント開始インジケータを検出する方法を説明する。この方法は、少なくとも１つの聴覚コンテキスト情報から少なくとも１つのコンテキスト情報を選択するステップと、選択されたコンテキスト情報を少なくとも１つの予め定められた閾値と比較するステップと、選択されたコンテキスト情報と少なくとも１つの予め定められた閾値との比較に基づいて、イベント開始インジケータが検出されたかどうか判定するステップとを含む。本明細書はまた、本方法に関係する装置と、手段の組合せと、コンピュータ可読媒体とを説明する。

【0011】

本明細書はまた、イベント終了インジケータを検出する方法を説明する。この方法は、少なくとも１つの聴覚コンテキスト情報から少なくとも１つのコンテキスト情報を選択するステップと、選択されたコンテキスト情報を少なくとも１つの予め定められた閾値と比較するステップと、選択されたコンテキスト情報と少なくとも１つの予め定められた閾値との比較に基づいて、イベント終了インジケータが検出されたかどうか判定するステップとを含む。イベント終了インジケータのこの検出は、予め定められた期間に、聴覚イベントが発生しないことに少なくとも一部基づき得る。本明細書はまた、本方法に関係する装置と、手段の組合せと、コンピュータ可読媒体とを説明する。

【0012】

本明細書はまた、オーディオロギングを実行する方法を説明する。この方法は、少なくとも１つの聴覚コンテキスト情報に少なくとも一部基づいて追加の処理が必要かどうかを判定したことに応答して、少なくとも１つの聴覚コンテキスト情報に少なくとも一部基づく変換に関連する少なくとも１つのパラメータを更新するステップと、デジタルオーディオ信号に対して追加の処理を適用して処理されたオーディオ信号を得るステップと、処理されたオーディオ信号をメモリ記憶装置に記憶するステップとを含む。追加の処理は、音響エコー除去（ＡＥＣ）、音声増強の受信（ＲＶＥ：receiving voice enhancement）、アクティブなノイズ除去（ＡＮＣ：active noise cancellation）、ノイズ抑制（ＮＳ）、音響利得制御（ＡＧＣ：acoustic gain control）、音量制御（ＡＶＣ：acoustic volume control）、または音響ダイナミックレンジ制御（ＡＤＲＣ：acoustic dynamic range control）のような、信号増強処理であってよい。ノイズ抑制は、単一のマイクロフォンまたは複数のマイクロフォンに基づく方法に、基づき得る。追加の処理は、発話圧縮または音声圧縮のような、信号圧縮処理であってよい。圧縮モード、ビットレート、またはチャネル数のような圧縮パラメータは、聴覚コンテキスト情報に基づいて決定され得る。メモリ記憶装置は、モバイルデバイスの内部のローカルメモリ、またはワイヤレスチャネルを通じてモバイルデバイスに接続されるリモートメモリを含む。ローカルメモリとリモートメモリの選択は、聴覚コンテキスト情報に少なくとも一部基づき得る。本明細書はまた、本方法に関係する装置と、手段の組合せと、コンピュータ可読媒体とを説明する。

【0013】

本明細書はまた、イベント開始インジケータを自動的に検出するステップと、イベント開始インジケータの検出に応答して、オーディオ入力信号の第１の部分を処理して第１の情報を得るステップと、第１の情報に基づいて少なくとも１つの記録パラメータを決定するステップと、決定された少なくとも１つの記録パラメータに基づいて、モバイルデバイスのオーディオキャプチャユニットを再構成するステップとを含む、モバイルデバイスのための方法を説明する。この再構成するステップは、オーディオ入力信号の非アクティブな部分の間に行なわれ得る。この少なくとも１つの記録パラメータは、モバイルデバイスのＡ／Ｄコンバータのサンプリング周波数またはデータ幅を示す情報を含む。この少なくとも１つの記録パラメータは、モバイルデバイスのアクティブなマイクロフォンの数を示す情報、または、少なくとも１つのマイクロフォンの起動間隔またはアクティブ期間を示すタイミング情報を含む。この第１の情報は、モバイルデバイスが記録を行なっている環境、またはオーディオ入力信号の特性を表す、コンテキスト情報であってよい。このイベント開始インジケータは、ワイヤレスチャネルを通じて送信される信号に基づき得る。本明細書はまた、本方法に関係する装置と、手段の組合せと、コンピュータ可読媒体とを説明する。

【0014】

本明細書はまた、イベント開始インジケータを自動的に検出するステップと、イベント開始インジケータの検出に応答して、オーディオ入力信号の第１の部分を処理して第１の情報を得るステップと、第１の情報に基づいて少なくとも１つの記録パラメータを決定するステップと、決定された少なくとも１つの記録パラメータに基づいて、モバイルデバイスのオーディオキャプチャユニットを再構成するステップと、オーディオ入力信号の第２の部分を処理して第２の情報を得るステップと、バックグラウンドノイズを抑制することによってオーディオ入力信号を増強して増強された信号を得るステップと、増強された信号を符号化して符号化された信号を得るステップと、モバイルデバイス内のローカルの記憶装置に符号化された信号を記憶するステップとを含む、モバイルデバイスのための方法を説明する。増強された信号を符号化するこのステップは、第２の情報に基づいて符号化タイプを決定するステップと、決定された符号化のための少なくとも１つの符号化パラメータを決定するステップと、決定された符号化タイプと決定された少なくとも１つの符号化パラメータとに基づいて増強された信号を処理して、符号化された信号を得るステップとを含む。本明細書においてこの少なくとも１つの符号化パラメータは、ビットレートまたは符号化モードを含む。加えて、この方法は、第２の情報に基づいて、オーディオ入力信号の増強の度合いを決定するステップを含み得る。本明細書はまた、本方法に関係する装置と、手段の組合せと、コンピュータ可読媒体とを説明する。

【0015】

本明細書はまた、イベント開始インジケータを自動的に検出するステップと、イベント開始インジケータの検出に応答して、オーディオ入力信号の第１の部分を処理して第１の情報を得るステップと、第１の情報に基づいて少なくとも１つの記録パラメータを決定するステップと、決定された少なくとも１つの記録パラメータに基づいて、モバイルデバイスのオーディオキャプチャユニットを再構成するステップと、オーディオ入力信号の第２の部分を処理して第２の情報を得るステップと、バックグラウンドノイズを抑制することによってオーディオ入力信号を増強して増強された信号を得るステップと、増強された信号を符号化して符号化された信号を得るステップと、モバイルデバイス内のローカルの記憶装置に符号化された信号を記憶するステップとを含む、モバイルデバイスのための方法を説明する。加えて、この方法は、イベント終了インジケータを自動的に検出するステップと、イベント終了インジケータを検出したことに応答して、モバイルデバイス内のローカルの記憶装置と、ワイヤレスチャネルを通じてモバイルデバイスに接続されるネットワーク記憶装置から、符号化された信号のための長期記憶装置の位置を決定するステップとを含み得る。長期記憶装置の位置のこの決定は、符号化された信号の優先度に基づき得る。本明細書はまた、本方法に関係する装置と、手段の組合せと、コンピュータ可読媒体とを説明する。

【0016】

本明細書で説明する実施形態の態様および付随する利点は、添付の図面とともに以下の詳細な説明を参照すればより容易に明らかになろう。

【図面の簡単な説明】

【0017】

【図1A】スマートオーディオロギングシステムの概念を示す図。

【図1B】スマートオーディオロギングシステムの概念を示す別の図。

【図1C】従来のオーディオロギングシステムの概念を示す図。

【図2】スマートオーディオロギングシステムの例示的な実施形態の図。

【図3】出力処理ユニット２４０の実施形態の図。

【図4】入力処理ユニット２５０の実施形態の図。

【図5】オーディオロギングプロセッサ２３０の実施形態の図。

【図6】コンテキスト情報Ｓ６００の例を示す図。

【図7】コンテキスト識別器５６０の実施形態の図。

【図8】コンテキスト識別器５６０およびコンテキスト情報Ｓ６００の例示的な実施形態の図。

【図9A】単一レベルのイベント開始インジケータの発生機構の実施形態の図。

【図9B】単一レベルのイベント開始インジケータの発生機構の別の実施形態の図。

【図10】イベント終了インジケータの発生機構の実施形態の図。

【図11】オーディオロギングプロセッサ２３０の状態と状態の遷移とを示す第１の例示的な実施形態の図。

【図12】オーディオロギングプロセッサ２３０の状態と状態の遷移とを示す第２の例示的な実施形態の図。

【図13】パッシブ（passive）オーディオ監視状態Ｓ１またはオーディオ監視状態Ｓ４の間の、オーディオキャプチャユニット２１５の実施形態の流れ図。

【図14】パッシブオーディオ監視状態Ｓ１またはオーディオ監視状態Ｓ４の間に、オーディオキャプチャユニット２１５においてデジタルオーディオ入力をバッファ２２０に記憶するための例の図。

【図15】パッシブオーディオ監視状態Ｓ１の間の、オーディオロギングプロセッサ２３０の実施形態の流れ図。

【図16】アクティブオーディオ監視状態Ｓ２の間の、オーディオキャプチャユニット２１５の実施形態の流れ図。

【図17】アクティブオーディオ監視状態Ｓ２の間に、オーディオキャプチャユニット２１５においてデジタルオーディオ入力をバッファ２２０に記憶するための例の図。

【図18】アクティブオーディオ監視状態Ｓ２の間の、オーディオロギングプロセッサ２３０の実施形態の流れ図。

【図19】アクティブオーディオ監視状態Ｓ２の間の、オーディオロギングプロセッサ２３０におけるコンテキスト識別の実施形態の例の図。

【図20】アクティブオーディオロギング状態Ｓ３またはＳ５の間の、オーディオキャプチャユニット２１５の実施形態の流れ図。

【図21】アクティブオーディオロギング状態Ｓ３の間の、オーディオロギングプロセッサ２３０の実施形態の流れ図。

【図22】オーディオ監視状態Ｓ４の間の、オーディオロギングプロセッサ２３０の実施形態の流れ図。

【図23】アクティブオーディオロギング状態Ｓ５の間の、オーディオロギングプロセッサ２３０の実施形態の流れ図。

【図24】アクティブオーディオロギング状態Ｓ３またはＳ５の間の、コアオーディオロギングモジュールの実施形態の流れ図。

【図25】単一のマイクロフォンのオンおよびオフの制御の実施形態の図。

【図26】単一のマイクロフォンのオンおよびオフの制御の第１の実施形態の図。

【図27】単一のマイクロフォンのオンおよびオフの制御の第２の実施形態の図。

【図28】複数のマイクロフォンのオンおよびオフの制御の第１の実施形態の図。

【図29】複数のマイクロフォンのオンおよびオフの制御の第２の実施形態の図。

【図30】アクティブなマイクロフォンの数の制御の実施形態の図。

【図31】事前に定められたコンテキスト情報Ｓ６００の優先度に従って選択が制御され得る、記憶装置の位置の選択の実施形態の図。

【図32】アクティブオーディオロギング状態Ｓ３またはＳ５の間に、コンテキスト情報Ｓ６００の優先度に従って選択が動的に制御され得る、記憶装置の位置の選択の実施形態の図。

【図33】事前に定められたコンテキスト情報Ｓ６００の優先度に従って期限切れが制御され得る、記憶装置の期限切れ時間の設定の実施形態の図。

【図34】アクティブなブロックの数およびその全体の消費電力が各状態に従って動的に制御され得る、スマートオーディオロギングシステム内のブロックの段階的な起動の実施形態の図。

【図35】精度が、各々の事前に決定された状態にふさわしいように構成され得る、または、コンテキスト情報Ｓ６００に従って動的に制御され得る、Ａ／Ｄコンバータの精度制御の実施形態の図。

【図36】増強が、コンテキスト情報Ｓ６００に従って動的に構成され得る、オーディオ入力信号の増強制御の実施形態の図。

【図37】圧縮が、コンテキスト情報Ｓ６００に従って動的に構成され得る、オーディオ圧縮パラメータの制御の実施形態の図。

【図38】圧縮符号化フォーマットの選択またはその選択の欠如が、コンテキスト情報Ｓ６００に従って動的に構成され得る、圧縮符号化フォーマットの選択の実施形態の図。

【発明を実施するための形態】

【0018】

本出願は、添付の図面を参照することでより理解されるだろう。

【0019】

文脈から明確に限定されない限り、「信号」という用語は、本明細書では、ワイヤ、バス、または他の伝送媒体上で表されるようなメモリの位置（またはメモリの位置のセット）の状態を含む、その通常の意味のいずれをも示すために使用される。文脈から明確に限定されない限り、「発生（generating）」という用語は、本明細書では、計算（computing）または別様の生成（producing）など、その通常の意味のいずれをも示すために使用される。文脈から明確に限定されない限り、「計算」という用語は、本明細書では、値のセットから計算すること、評価すること、および／または選択することなど、その通常の意味のいずれをも示すために使用される。文脈にから明確に限定されない限り、「得る（obtaining）」という用語は、計算、導出、（たとえば、外部デバイスからの）受信、および／または（たとえば、記憶要素のアレイからの）取り出しなど、その通常の意味のいずれをも示すために使用される。「備える（comprising）」という用語は、本明細書および特許請求の範囲において使用される場合、他の要素または動作を除外するものではない。「に基づく」（「ＡはＢに基づく」など）という用語は、（ｉ）「少なくとも〜に基づく」（たとえば、「Ａは少なくともＢに基づく」）という場合、および、適切であれば特定の文脈においては、（ｉｉ）「と等しい」（たとえば、「ＡはＢと等しい」）という場合を含む、その通常の意味のいずれをも示すために使用される。

【0020】

別段示されない限り、特定の特徴を有する装置の動作の任意の開示は、類似の特徴を有する方法を開示する（その逆も同様）ことをも明確に意図し、特定の構成による装置の動作の任意の開示は、類似の構成による方法を開示する（その逆も同様）ことをも明確に意図する。別段示されない限り、「コンテキスト（context）」（または「オーディオコンテキスト」）という用語は、オーディオまたは発話の構成要素を示すために使用され、話者の周囲の環境からの情報を伝え、「ノイズ」という用語は、オーディオ信号または発話信号の中の、任意の他のアーチファクト(artifact)を示すために使用される。

【0021】

図１Ａは、スマートオーディオロギングシステムの概念を示す図である。モバイルデバイスの１つまたは複数のマイクロフォンは、モバイルデバイスがアイドルモードにあるときに、連続的または周期的に音響信号を受信するように構成され得る。受信された音響信号は、アナログデジタル（Ａ／Ｄ）コンバータによって、デジタルオーディオ信号に変換され得る。この変換は、一般にはアナログ形式または連続的な形式で、受信された音響信号を電気信号に変換して、その電気信号をサンプリングまたは量子化して、デジタルオーディオ信号を生成することを含み得る。デジタルオーディオ信号の数およびサイズは、各デジタルオーディオサンプルのサンプリング周波数およびデータ幅に依存し得る。このデジタルオーディオ信号は、メモリまたはバッファに一時的に記憶されるように構成され得る。このデジタルオーディオ信号は、意味のある情報を抽出するように処理され得る。この情報は一般に、「コンテキスト情報Ｓ６００」または互換的に「聴覚コンテキスト情報」と呼ばれる。コンテキスト情報は、モバイルデバイスが記録を行なっている環境についての情報と、少なくとも１つのマイクロフォンによって受信されるオーディオ入力信号の特性とを含み得る。コンテキスト情報Ｓ６００の詳細な説明は、以下の開示で提示される。

【0022】

スマートオーディオロギングシステムは、オーディオロギングのスマートな開始１１５またはスマートな終了１５０を実行するように構成され得る。ユーザが手動でオーディオ信号の記録を開始または終了する、従来のオーディオロギングシステムと比較して、スマートオーディオロギングシステムは、イベント開始インジケータまたはイベント終了インジケータを自動的に検出することによって、オーディオロギングを開始または終了するように構成され得る。これらのインジケータは、オーディオ信号、モバイルデバイス内に位置する、もしくは、有線ネットワーク接続もしくはワイヤレスネットワーク接続を通じてモバイルデバイスに接続されているデータベース、非音響センサ、またはさらに、他のスマートオーディオロギングデバイスからのシグナリングから導出される、コンテキスト情報に基づき得る。あるいは、これらのインジケータは、ユーザの音声命令またはキー命令をも含むように構成され得る。一実施形態では、イベント終了インジケータは、予め定められた期間に、聴覚イベントが発生しないことに少なくとも一部基づくように構成され得る。イベント開始インジケータおよびイベント終了インジケータの検出は、少なくとも１つの聴覚コンテキスト情報の中から少なくとも１つの特定のコンテキスト情報を選択するステップと、選択されたコンテキスト情報を少なくとも１つの予め定められた閾値と比較するステップと、比較に基づいてイベント開始インジケータまたはイベント終了インジケータが検出されたかどうかを判定するステップとを含み得る。

【0023】

スマートオーディオロギングシステムは、いくつかのスマートサブブロックを、または互換的に、少なくとも１つの聴覚コンテキスト情報に少なくとも一部基づくスマート構成ブロックを含むように、構成され得る。スマート構成ブロックは、構成モードまたは動作モードが事前に決定され得る、または動作中に静的に決定され得る、従来のオーディオロギングとは対照的に、オーディオロギング処理の間に固有の動作モードまたは機能パラメータを動的に構成する能力によって、特徴付けられ得る。

【0024】

たとえば、スマートオーディオロギングの一実施形態では、図１Ａのスマートマイクロフォン制御ブロック１２０が、コンテキスト情報Ｓ６００に基づいて、オーディオロギング処理の間に、アクティブなマイクロフォンの数または少なくとも１つのマイクロフォンのオン／オフタイミング制御を動的に調整するように構成され得る。別の実施形態では、図１ＡのスマートＡ／Ｄコンバータブロック１２５は、コンテキスト情報Ｓ６００に基づいて、固有の動作パラメータを動的に調整するように構成され得る。そのようなパラメータは、コンテキスト情報Ｓ６００に基づく、少なくとも１つのマイクロフォンからキャプチャされたオーディオ信号のサンプリング周波数、またはキャプチャされたデジタルオーディオサンプルのデータ幅を含み得る。これらのパラメータの選択は、記録されるオーディオロギングの品質またはサイズに影響を与えるので、これらのパラメータは「記録パラメータ」と呼ばれ得る。これらのパラメータは、オーディオ入力信号の非アクティブな部分の間に、オーディオ品質に与える影響を最小化するように、再構成されまたは切り替えられるように構成され得る。オーディオ入力信号の非アクティブな部分は、何らかのレベルの最小のオーディオアクティビティを依然として含み得る。しかし一般には、「非アクティブな部分」は、オーディオ入力信号の非アクティブな部分とともに、比較的アクティブではない部分も意味する。

【0025】

別の実施形態では、図１Ａのスマートオーディオ増強ブロック１３０は、オーディオ信号の増強が必要かどうか、および必要な場合、どのようなタイプの信号増強が実行されるべきであるかを、コンテキスト情報Ｓ６００に基づいて動的に選択するように構成され得る。スマートオーディオ増強ブロック１３０は、コンテキスト情報Ｓ６００に基づいて、たとえば強力な増強または強力ではない増強のような、信号増強のレベルの度合いを選択するように構成され得る。信号増強は、単一のマイクロフォンまたは複数のマイクロフォンに基づくように構成され得る。図１Ａのスマートオーディオ圧縮ブロック１３５は、コンテキスト情報Ｓ６００に基づいて、圧縮モード、ビットレート、またはオーディオ／発話チャネルの数のような、用いられるべき符号化フォーマットのタイプまたはその符号化パラメータを動的に選択するように構成され得る。スマートサブブロックの動的な構成の機構のより詳細な説明および例が、後で提示される。図１Ａの記憶ブロック１４５へのスマートなオーディオの保存は、キャプチャされたオーディオロギングがコンテキスト情報Ｓ６００に基づいて記憶される位置を選択するように、構成され得る。この選択は、モバイルデバイスのローカルメモリと、有線チャネルまたはワイヤレスチャネルを通じてモバイルデバイスに接続されるリモートメモリとの間で行なわれ得る。記憶ブロック１４５へのスマートなオーディオの保存は、オーディオロギングの処理の間に、デフォルトでローカルメモリにデジタルオーディオ信号を保存し、次いで、ローカルの記憶装置とネットワーク記憶装置から、長期記憶装置の位置を決定するように構成され得る。

【0026】

図１Ａで開示される、スマート構成ブロック１２０、１２５、１３０、１３５、１４５およびその順序は、単に例示を目的としたものであることに留意すべきであり、したがって、本出願の範囲内で、構成ブロックの一部は順序を変えられ、組み合わされ、またはさらには全体もしくは一部が省略されてもよいことが、当業者には明白であろう。たとえば、本出願による一実施形態では、スマートオーディオ増強ブロック１３０は、省略されてもよく、または、コンテキスト情報Ｓ６００に従って固有の動作モードを動的に再構成することができない、従来のオーディオ増強ブロックによって置き換えられてもよい。同様に、スマートオーディオ圧縮ブロック１３５は、省略されてもよく、または従来のオーディオ圧縮によって置き換えられてもよい。

【0027】

スマートオーディオロギングシステムはまた、図１Ｂで提示されたような、既存の従来のオーディオロギングシステムのいくつかと、スマート構成ブロックとロギングのスマートな開始／終了の機構のいずれかのいくつかとの組合せを用いるように構成され得る、システムも指し得る。対照的に、図１Ｃは、オーディオロギングのスマートな開始／終了の機構も、スマート構成ブロックも全く含まれない、従来のオーディオロギングシステムの概念を示す図である。

【0028】

図１Ｂは、スマートオーディオロギングシステムの、３つの異なる例示的かつ概念的な構成を示す。構成１は、オーディオロギングのスマートな開始／終了の機構１６５とスマート構成ブロック１７５の両方が実装される、システムを提示する。したがって、構成１のシステムは、最も進んだスマートオーディオロギングシステムと見なされる。構成２は、構成１のオーディオロギングのスマートな開始／終了の機構１６５を、オーディオロギングの従来の開始／終了の機構１６０と置き換えるように構成され得るシステムを示す。ある代替的な構成では、構成３は、構成１のスマート構成ブロック１７５を、従来の構成ブロック１７０と置き換えるように構成され得るシステムを示す。

【0029】

図２は、スマートオーディオロギングシステムの例示的な実施形態である。マイクロフォンユニット２００とＡ／Ｄコンバータ２１０とを備えるオーディオキャプチャユニット２１５は、スマートオーディオロギングシステムのフロントエンドである。マイクロフォンユニット２００は、音響オーディオ信号を捉えまたは受信し、その信号を電気信号に変換するように構成され得る、少なくとも１つのマイクロフォンを備える。Ａ／Ｄコンバータ２１０は、オーディオ信号を離散的なデジタル信号に変換する。別の実施形態では、マイクロフォンユニット２００の中の少なくとも１つのマイクロフォンは、デジタルマイクロフォンであってよい。そのような場合、Ａ／Ｄ変換のステップは、省略されるように構成され得る。

【0030】

聴覚イベントＳ２１０は、オーディオ信号を全般に、または、ユーザが関心のあるオーディオ信号を特に指す。たとえば、聴覚イベントＳ２１０は、限定はされないが、発話信号、音楽、特定のバックグラウンドノイズ特性、または特定のキーワードの存在を含み得る。聴覚イベントＳ２１０は、当技術分野では「聴覚シーンauditory scene」と呼ばれることがある。

【0031】

オーディオキャプチャユニット２１５は、少なくとも１つのマイクロフォンまたは少なくとも１つのＡ／Ｄコンバータを含み得る。少なくとも１つのマクロフォンまたは少なくとも１つのＡ／Ｄコンバータは、従来のオーディオロギングシステムの一部であった可能性があるが、モバイルデバイスをアクティブに使用する間だけ起動することができる。たとえば、従来のシステムの従来のオーディオキャプチャユニットは、電話をかけるまたは受けるというユーザの選択に応答して、または、映像記録開始ボタンを押したことに応答して、音声通話全体または映像記録全体の間だけ起動するように構成され得る。

【0032】

しかし、本出願では、オーディオキャプチャユニット２１５は、音声通話の間、または少なくとも１つのマイクロフォンのアクティブな使用を必要とし得る任意の他のアプリケーションを実行する間に加えて、モバイルデバイスのアイドルモードの間でも、断続的に始動または起動するように構成され得る。オーディオキャプチャユニット２１５は、起動した状態を保ち、連続的にオーディオ信号を捉えるようにも構成され得る。この手法は、「常時オン」と呼ばれ得る。捉えられたオーディオ信号Ｓ２６０は、離散形式でバッファ２２０に記憶されるように構成され得る。

【0033】

別段規定されない限り、本明細書で説明されるモバイルデバイスの「アイドルモード」は一般に、モバイルデバイスがユーザの手動入力に応答してアプリケーションを何らアクティブに動作させていない状態を指す。たとえば、通常のモバイルデバイスは、ユーザの選択なしでも、１つまたは複数の基地局へ、かつそこから、周期的に信号を送信または受信する。このタイプの動作を実行しているモバイルデバイスの状態は、本出願の範囲内ではアイドルモードであると見なされる。ユーザが、自身のモバイルデバイスを用いてアクティブに音声通信または映像記録に関わっている場合、それはアイドルモードとは見なされない。

【0034】

バッファ２２０は、デジタルオーディオデータがオーディオロギングプロセッサ２３０によって処理される前に、デジタルオーディオデータを一時的に記憶する。バッファ２２０は、任意の物理的なメモリであってよく、より高速なアクセスという利点と、オーディオキャプチャユニット２１５から要求されるメモリフットプリントが比較的小さいこととによって、モバイルデバイス内に位置することが好ましいが、バッファ２２０は、ワイヤレスネットワーク接続または有線ネットワーク接続を介して、モバイルデバイスの外側に位置してもよい。別の実施形態では、捉えられたオーディオ信号Ｓ２６０は、バッファ２２０に一時的に記憶されることなく、オーディオロギングプロセッサ２３０に直接接続されるように構成され得る。そのような場合、捉えられたオーディオ信号Ｓ２６０は、オーディオ入力Ｓ２７０と同一であり得る。

【0035】

オーディオロギングプロセッサ２３０は、スマートオーディオロギングシステムのためのメイン処理ユニットである。オーディオロギングプロセッサ２３０は、いつロギングを開始もしくは終了すべきか、または、スマート構成ブロックをどのように構成すべきかに関する、様々な決定を行なうように構成され得る。オーディオロギングプロセッサ２３０はさらに、隣り合うブロックを制御し、入力処理ユニット２５０または出力処理ユニット２４０とのインターフェースをとり、スマートオーディオロギングシステムの内部状態を判定し、補助データユニット２８０またはデータベースへアクセスするように構成され得る。オーディオロギングプロセッサ２３０の実施形態の一例が、図５に提示される。オーディオロギングプロセッサ２３０は、バッファに記憶される離散的なオーディオ入力データを読み取るように構成され得る。そして、オーディオ入力データは、コンテキスト情報Ｓ６００の抽出のために処理されてよく、次いでコンテキスト情報Ｓ６００は、オーディオロギングプロセッサ２３０の内部と外部のいずれかに位置するメモリに記憶され得る。コンテキスト情報Ｓ６００のさらに詳細な説明は、図６および図７の説明とともに提示される。

【0036】

補助データユニット２８０は、様々なデータベースまたはアプリケーションプログラムを含んでもよく、オーディオロギングプロセッサ２３０によって一部または全体が使用され得る追加の情報を提供するように、構成され得る。一実施形態では、補助データユニット２８０は、スマートオーディオロギング機構を備えたモバイルデバイスの所有者のスケジューリング情報を含み得る。そのような場合、スケジューリング情報はたとえば、いくつか例を挙げると、「次の仕事のビジネス会議の日時および／または長さ」、「招待される参加者」、「会議場所の位置」、または「会議の議題」のような詳細情報を含む。一実施形態では、スケジューリング情報は、ＭｉｃｒｏｓｏｆｔＯｕｔｌｏｏｋまたは任意の他の購入可能なカレンダーアプリケーションのような、カレンダーアプリケーションから取得され得る。補助データユニット２８０からこれらのタイプの詳細情報を受信すると、または能動的に取り出すと、オーディオロギングプロセッサ２３０は、好ましくは、バッファ２２０に記憶される離散的なオーディオ入力データから抽出されたコンテキスト情報Ｓ６００と組み合わせて、上記の詳細情報に従って、オーディオロギングをいつ開始または停止すべきかに関する決定を行なうように構成され得る。

【0037】

記憶装置は一般に、オーディオロギングプロセッサ２３０からの処理されたオーディオロギングを記憶するように設計された、システムの中の１つまたは複数のメモリの位置を指す。記憶装置は、モバイルデバイスの内部でローカルに利用可能なローカル記憶装置２７０、または、有線通信チャネルもしくはワイヤレス通信チャネルを介してモバイルデバイスにリモートで接続されるリモート記憶装置２９０を備えるように、構成され得る。オーディオロギングプロセッサ２３０は、ローカル記憶装置２７０とリモート記憶装置２９０のどちらに、処理されたオーディオロギングを記憶すべきかを選択するように構成され得る。記憶装置の選択は、限定はされないが、コンテキスト情報Ｓ６００、オーディオロギングの推定サイズ、利用可能なメモリサイズ、ネットワーク速度、ネットワークの遅延、またはコンテキスト情報Ｓ６００の優先度を含み得る、様々な要因に従って行なわれ得る。記憶装置の選択は、必要であれば、アクティブなオーディオロギング処理の間に、ローカル記憶装置２７０とリモート記憶装置２９０との間で動的に切り替えられるようにも構成されてよい。

【0038】

図３は、出力処理ユニット２４０の実施形態の例示的な図である。出力処理ユニット２４０は、スピーカ、ディスプレイ、触覚デバイス、または外部のスマートオーディオロギングデバイスのような、様々な周辺デバイスに、オーディオロギングプロセッサ２３０から生成された出力信号Ｓ２３０を送達するように、構成され得る。触覚デバイスは、触覚フィードバック機構に基づく改善されたユーザ体験を、システムが提供できるようにする。触覚デバイスは、力、振動、および／または動きをユーザに対して与えることによって、ユーザの触覚を利用することができる。スマートオーディオロギングシステムは、出力処理ユニット２４０を通じて、出力信号Ｓ２３０を、別の少なくとも１つのスマートオーディオロギングシステムに送信することができる。出力信号の送信は、ワイヤレスチャネルを通じたものであってよく、好ましくは、ＧＳＭ、ＵＭＴＳ、ＨＳＰＡ＋、ＣＤＭＡ、Ｗｉ−Ｆｉ、ＬＴＥ、ＶＯＩＰ、またはＷｉＭａｘのような、様々なワイヤレス通信プロトコルが用いられ得る。出力処理ユニット２４０は、適切な周辺デバイスに選択的に出力信号Ｓ２３０を分配することができる、デマルチプレクサ（Ｄｅ−Ｍｕｘ）３１０を含むように構成され得る。オーディオ出力生成器３１５は、Ｄｅ−Ｍｕｘ３１０によって選択されると、出力信号Ｓ２３０に従って、スピーカまたはヘッドセットに対するオーディオ信号を生成する。ディスプレイ出力生成器３２０は、Ｄｅ−Ｍｕｘ３１０によって選択されると、出力信号Ｓ２３０に従って、ディスプレイデバイスに対するビデオ信号を生成する。触覚出力生成器３３０は、Ｄｅ−Ｍｕｘ３１０によって選択されると、触覚デバイスのための触覚信号を生成する。送信機は、Ｄｅ−Ｍｕｘ３１０によって選択されると、他のスマートオーディオロギングシステムを含む外部デバイスへの送信の準備ができている、処理された信号を生成する。

【0039】

図４は、入力処理ユニット２５０の実施形態の例示的な図である。この例では、入力処理ユニット２５０は、様々なタイプの入力を処理し、マルチプレクサ（Ｍｕｘ）４１０を通じてオーディオロギングプロセッサ２３０に選択的に移送され得る、入力信号Ｓ２２０を生成する。入力は、限定はされないが、ユーザの声またはキー命令、カメラ、タイマー、ＧＰＳ、近接センサ、ジャイロ、周辺環境センサ、加速度計などのような非音響センサからの信号を含み得る。入力は、別の少なくとも１つのスマートオーディオロギングシステムに送信され得る。そして入力は、オーディオロギングプロセッサ２３０に送られる前に、音声命令プロセッサ４２０、キー命令プロセッサ４３０、タイマーインターフェース４４０、受信機４５０、またはセンサインターフェース４６０のような様々なモジュールによって、処理され得る。

【0040】

図５は、オーディオロギングプロセッサ２３０の実施形態の例示的な図である。オーディオロギングプロセッサ２３０は、スマートオーディオロギングシステムのメインコンピューティングエンジンであり、少なくとも１つのマイクロプロセッサ、または少なくとも１つのデジタルシグナルプロセッサ、またはこれらの任意の組合せによって、実際には実装され得る。あるいは、オーディオロギングプロセッサ２３０の一部またはすべてのモジュールは、ハードウェアで実装されてもよい。図５に示されるように、オーディオロギングプロセッサ２３０は、「汎用オーディオ信号プロセッサ５９５」という名前のより汎用的なモジュールとともに、特定の動作に専用のいくつかのモジュールを備え得る。

【0041】

聴覚アクティビティ検出器モジュール５１０または「オーディオ検出器」は、オーディオ入力Ｓ２７０からのオーディオアクティビティのレベルを検出することができる。オーディオアクティビティは、アクティブと非アクティブのような二値の分類として定義されてもよく、または必要であれば、より多くのレベルの分類として定義されてもよい。オーディオ入力Ｓ２７０のオーディオレベルを求めるための、様々な方法が用いられ得る。たとえば、聴覚アクティビティ検出器５１０は、信号エネルギー、信号対雑音比（ＳＮＲ）、周期性、スペクトル傾斜、および／またはゼロクロッシング・レートに基づき得る。しかし、計算の複雑度を可能な限り低く保つために、比較的簡単な方法を用いることが好ましく、このことは電池の寿命を伸ばすのに役立つ。オーディオ品質増強器モジュール５２０は、バックグラウンドノイズを能動的に(アクティブに)または受動的(パッシブに)に抑制することによって、音響エコーを除去することによって、入力利得を調整することによって、または、会話の発話信号についてオーディオ入力Ｓ２７０の明瞭さを向上させることによって、オーディオ入力Ｓ２７０の品質を向上させることができる。

【0042】

補助信号分析器モジュール５３０は、補助データユニット２８０からの補助信号を分析することができる。たとえば、補助信号は、カレンダープログラムまたは電子メールクライアントプログラムのような、スケジューリングプログラムを含み得る。補助信号はまた、辞書、従業員名簿、または、第三者のソースのデータまたは訓練データから取得される、様々なオーディオおよび発話パラメータのような、追加のデータベースを含み得る。入力信号ハンドラモジュール５４０は、入力処理ユニット２５０からの入力信号Ｓ２２０を検出し、処理し、または分析することができる。そして、出力信号ハンドラモジュール５９０は、出力処理ユニット２４０に対する出力信号Ｓ２３０を生成することができる。

【0043】

制御信号ハンドラ５５０は、スマートオーディオロギングシステムの周辺ユニットに与えられ得る様々な制御信号を扱う。Ａ／Ｄコンバータ制御Ｓ２１５およびマイクロフォンユニット制御Ｓ２０５という、制御信号の２つの例が、例示を目的として図５で開示される。イベント開始マネジャ５７０は、イベント開始インジケータを扱い、検出し、または生成するように構成され得る。イベント開始インジケータは、スマートオーディオロギングの開始の準備ができてい得ることを示す、フラグまたは信号である。オーディオロギングプロセッサ２３０は、その動作がステートマシンに基づいている場合、内部状態を切り替えるのにイベント開始インジケータを使用することが望ましい可能性がある。イベント開始インジケータは、オーディオロギングプロセッサ２３０の動作を理解するための、概念的なフラグまたは信号であることが、当業者には明白であろう。一実施形態では、イベント開始インジケータは、ソフトウェア実装では１つまたは複数の変数を用いて、または、ハードウェア設計では１つまたは複数の配線信号を用いて、実装され得る。イベント開始インジケータは、１つまたは複数の条件が満たされた場合にイベント開始インジケータＳ９１０がトリガされる、単一レベルであってもよく、または、２つ以上のレベルのイベント開始インジケータがすべてトリガされた場合に実際のスマートオーディオロギングが開始される、複数レベルであってもよい。

【0044】

汎用オーディオ信号プロセッサ５９５は、本出願では明示的に示されないが実装を成功させるためにはやはり必要である、すべての他の基本的なオーディオ信号および発話信号の処理方法を扱うための、複数目的のモジュールである。たとえば、これらの信号処理方法は、限定はされないが、時間から周波数もしくは周波数から時間への変換、雑多なもののフィルタリング、信号利得の調整、またはダイナミックレンジの制御を含み得る。図５で別々に開示される各モジュールは、単に、オーディオロギングプロセッサ２３０の機能の説明の例示を目的として与えられることに、留意されたい。一実施形態では、一部のモジュールは、単一のモジュールまたはいくつかのモジュールに組み合わされてもよく、さらに、システムの実際の実装においては、より小さなモジュールに分割されてもよい。別の実施形態では、図５に開示されるモジュールのすべてが、単一のモジュールに統合されてもよい。

【0045】

図６は、コンテキスト情報Ｓ６００の例を示す図である。別段示されない限り、「コンテキスト」（または「コンテキスト情報Ｓ６００」）という用語は、身元、感情、習慣、生体の状態、もしくは関与しているアクティビティのようなユーザの情報；絶対的な位置もしくは相対的な位置のような物理的な環境；キーワードもしくは分類の識別のようなコンテンツについての情報；または、社会的相互作用（social interaction）またはビジネスアクティビティ(business activity)のような社会的な環境を指す。図７は、コンテキスト識別器５６０の実施形態の図である。コンテキスト識別器５６０は、オーディオロギングプロセッサ２３０の一部であり、オーディオ入力Ｓ２７０からコンテキスト情報Ｓ６００を抽出する。一実施形態では、コンテキスト識別器５６０は、専用のハードウェアエンジンまたはデジタルシグナルプロセッサで実装されるように構成され得る。

【0046】

図８は、コンテキスト識別器５６０およびコンテキスト情報Ｓ６００の例示的な実施形態の図である。キーワード識別器は、オーディオ入力Ｓ２７０を分析し、会話の発話内容から重要なキーワードを認識する。認識処理は、１つまたは複数の単語を記憶する辞書または参照テーブルのような、補助データベースに基づき得る。音楽／発話検出器は、オーディオ入力信号Ｓ２７０を、入力信号の特性に基づいて、２つ以上のカテゴリーとして分類するように構成され得る。この検出は、オーディオパラメータまたは発話パラメータの識別と、識別されたオーディオパラメータまたは発話パラメータの１つまたは複数の閾値との比較とに、基づき得る。本出願の範囲内の分類は、互換的に検出と見なされ得る。

【0047】

音楽／発話検出器８２０はまた、入力信号を複数レベルの分類に分類するように構成され得る。たとえば、音楽／発話検出器８２０の一実施形態では、音楽／発話検出器８２０は、「音楽」、または「発話」、または「音楽＋発話」のような、第１のレベルの分類に入力信号を分類することができる。次に、音楽／発話検出器８２０はさらに、第１のレベルの分類の段階で「音楽」として分類された信号について、「ロック」、「ポップ」または「クラシック」のような第２のレベルの分類を決定することができる。同じように、音楽／発話検出器８２０はまた、第１のレベルの分類の段階で「発話」として分類された信号について、「商談」、「個人的な会話」または「講義」のような第２のレベルの分類を決定することができる。

【0048】

話者識別器８３０は、発話信号入力の話者の身元を検出するように構成され得る。話者識別処理は、信号エネルギーもしくはフレームエネルギー、信号対雑音比（ＳＮＲ）、周期性、スペクトル傾斜、および／またはゼロクロッシング・レートのような、入力発話信号の特性に基づき得る。話者識別器８３０は、「男性の話者」または「女性の話者」のような単純な分類を識別するように構成されてもよく、または、話者の名前もしくは表題のようなより高度な情報を識別するように構成されてもよい。話者の名前または表題の識別には、非常に複雑な計算が必要になり得る。話者識別器８３０が、様々な理由によって、大量の発話サンプルを検索しなければならない場合には、さらにより困難になる。

【0049】

たとえば、以下のような仮の状況を想定する。会社Ｘには全体で１５０００人の従業員がおり、ユーザＹは、スマートオーディオロギング機構を備えた自身のモバイルデバイスを用いて、毎日仕事に関係する一連の音声会議に出席しなければならない。ユーザＹは、会社Ｘの従業員である多数の話者が会話に関わっているときに、リアルタイムで話者を識別することを望んでいる。第１に、発話サンプルから抽出された発話サンプルまたは発話の特性は、そもそもすべての従業員については利用可能ではないことがある。第２に、発話サンプルが、ローカルメモリにおいて、またはワイヤレスチャネルを介して接続されたリモートサーバ側ですでに利用可能であったとしても、大量の発話サンプルをモバイルデバイスにおいてリアルタイムで検索することは、非常に困難であり得る。第３に、検索をリモートサーバ側で行なうことができ、サーバの計算能力をモバイルデバイスの計算能力よりもはるかに高くできるとしても、リアルタイムの処理は、受信／送信の遅延を考慮するとやはり困難であり得る。これらの問題は、追加の情報が補助データベースから利用可能であれば、扱いやすくなり得る。たとえば、会議の参加者のリストがカレンダープログラムから利用可能であれば、話者識別器は、検索空間を狭めることによって、検索される人の数を効果的に大きく減らすことができる。

【0050】

環境検出器８５０は、フレームエネルギー、信号対雑音比（ＳＮＲ）、周期性、スペクトル傾斜、および／またはゼロクロッシング・レートのような、入力発話信号の１つまたは複数の特性に基づいて、聴覚シーンを識別するように構成され得る。たとえば、環境検出器８５０は、現在の入力信号の環境を、「事務所」、「自動車」、「レストラン」、「地下鉄」、「野球場」などとして識別することができる。

【0051】

ノイズ分類器８４０は、オーディオ入力Ｓ２７０のバックグラウンドノイズの特性を分類するように構成され得る。たとえば、ノイズ分類器８４０は、「安定ｖｓ不安定」、「道路のノイズ」、「飛行機のノイズ」、またはこれらの組合せとして、バックグラウンドノイズを識別することができる。ノイズ分類器８４０は、バックグラウンドノイズの重大さのレベルに基づいて、「重大」または「普通」のようにバックグラウンドノイズを分類することができる。ノイズ分類器８４０は、単一段階の処理または複数段階の処理で、入力を分類するように構成され得る。

【0052】

感情検出器８５０は、会話の発話についての話者の感情、または音楽の内容の感情的な側面を検出するように構成され得る。音楽は、多くの興味深い音響パラメータから構成される。たとえば、音楽は、リズム、楽器、音程、歌、音色、調子、および歌詞を含み得る。これらのパラメータは、幸福、怒り、恐怖、勝利、心配、または落ち込みのような、１つまたは複数の感情のカテゴリーについて、話者の感情を検出または推定するために用いられ得る。関与アクティビティ検出器８７０は、オーディオ入力Ｓ２７０の特性に基づいて、話者のアクティビティを検出するように構成され得る。たとえば、関与アクティビティ検出器８７０は、話者が、「話している」、「走っている」、「歩いている」、「スポーツを行なっている」、「授業中である」、または「買い物をしている」ことを検出することができる。この検出は、発話パラメータおよび／または音楽信号パラメータに基づき得る。この検出はまた、補助データユニット２８０または図８の他のモジュールから、補足的な情報を得るように構成され得る。たとえば、感情検出器８５０は、環境検出器８６０、ノイズ分類器８４０、または図８で開示されるモジュールの任意の他の組合せからの、情報を用いるように構成され得る。

【0053】

図９Ａおよび図９Ｂはそれぞれ、単一レベルおよび複数レベルのイベント開始インジケータの生成機構の、例示的な実施形態の図である。単一レベルのイベント開始インジケータは、比較的簡単な開始機構の実施形態に対して望ましく、一方複数レベルのイベント開始インジケータは、やや複雑な開始機構の実施形態に対して望ましく、その場合、より強力な段階的な始動方式が、効率的な電力消費のために望ましい。イベント開始マネジャ５７０は、聴覚アクティビティ検出器５１０、補助信号分析器５３０、または入力信号ハンドラ５４０からの、出力の任意の組合せまたは内部トリガ信号に従って、イベント開始インジケータＳ９１０を生成するように構成され得る。たとえば、聴覚アクティビティ検出器５１０は、１つまたは複数の関心のある聴覚イベントまたはアクティビティが検出されたとき、オーディオ入力Ｓ２７０のアクティビティに基づいて、内部トリガ信号を生成するように構成され得る。

【0054】

補助信号分析器５３０は、ユーザのカレンダープログラムのスケジュールに従って、内部トリガ信号を生成することもできる。ユーザが記録を望んでいた特定の会議は、ユーザからの手動の操作なしで、内部トリガ信号を自動的に生成することができる。あるいは、補助信号分析器５３０は、会議の明示的または暗黙的な優先度に基づいて、そのような決定を行なうように構成され得る。内部トリガ信号の生成は、オーディオ入力Ｓ２７０または補助信号の分析以外の入力から開始されてもよい。そのような入力は、ユーザの声もしくは手動のキー操作、タイマー、または、カメラ、タイマー、ＧＰＳ、近接センサ、ジャイロ、周辺環境センサ、もしくは加速度計のような非音響センサからの信号、または、別の少なくとも１つのスマートオーディオロギングシステムから送信された信号を含み得る。組合せ論理回路９００は、内部トリガ信号のある組合せ機構に基づいて、イベント開始インジケータＳ９１０を生成するように構成され得る。たとえば、組合せ論理回路は、聴覚アクティビティ検出器５１０、補助信号分析器５３０、または入力信号ハンドラ５４０からの、内部トリガ信号のＯＲ操作またはＡＮＤ操作に従って、イベント開始インジケータＳ９１０を生成するように構成され得る。別の実施形態では、組合せ論理回路は、１つまたは複数の内部トリガ信号が設定またはトリガされたときに、イベント開始インジケータＳ９１０を生成するように構成され得る。

【0055】

図９Ｂに戻って参照すると、イベント開始マネジャ５７０は、実際のロギングの開始の前に、第１のレベルのイベント開始インジケータＳ９２０を、次いで第２のレベルのイベント開始インジケータＳ９３０を生成するように構成され得る。本明細書で開示される複数レベルのイベント開始インジケータ機構は、インジケータの２つ以上のレベルを用いることによって、オーディオロギングのより正確な開始点を決定するのに、好ましいことがある。複数レベルのイベント開始インジケータの例示的な実装形態は、第１のレベルのイベント開始インジケータＳ９２０に対しては、比較的簡単で複雑度の低い決定機構を採用するように構成されてよく、第２のレベルのイベント開始インジケータＳ９３０に対しては、高度で複雑度の高い決定機構を採用するように構成されてよい。一実施形態では、第１のレベルのイベント開始インジケータＳ９２０の生成は、図９Ａのイベント開始インジケータＳ９１０の生成方法と実質的に同様の方法となるように、構成され得る。図９Ａとは対照的に、オーディオロギングプロセッサ２３０は、第１のレベルのイベント開始インジケータＳ９２０がトリガされても実際のロギングを開始せず、好ましくは代わりに、オーディオ入力Ｓ２７０のさらなる深い分析に基づいて第２のレベルのイベント開始インジケータ信号Ｓ９３０をトリガするのに必要な追加のモジュールを起動させ、または互換的には始動させてもよい。これらのモジュールは、コンテキスト識別器５６０およびコンテキスト評価論理回路９５０を含み得る。そしてコンテキスト識別器５６０は、図８で開示される方法に従ってオーディオ入力Ｓ２７０を分析し、コンテキスト評価論理回路９５０によって評価され得る多数のコンテキスト情報Ｓ６００を検出または識別することができる。コンテキスト評価論理回路９５０は、様々な内部決定方法に従って、第２のレベルのイベント開始インジケータＳ９３０をトリガするように構成され得る。そのような方法はたとえば、図８で開示されるサブモジュールの一部またはすべての出力についての優先度の加重和の計算と、１つまたは複数の閾値に対するその加重和の比較とを含み得る。コンテキスト評価論理回路９５０は、ソフトウェアとハードウェアのいずれかで実装されてよく、または、図８の汎用オーディオ信号プロセッサ５９５の一部として実装されてよいことに、留意されたい。

【0056】

図１０は、イベント終了インジケータの生成機構の実施形態である。イベント終了インジケータＳ９４０は、聴覚アクティビティ検出器５１０、補助信号分析器５３０、または入力信号ハンドラ５４０からの出力、すなわち内部のトリガ信号の任意の組合せに従って、イベント終了マネジャ５８０によって生成され得る。図１０のモジュールの動作は、図９Ａと図９Ｂのいずれかで説明された方法と実質的に同様であるが、各モジュールからの内部トリガ信号は通常、各モジュールが、実際のロギングを停止するという指示、または現在の動作モードから省電力モードに切り替えるという指示を検出したときに、トリガされる。たとえば、聴覚アクティビティ検出器５１０は、オーディオ入力Ｓ２７０のオーディオアクティビティが比較してかなり小さくなると、内部トリガ信号をトリガすることができ、または同様に、補助信号分析器５３０は、会議が終了予定時刻に達すると、内部トリガ信号をトリガすることができる。組合せ論理回路９００は、内部トリガ信号のある組合せ機構に基づいて、イベント終了インジケータＳ９４０を生成するように構成され得る。たとえば、組合せ論理回路９００は、聴覚アクティビティ検出器５１０、補助信号分析器５３０、または入力信号ハンドラ５４０からの、内部トリガ信号のたとえばＯＲ操作またはＡＮＤ操作に従って、イベント終了インジケータＳ９４０を生成するように構成され得る。別の実施形態では、組合せ論理回路９００は、１つまたは複数の内部トリガ信号が設定またはトリガされたときに、イベント終了インジケータＳ９４０を生成するように構成され得る。

【0057】

図１１は、複数レベルのイベント開始インジケータシステムの、オーディオロギングプロセッサ２３０の内部状態とその内部状態の遷移とを示す、第１の例示的な実施形態の図である。スマートオーディオロギングの始動時のデフォルト状態は、スマートオーディオロギング機構を含むモバイルデバイスが通常のアイドルモード状態と実質的に同じである、パッシブ(passive)オーディオ監視状態Ｓ１であってよい。パッシブオーディオ監視状態Ｓ１の間、消費電力を最小化することが重要である。なぜなら、統計的に、モバイルデバイスは、大半の時間この状態にあるからである。したがって、スマートオーディオロギングシステムのモジュールの大半は、オーディオ入力Ｓ２７０のアクティビティを検出するのに必要な少数のモジュールを除いて、スリープ状態にとどまるように、または任意の他の電力節減モードになるように構成され得る。たとえば、そのような少数の例外的なモジュールは、オーディオキャプチャユニット２１５、バッファ２２０、または聴覚アクティビティ検出器５１０を含み得る。一実施形態では、これらのモジュールは、常にオンになるように構成されてもよく、または、間欠的に起動するように構成されてもよい。

【0058】

第１のレベルのイベント開始インジケータＳ９２０のトリガによって、状態は、パッシブオーディオ監視状態Ｓ１からアクティブオーディオ監視状態Ｓ２に変更され得る。アクティブオーディオ監視状態Ｓ２の間、スマートオーディオロギングシステムは、たとえば、コンテキスト識別器５６０またはコンテキスト評価論理回路９５０のような、１つまたは複数のさらなるモジュールを起動するように構成され得る。これらのさらなるモジュールは、図９Ｂで提示される説明に従って、第２のレベルのイベント開始インジケータＳ９３０がトリガされる必要があるかどうかを判定するための、オーディオ入力Ｓ２７０の深い監視および分析を実現するために、用いられ得る。第２のレベルのイベント開始インジケータＳ９３０が最終的にトリガされると、システムはアクティブオーディオロギング状態Ｓ３に遷移し、この状態の間、実際のオーディオロギングが続く。各状態における例示的な動作の詳細な説明が以下の段落で提示される。イベント終了インジケータＳ９４０が、アクティブオーディオ監視状態Ｓ２の間にトリガされると、システムは、その状態の間に始動されたさらなるモジュールをスリープモードに入れて、状態をパッシブオーディオ監視状態Ｓ１に戻すように切り替えるように構成され得る。同様の方式で、イベント終了インジケータＳ９４０が、アクティブオーディオロギング状態Ｓ３の間にトリガされると、システムは、オーディオロギングを停止し、状態をパッシブオーディオ監視状態Ｓ１に戻すように切り替えるように構成され得る。

【0059】

図１２は、単一レベルのイベント開始インジケータシステムの、オーディオロギングプロセッサ２３０の内部状態とその内部状態の遷移とを示す、第２の例示的な実施形態の図である。この実施形態は、利用可能な動作状態が２つしかないため、図１１で開示された実施形態よりも簡単である。スマートオーディオロギングの始動時のデフォルト状態は、スマートオーディオロギング機構を含むモバイルデバイスが通常のアイドルモード状態と実質的に同じである、オーディオ監視状態Ｓ１であってよい。オーディオ監視状態Ｓ４の間、消費電力を最小化することが好ましい。なぜなら、統計的に、モバイルデバイスは、大半の時間この状態にあるからである。したがって、スマートオーディオロギングシステムのモジュールの大半は、オーディオ入力Ｓ２７０のアクティビティを検出するのに最低限必要な少数のモジュールを除いて、スリープ状態にとどまるように、または任意の他の電力節減モードになるように構成され得る。たとえば、その少数の例外的なモジュールは、オーディオキャプチャユニット２１５、バッファ２２０、または聴覚アクティビティ検出器５１０を含み得る。一実施形態では、これらのモジュールは、常にオンになるように構成されてもよく、または、間欠的に起動するように構成されてもよい。

【0060】

イベント開始インジケータＳ９１０のトリガによって、状態は、オーディオ監視状態Ｓ４からアクティブオーディオロギング状態Ｓ５に変更され得る。アクティブオーディオロギング状態Ｓ５の間、実際のオーディオロギングが続く。各状態における典型的な動作の詳細な説明が、以下の段落で提示される。イベント終了インジケータＳ９４０が、アクティブオーディオロギング状態Ｓ５の間にトリガされると、システムは、オーディオロギングを停止し、状態をオーディオ監視状態Ｓ４に戻すように切り替えるように構成され得る。

【0061】

図１３は、図１１のパッシブオーディオ監視状態Ｓ１または図１２のオーディオ監視状態Ｓ４の間の、オーディオキャプチャユニット２１５の実施形態の流れ図である。スマートオーディオロギング機構を備えるモバイルデバイスは、最初はアイドルモードであると仮定される。２つの間隔（interval）が図１３に提示される。Ｔ₁は、マイクロフォンの起動間隔を表し、Ｔ₂は、マイクロフォンがオンにとどまる期間を表す。本明細書で提示される流れ図は、単に例示が目的であり、流れ図の中のブロックの一部は本出願の範囲内で、交換可能に並べ替えられてもよいことが、当業者には明白であろう。たとえば、一実施形態では、図１３のＡ／Ｄコンバータ１３１５、１３２０の設定に専用のブロックは、マイクロフォンおよび／またはＡ／Ｄコンバータ１３３０をオンにするブロックの後で、処理されるように構成され得る。そのような場合、ブロック１３１５、１３２０は、動作の開始時の１度だけではなく、間隔Ｔ₁毎に実行するように構成され得る。

【0062】

加えて、図１３は、スマートオーディオロギングの実施に対して基本的な、いくつかの重要な概念を開示する。Ａ／Ｄコンバータは、サンプリング周波数および／またはデータ幅に関して低い分解能（resolution）を保つように、プログラムされ得る。低い分解能の設定は、処理されるデータおよび／またはバッファ２２０に保存されるデータのサイズを最小化するのに役立つ。高い分解能は、デジタル化されるオーディオ入力の精度を向上させるために用いられ得る。しかし、例示的な実装形態では、分解能を高く設定するとバッファ使用量と消費電力とが増大するため、低い分解能の設定を用いることが好ましい可能性がある。オーディオ監視状態Ｓ１、Ｓ２、Ｓ４の目的が主に、アクティブなオーディオロギングを開始する正しいタイミングを待機する環境を感知して監視することであることを考慮すると、低い分解能の設定が望ましい可能性がある。

【0063】

マイクロフォンは、Ｔ₁間隔毎すなわちマイクロフォン起動間隔毎に起動し、Ｔ₂期間、すなわちマイクロフォンがオンの期間にオーディオ入力Ｓ２７０を収集するように構成され得る。Ｔ₁またはＴ₂の値は、固定された間隔として事前に決定されていてもよく、またはランタイム中に動的に適応させられてもよい。システムのある例示的な実装形態では、Ｔ₁はＴ₂よりも長くてよく、Ｔ₂はＴ₁より短いがＴ₁に比例するように決定されてもよい。マイクロフォンユニット２００の中に２つ以上のマイクロフォンがある場合、各マイクロフォンは、同じ間隔を有するように構成されてもよく、一部のマイクロフォンが、他とは異なる間隔を有するように構成されてもよい。一実施形態では、マイクロフォンの一部は、図１１のパッシブオーディオ監視状態Ｓ１または図１２のオーディオ監視状態Ｓ４の間、全くオンにされなくてもよい。別の実施形態では、１つまたは複数のマイクロフォンは常にオンにされてもよく、これは単に、Ｔ₁がＴ₂と等しい特別な場合であり得る。

【0064】

Ｔ₂期間の間のデジタル化されたオーディオ入力は、Ｔ₁間隔毎にバッファ２２０に記憶されてよく、記憶されたデジタルオーディオ入力は、Ｔ₃間隔毎に、オーディオロギングプロセッサ２３０によってアクセスされ処理され得る。これは、図１４によってさらに理解することができ、図１４は、パッシブオーディオ監視状態Ｓ１またはオーディオ監視状態Ｓ４の間に、オーディオキャプチャユニット２１５においてデジタルオーディオ入力をバッファ２２０に記憶するための例示的な図を示す。バッファ２２０に記憶されるデジタルオーディオ入力１４１５、１４２５、１４３５、１４４５は、オーディオロギングプロセッサ２３０内の聴覚アクティビティ検出器５１０によって分析され得る。ある例示的な実装形態では、Ｔ₃間隔はＴ₂期間と同一であってよく、または、Ｔ₂期間とは無関係に決定されてもよい。Ｔ₃間隔がＴ₂期間よりも長い場合、聴覚アクティビティ検出器５１０は、Ｔ₁間隔の一サイクルの間にバッファ２２０に記憶されるデータのサイズよりも大きなサイズのデータにアクセスしてそのデータを処理するように構成され得る。

【0065】

図１５は、パッシブオーディオ監視状態Ｓ１の間の、オーディオロギングプロセッサ２３０の実施形態の流れ図である。この状態において、図１５の動作に必要な最小の数のモジュールを除いて、オーディオロギングプロセッサ２３０内のモジュールの大半を、省電力モードにできることが望ましい可能性がある。これらの必要なモジュールは、図９Ｂに示されるモジュールであってよい。したがって、図１５の流れ図は、図９Ｂによってさらに理解され得る。モバイルデバイスがアイドルモードにあるときに、入力信号Ｓ２２０から発信されたイベント開始要求が、入力信号ハンドラ５４０によって検出されると（１５１５）、イベント開始要求は、第１のレベルのイベント開始インジケータトリガすることができる（１５４０）。補助信号Ｓ２４０から発信されたイベント開始要求が、補助信号分析器５３０によって検出されると（１５２０）、イベント開始要求は、第１のレベルのイベント開始インジケータをトリガすることができる（１５４０）。図１５はまた、聴覚アクティビティ検出器５１０が、Ｔ₃間隔毎に、バッファ２２０の中のデータを分析する（１５３０）ことを示し、さらに深い分析が必要であり得ることを示す任意の聴覚アクティビティが検出されたか否かを決定することができる。この検査の例示的な実施形態の詳細な説明は、図５とともに、本出願において前に開示されている。関心のある聴覚アクティビティが検出されると、その聴覚アクティビティは、第１のレベルのイベント開始インジケータをトリガすることができる（１５４０）。

【0066】

図１５のブロックの順序は、オーディオロギングプロセッサ２３０の動作を説明する際の例示のみを目的とするものであるので、図１５と機能的に等価であり得る、または実質的に等価であり得る多くの変形形態が存在し得ることを、当業者は認識するだろう。たとえば、１つのブロック１５１５と他のブロック１５２０は、１５２０が最初に実行され得るように並べ替えられてもよく、または、これらのブロックが続いて実行され得ないように並べ替えられてもよい。

【0067】

図１６は、アクティブオーディオ監視状態Ｓ２の間の、オーディオキャプチャユニット２１５の実施形態の流れ図である。図１６のオーディオキャプチャユニット２１５の動作は、いくつかの違いを除いて、図１３に開示された動作と非常に類似しており、したがって、違う部分のみがここでは説明され得る。Ａ／Ｄコンバータは、サンプリング周波数および／またはデータ幅に関して、図１３の「低」分解能よりも高い、図１６では「中」と呼ばれる分解能を保つように、プログラムされ得る。中程度の分解能の設定は、より高精度のデジタル化されたオーディオ入力データを得るのに役立つことができ、このことは、オーディオロギングプロセッサ２３０が、より信頼性のあるコンテキスト情報Ｓ６００を抽出するのに有益であり得る。

【0068】

マイクロフォンは、Ｔ₄間隔毎すなわちマイクロフォン起動間隔毎に起動し、Ｔ₅期間、すなわちマイクロフォンがオンの期間にオーディオ入力Ｓ２７０を収集するように構成され得る。Ｔ₄またはＴ₅の値はそれぞれ、Ｔ₁またはＴ₂の値と同一または実質的に同様であってよい。しかし、Ｔ₄をＴ₁よりも短く設定するのが好ましいことがある。それは、オーディオロギングプロセッサ２３０が、より正確なコンテキスト情報Ｓ６００を抽出するのに有益であり得るからである。別の実施形態では、Ｔ₄またはＴ₅の値は、固定された間隔として事前に決定されていてもよく、またはランタイム中に動的に適応させられてもよい。マイクロフォンユニット２００に複数のマイクロフォンが存在する別の実施形態では、１つまたは複数のマイクロフォンは常にオンにされてもよく、これは単に、Ｔ₄がＴ₅と等しい特別な場合であり得る。

【0069】

図１７は、アクティブオーディオ監視状態Ｓ２の間に、オーディオキャプチャユニット２１５においてデジタルオーディオ入力をバッファ２２０に記憶するための例示的な図である。バッファ２２０に記憶されるデジタルオーディオ入力１７１５、１７２５、１７３５、１７４５は、Ｔ₆間隔毎に、オーディオロギングプロセッサ２３０内のコンテキスト識別器５６０およびコンテキスト評価論理回路９５０によって、分析され得る。ある例示的な実装形態では、Ｔ₆間隔はＴ₅期間と同一であってよく、または代替的には、Ｔ₅期間とは無関係に決定されてもよい。Ｔ₆間隔がＴ₅期間よりも長い場合、聴覚アクティビティ検出器５１０は、Ｔ₄間隔の１つまたは複数サイクルの間にバッファ２２０に記憶されるデータにアクセスしてそのデータを処理するように構成され得る。

【0070】

図１８は、アクティブオーディオ監視状態Ｓ２の間の、オーディオロギングプロセッサ２３０の実施形態の流れ図である。この状態において、オーディオロギングプロセッサ２３０内のコンテキスト識別器５６０は、バッファ２２０に記憶されたオーディオ入力Ｓ２７０を分析して、Ｔ₆間隔毎にコンテキスト情報Ｓ６００を識別する（１８１５）。コンテキスト情報Ｓ６００は、今後の参照のために、メモリの位置に記憶される（１８２０）ように構成され得る。コンテキスト評価論理回路９５０は、コンテキスト情報Ｓ６００を評価することができ（１８２５）、様々な内部決定方法に従って、第２のレベルのイベント開始インジケータをトリガすることができる（１８３５）。そのような判定の方法はたとえば、図８で開示されるサブモジュールの一部またはすべての出力についての優先度の加重和の計算と、１つまたは複数の閾値に対するその加重和の比較とを含み得る。図１８はまた、イベント終了インジケータＳ９４０をトリガする例示的な機構を示す。イベント終了インジケータＳ９４０は、コンテキスト評価論理回路９５０が最後のＳ期間の間第２のレベルのイベント開始インジケータＳ９３０をトリガしなかったときにトリガされてよく、Ｓ期間は、好ましくはＴ₆間隔よりもはるかに長くてよい。別の実施形態では、イベント終了インジケータＳ９４０は、イベント終了マネジャ５８０が、図１０に示されるような、補助信号分析器５３０または入力信号ハンドラ５４０からの信号Ｓ１０５２、Ｓ１０５３を検出すると、生成され得る。

【0071】

図１９は、アクティブオーディオ監視状態Ｓ２の間の、オーディオロギングプロセッサ２３０におけるコンテキスト識別の実施形態の例示的な図である。この図は、Ｔ₆間隔毎にコンテキスト識別器５６０によって実行されるコンテキスト識別処理が、Ｔ₄期間とは同期せずに開始するように構成され得ることを示す。Ｔ₆間隔は、消費電力と判定の精度との間のトレードオフと、バッファ２２０のサイズとを考慮して、決定され得る。コンテキスト識別処理が頻繁にありすぎると、またはＴ₆間隔が短すぎると、消費電力が増大し得るが、コンテキスト識別処理が頻繁すぎると、またはＴ₆間隔が長すぎると、コンテキスト情報Ｓ６００の精度が低下し得る。

【0072】

図２０は、アクティブオーディオロギング状態Ｓ３、Ｓ５の間の、オーディオキャプチャユニット２１５の実施形態の流れ図である。Ａ／Ｄコンバータは、サンプリング周波数および／またはデータ幅に関して、図１３の「低」分解能または図１６の「中」分解能よりも高い、ここでは「高」と呼ばれる分解能を保つように、プログラムされ得る。高い分解能の設定は、オーディオロギングデータのサイズを増大させ得るが、より品質の高いオーディオ入力データを取得することにも役立ち得る。Ａ／Ｄコンバータの分解能の設定は、オーディオロギングプロセッサ２３０からの制御信号に従って、動的に調整されるように構成されてもよい。より詳細な説明が、本出願の後の部分で提示される。現在の状態において、オーディオロギングプロセッサ２３０は、所望の記憶装置の位置にオーディオデータをロギングする（記憶する）ことに関与していてもよい。所望の記憶装置は、ローカルのモバイルデバイスの中に、または、有線接続もしくはワイヤレス接続を通じたリモートサーバ側に存在し得る。オーディオロギングは、イベント終了インジケータＳ９４０が、図１０に示されるようなイベント終了マネジャ５８０によって検出されるまで、継続し得る。

【0073】

図２１は、アクティブオーディオロギング状態Ｓ３の間の、オーディオロギングプロセッサ２３０の実施形態の流れ図である。入力信号Ｓ２２０から発信されたイベント終了要求が、入力信号ハンドラ５４０によって検出されると（２１１０）、イベント終了要求は、イベント終了インジケータをトリガすることができる（２１３０）。補助信号Ｓ２４０から発信されたイベント終了要求が、補助信号分析器５３０によって検出されると（２１１５）、イベント終了要求は、イベント終了インジケータをトリガすることができる（２１３０）。入力信号ハンドラ５４０と補助信号分析器５３０のいずれかから検出される終了イベントがない場合は、実際のオーディオロギングはコアオーディオロギングモジュール２１２０において実行される。オーディオロギングの間、コンテキスト識別器５６０は、コンテキスト情報Ｓ６００を識別し続けるように構成されてよく、メモリの位置に記憶された古い識別されたコンテキスト情報Ｓ６００は、新しい識別されたコンテキスト情報Ｓ６００によって更新され得る。コアオーディオロギングモジュールの内部動作の詳細な説明は、図２４において提示される。実際のオーディオロギングが進行している間、コンテキスト評価論理回路９５０は、オーディオ入力Ｓ２７０を監視し分析し続けて、それによって、予め定められた期間に関心のあるコンテキスト情報Ｓ６００が検出されなかった場合に、イベント終了インジケータＳ９４０をトリガするように構成され得る。予め定められた期間の例示的な実装形態は、最後のＳ秒のオーディオデータを用いることを含み得る。イベント終了インジケータＳ９４０を生成するこの方法は、「タイムアウト機構」と呼ばれ得る。そのような検査の方法はたとえば、図８で開示されるサブモジュールの一部またはすべての出力についての優先度の加重和の計算と、１つまたは複数の閾値に対するその加重和の比較とを含み得る。

【0074】

図２２は、オーディオ監視状態Ｓ４の間の、オーディオロギングプロセッサ２３０の実施形態の流れ図である。この流れ図は、最後のブロック２２４０が、第１のレベルのイベント開始インジケータ１５４０ではなくイベント開始インジケータをトリガし得るということを除いて、図１５の流れ図と実質的に同様になるように構成され得る。この類似は、図１１のパッシブオーディオ監視状態Ｓ１と、図１２のオーディオ監視状態Ｓ４の両方が、同一の目的、すなわち、省電力の方式で、環境の聴覚イベントを周期的に感知するという目的を有し得るという、事実によるものである。

【0075】

図２３は、アクティブオーディオロギング状態Ｓ５の間の、オーディオロギングプロセッサ２３０の実施形態の流れ図である。Ｓ３とＳ５のいずれのアクティブロギングプロセッサも同様の動作を実行し得るので、この流れ図も、流れ図の最初の追加のブロック２３００、２３０５を除いて、図２１の流れ図にかなり近く、またはそれと同一であってよい。
設計上の選好に応じて周期的にまたは連続的に、コンテキスト識別器５６０がコンテキスト情報Ｓ６００を識別するように構成され得る、アクティブオーディオ監視状態Ｓ２が常に前の状態であったＳ３状態とは異なり、これらの追加のブロック２３００、２３０５はここでは必要となり得る。それは、Ｓ５の前の状態はオーディオ監視状態Ｓ４であり、コンテキスト識別のステップはＳ４状態では実行され得ないからである。入力信号Ｓ２２０から発信されたイベント終了要求が、入力信号ハンドラ５４０によって検出されると（２３１０）、イベント終了要求は、イベント終了インジケータをトリガすることができる（２３３０）。補助信号Ｓ２４０から発信されたイベント終了要求が、補助信号分析器５３０によって検出されると（２３１５）、イベント終了要求は、イベント終了インジケータをトリガすることができる（２３３０）。入力信号ハンドラ５４０と補助信号分析器５３０のいずれかから検出される終了イベントがない場合は、実際のオーディオロギングはコアオーディオロギングモジュール２３２０において実行される。オーディオロギングの間、コンテキスト識別器５６０は、コンテキスト情報Ｓ６００を識別し続けるように構成されてよく、メモリ位置に記憶された古い識別されたコンテキスト情報Ｓ６００は、新しい識別されたコンテキスト情報Ｓ６００によって更新され得る。コアオーディオロギングモジュールの内部動作の詳細な説明が、図２４において提示される。実際のオーディオロギングが進行している間、コンテキスト評価論理回路は、オーディオ入力Ｓ２７０を監視し分析し続けて、それによって、予め定められた期間に関心のあるコンテキスト情報Ｓ６００が検出されなかった場合に、イベント終了インジケータＳ９４０をトリガするように構成され得る。予め定められた期間の例示的な実装形態は、最後のＳ期間のオーディオデータを用いることを含み得る。イベント終了インジケータＳ９４０を生成するこの方法は、「タイムアウト機構」と呼ばれ得る。そのような検査の方法はたとえば、図８で開示されるサブモジュールの一部またはすべての出力についての優先度の加重和の計算と、１つまたは複数の閾値に対するその加重和の比較とを含み得る。

【0076】

図２４は、アクティブオーディオロギング状態Ｓ３、Ｓ５の間の、コアオーディオロギングモジュールの実施形態の流れ図である。この例示的な実施形態では、流れ図２４１０、２４１５、２４２０という上から最初の３つのブロックは、コンテキスト情報Ｓ６００に従った、スマートオーディオロギングシステムの動的な構成の特性を示す。Ａ／Ｄコンバータのサンプリング周波数２４１０および／またはデータ幅２４１５は、コンテキスト情報Ｓ６００に基づいて、オーディオロギング処理の間に動的に再構成され得る。コンテキスト情報Ｓ６００は通常、数分以上または数時間にもわたり得る、オーディオロギングの過程全体において、徐々に、またはさらには突然、変化する。たとえば、会話の発話の題材は、時間とともに変化し得る。たとえば、話者が道を歩いているとき、または公共交通機関を用いて移動しているときは、話者のバックグラウンドノイズまたは環境が変化し得る。また、たとえば、オーディオ入力Ｓ２７０の内容は、時間とともに、会話の発話から音楽に、または音楽と発話に変わることがあり、その逆もあり得る。音楽のコンテンツに対しては、高い分解能のサンプリング周波数またはデータ幅を用い、発話が主の信号に対しては、低い分解能のサンプリング周波数またはデータ幅を用いるのが望ましいことがある。別の実施形態では、分解能は、発話の内容の特性に従って異なるように構成され得る。たとえば、システムは、友人の間の個人的な会話と比較して、ビジネス上のコミュニケーションに対して異なる分解能を用いるように構成され得る。コンテキスト情報Ｓ６００に従った、Ａ／Ｄコンバータの構成の動的な設定と、メモリの位置の動的な選択とのための、ブロック２４１０、２４１５、２４２０は、本明細書で開示される一般的な原理の範囲内で、流れ図の中の他のブロックとは対照的に、それらのブロックの間で異なる順序で再配置されてよい。

【0077】

システムはまた、コンテキスト情報Ｓ６００に基づいて、メモリの位置を動的に選択する（２４２０）ように構成され得る。たとえば、会話中の１人または複数の話者が、主要なビジネス上の顧客であることのようなある特徴を満たすと判明した場合、または、オーディオ入力Ｓ２７０が、発話信号よりも音楽信号をかなり含む場合、サーバ側に遠隔で接続される記憶装置に、オーディオロギングデータを記憶するように構成され得る。そのような場合、より高い分解能のＡ／Ｄコンバータを用いることが望ましい可能性があるので、より大きな記憶スペースが必要であり得る。

【0078】

そして、オーディオロギングプロセッサ２３０は、バッファ２２０からオーディオデータ２４２４を読み取るように構成され得る。新しいコンテキスト情報は、最新のオーディオデータから識別することができ（２４３０）、新しいコンテキスト情報は、メモリに記憶することができる（２４３５）。別の実施形態では、コンテキスト情報Ｓ６００のコンテキスト識別処理２４３０または保存処理２４３４は、流れ図の中の他のブロックとは対照的に、本明細書で開示される一般的な原理の範囲内で、飛ばされてもよく、または異なる順序で再配置されてもよい。

【0079】

オーディオロギングプロセッサ２３０は、オーディオ入力信号Ｓ２７０の増強が望ましいかどうかを判定するか、または望ましい場合には、どのようなタイプの増強処理が望ましい可能性があるかを、処理された信号が選択されたメモリに記憶される前に判定する（２４４０）ように構成され得る。この判定は、コンテキスト情報Ｓ６００に基づいてもよく、システムによって自動的に事前に構成されてもよく、またはユーザによって手動で事前に構成されてもよい。そのような増強処理は、音響エコー除去（ＡＥＣ）、音声増強の受信（ＲＶＥ）、アクティブノイズ除去（ＡＮＣ）、ノイズ抑制（ＮＳ）、音響利得制御（ＡＧＣ）、音量制御（ＡＶＣ）、または音響ダイナミックレンジ制御（ＡＤＲＣ）を含み得る。一実施形態では、信号増強の強さは、オーディオ入力Ｓ２７０の内容またはコンテキスト情報Ｓ６００に基づき得る。

【0080】

オーディオロギングプロセッサ２３０は、オーディオ入力信号Ｓ２７０の圧縮が望ましいかどうかを判定するか、または望ましい場合には、どのようなタイプの圧縮処理が望ましい可能性があるかを、処理された信号が選択されたメモリの位置に記憶される前に判定する（２４４５）ように構成され得る。この判定は、コンテキスト情報Ｓ６００に基づいてもよく、システムによって自動的に事前に構成されてもよく、またはユーザによって手動で事前に構成されてもよい。たとえば、システムは、好ましくはカレンダー情報に基づくオーディオロギングの予想される長さに基づいて、オーディオロギングが開始する前に圧縮を用いることを選択することができる。発話の符号化またはオーディオの符号化のような圧縮方法の選択は、オーディオ入力Ｓ２７０の内容またはコンテキスト情報Ｓ６００に基づいて、動的に構成され得る。別段規定されない限り、本出願の文脈内での圧縮とは、発話の符号化／復号およびオーディオの符号化／復号のような、情報源の符号化を意味し得る。したがって、圧縮を符号化と互換的に用いることができ、解凍を復号と互換的に用いることができることが、当業者には明白であろう。ビットレート、符号化モード、またはチャネルの数のような、符号化パラメータも、オーディオ入力Ｓ２７０の内容またはコンテキスト情報Ｓ６００に基づいて、動的に構成され得る。

【0081】

図２５は、従来のマイクロフォン制御による、単一のマイクロフォンのオンおよびオフの制御の実施形態の図である。モバイルデバイスがアイドルモードにある場合（２５５０）、マイクロフォンと、Ａ／Ｄコンバータのようなマイクロフォンの動作に必要な関連するブロックとは、通常はオフにされている（２５１０）。マイクロフォンおよびその関連するブロックは、通常、音声通話または映像記録のようなマイクロフォンの使用を必要とする用途で、モバイルデバイスがアクティブに使用される間だけ、オンにされる（２５２０）。

【0082】

図２６は、単一のマイクロフォンのオンおよびオフの制御の第１の実施形態の図である。図２５とは対照的に、マイクロフォンは、モバイルデバイスがアイドルモードである（２５５０）期間でも、選択的にオンになる（２５２０）ように構成され得る。マイクロフォンは、オーディオ入力Ｓ２７０のコンテキスト情報Ｓ６００に従って、選択的にオンになるように構成され得る。一実施形態では、この機能は、パッシブオーディオ監視状態Ｓ１、アクティブオーディオ監視状態Ｓ２、またはオーディオ監視状態Ｓ４に対して望ましいことがある。

【0083】

図２７は、単一のマイクロフォンのオンおよびオフの制御の第２の実施形態の図である。図２６とは対照的に、マイクロフォンは、モバイルデバイスがアイドルモードである（２５５０）期間でも、連続的にオンになる（２７００）ように構成され得る。そのような場合、マイクロフォンがオンになっている間、システムの消費電力は増大し得る。一実施形態では、この機能は、パッシブオーディオ監視状態Ｓ１、アクティブオーディオ監視状態Ｓ２、オーディオ監視状態Ｓ４、またはアクティブオーディオロギング状態Ｓ３、Ｓ５に適用可能であり得る。

【0084】

図２８は、複数のマイクロフォンのオンおよびオフの制御の第１の実施形態の図である。一実施形態では、１つまたは複数のマイクロフォンは、従来のシステムと同様の方法で動作するように構成され得る。言い換えると、１つまたは複数のマイクロフォンは、アクティブな音声通話の間、または、映像記録の間、または、ユーザの手動の選択に応答して１つもしくは複数のマイクロフォンのアクティブな使用を必要とする任意の他の用途の間だけ、オンにされ得る。しかし、他のマイクロフォンは、間欠的にオンにされるように構成され得る。２つのマイクロフォンのみが、例示を目的に図中で提示されるが、マイクロフォンの制御の同一の概念は、３つ以上のマイクロフォンにも適用され得る。

【0085】

図２９は、複数のマイクロフォンのオンおよびオフの制御の第２の実施形態の図である。図２８とは対照的に、１つまたは複数のマイクロフォンは、アクティブな音声通信の間、または映像記録の間、または、ユーザの手動の選択に応答して１つもしくは複数のマイクロフォンのアクティブな使用を必要とする任意の他の用途の間だけ、オンにされ得るように、従来のシステムと同様の方法で動作するように構成され得る。しかし、他のマイクロフォンは、常にオンにされるように構成され得る。そのような場合、マイクロフォンがオンになっている間、システムの消費電力は増大し得る。２つのマイクロフォンのみが、例示を目的に図中で提示されるが、マイクロフォンの制御の同一の概念は、３つ以上のマイクロフォンにも適用され得る。

【0086】

図３０は、アクティブなマイクロフォンの数がコンテキスト情報Ｓ６００に従って動的に制御され得る、本出願によるアクティブなマイクロフォンの数の制御の実施形態の図である。例示を目的として、利用可能なマイクロフォンの最大の数は、３つであると仮定され、パッシブオーディオ監視状態Ｓ１、アクティブオーディオ監視状態Ｓ２、またはオーディオ監視状態Ｓ４の間にオンにされ得るマイクロフォンの最大の数でもある。しかし、異なる数のマイクロフォンの選択も、本開示の範囲内にあり得る。パッシブオーディオ監視状態Ｓ１またはオーディオ監視状態Ｓ４の状態の間、マイクロフォンは、環境の聴覚イベントを監視できるように、周期的にオンにされるように構成され得る。したがって、これらの状態の間、アクティブなマイクロフォンの数は、好ましくは０と１の間で変化し得る。アクティブオーディオ監視状態Ｓ２の状態の間、アクティブなマイクロフォンの数は、好ましくは０と１の間で変化し続け得るが、オン期間とオン期間との間の間隔Ｔ₄は、パッシブオーディオ監視状態Ｓ１またはオーディオ監視状態Ｓ４の状態の間の、オン期間とオン期間との間の間隔Ｔ₁よりも、長くなるように構成され得る。

【0087】

アクティブオーディオロギング状態Ｓ３、Ｓ５の間、アクティブなマイクロフォンの数は、コンテキスト情報Ｓ６００に従って動的に変化するように構成され得る。たとえば、アクティブなマイクロフォンの数は、特定のコンテキスト情報Ｓ６００または高優先度のコンテキスト情報Ｓ６００を検出すると、１（３０４５）から２（３０５０）に増えるように構成され得る。別の例では、マイクロフォンの数は、バックグラウンドノイズの特性が、安定した状態から不安定な状態に変わると、または中程度のレベルから重大なレベルに変わると、増えるように構成され得る。そのような場合、複数のマイクロフォンに基づくノイズ抑制方法が、オーディオ入力Ｓ２７０の品質を向上させることができ得る。アクティブなマイクロフォンの数の増大または減少は、オーディオ入力Ｓ２７０の品質にも基づき得る。マイクロフォンの数は、オーディオ入力Ｓ２７０の品質、たとえば、オーディオ入力Ｓ２７０の信号対雑音比（ＳＮＲ）がある閾値を下回ったことに従って、増えてもよい。

【0088】

オーディオロギングの記憶装置は、実際のオーディオロギング処理の間、またはオーディオロギングが完了した後、ローカル記憶装置とリモート記憶装置との間で動的に変更されるように構成され得る。たとえば、図３１は、事前に定められたコンテキスト情報Ｓ６００の優先度に従って選択が制御され得る、記憶装置の位置の選択の実施形態を示す。この選択は、オーディオロギングの開始の前、またはオーディオロギングの完了の後に、実行され得る。たとえば、コンテキスト情報Ｓ６００は、異なるレベルの優先度を有するように事前に構成され得る。そして、各オーディオロギングの開始の前に、記憶装置は、ある期間のウィンドウの間のコンテキスト情報Ｓ６００の複数の特性と、１つまたは複数の事前に定義された閾値との比較に従って、選択され得る。別の実施形態では、長期記憶装置の選択は、各々のオーディオロギングの完了の後で決定され得る。最初のオーディオロギングは、たとえば、短期間の記憶の目的で、ローカル記憶装置内にデフォルトで記憶され得る。オーディオロギングが完了すると、オーディオロギングは、オーディオロギングのための長期記憶装置の位置を決定するために、オーディオロギングプロセッサ２３０によって分析され得る。各オーディオロギングは、オーディオロギングの完了の前または後に、優先度を割り当てられ得る。長期記憶装置の選択は、オーディオロギングの優先度に基づくように構成され得る。図３１は、低優先度のコンテキスト情報を有するオーディオロギングがローカル記憶装置に記憶され、一方で、高優先度のコンテキスト情報を有するオーディオロギングがネットワーク記憶装置に記憶される、例示的なシステムを示す。本開示の範囲内で、低優先度のコンテキスト情報を有するオーディオロギングが、ネットワーク記憶装置に記憶されてもよく、高優先度のコンテキスト情報を有するオーディオロギングが、ローカル記憶装置に記憶されてもよいことに、留意されたい。

【0089】

図３２は、アクティブオーディオロギング状態Ｓ３、Ｓ５の間に、コンテキスト情報Ｓ６００の優先度に従って選択が動的に制御され得る、記憶装置の位置の選択の実施形態を示す。図３１とは対照的に、記憶装置の選択は、コンテキスト情報Ｓ６００、利用可能なメモリ空間、または、モバイルデバイスとリモートサーバとの間のチャネルの品質に従って、実際のオーディオロギング処理の間に動的に切り替えられ得る。

【0090】

図３３は、事前に定められたコンテキスト情報Ｓ６００の優先度に従って期限切れ時間が制御され得る、記憶装置の期限切れ時間の設定の実施形態の図である。記憶装置に記憶されるオーディオロギングは、ユーザの手動の選択によって削除されるように、または、事前に定められた期限切れ時間に基づき得る機構によって自動的に期限切れになるように構成され得る。オーディオロギングが期限切れになると、期限切れになったオーディオロギングは、削除されるか、または、「ゴミ箱」のような一時的な記憶場所に移されるように構成され得る。期限切れになったオーディオロギングは、記録時に圧縮されていなかった場合には、圧縮されるように構成され得る。期限切れになったオーディオロギングは、記録時にすでに符号化されていた場合には、さらなる圧縮を可能にし得る符号化フォーマットまたは符号化パラメータを用いてトランスコードされてもよく、オーディオロギングのサイズがさらに小さくなる。

【0091】

期限切れ時間の設定は、オーディオロギングの時点で、またはオーディオの完了の後で、決定され得る。一実施形態では、各々のオーディオロギングは、オーディオロギングのコンテキスト情報Ｓ６００の特性または統計に従って、優先度の値を割り当てられ得る。たとえば、図３３のオーディオロギング＃１３３４０は、オーディオロギング＃３３３２０よりも低い優先度を有し得る。ある例示的な実装形態では、オーディオロギング＃１の期限切れ時間ＥＴ₁を、オーディオロギング＃３の期限切れ時間ＥＴ₃よりも短く設定するのが望ましいことがある。例として、ＥＴ₁は「１週間」と設定されてよく、ＥＴ₃は「２週間」と設定されてよい。オーディオロギングの期限切れ時間を、オーディオロギングの優先度に比例させることが一般に望ましい。しかし、異なる優先度を有するオーディオロギングは、必ずしも常に異なる期限切れ時間の設定を有さなくてもよいことに留意されたい。

【0092】

図３４は、アクティブなブロックの数およびその全体の消費電力が各状態に従って動的に制御され得る、スマートオーディオロギングシステム内のブロックの段階的なパワーアップの実施形態の図である。パッシブオーディオ監視状態Ｓ１の間、１つまたは複数の数のマイクロフォンが、オーディオ入力Ｓ２７０を受信するために、一定期間毎に起動するように構成され得る。この受信動作を実行するために、システムは、システムの一部を起動するように構成され得るので、システムのアクティブなブロックの数、または互換的には起動ブロックの数が、図３４においてＮ１に増える。アクティブオーディオ監視状態Ｓ２の間、１つまたは複数の追加のブロックが、Ｎ１に加えて起動するように構成されてよく、これによって、１つまたは複数のマイクロフォンがアクティブである（３４２０）期間の、アクティブなブロックの全体の数がＮ２になる。たとえば、コンテキスト識別器５６０およびコンテキスト評価論理回路９５０が、図９Ｂで例示されたように起動するように構成され得る。アクティブオーディオロギング状態Ｓ３の間、少なくともいくつかのさらなるブロックが、Ｎ２に加えて起動する必要があり得る可能性が高く、これによって、アクティブオーディオロギング状態Ｓ３の状態の間の、アクティブなブロックの全体の数はＮ３になる。アクティブオーディオ監視状態Ｓ２の状態の間の、アクティブなブロックの基本の数３４２５は、図３４ではＮ１に設定され、これは偶然、パッシブオーディオ監視状態Ｓ１の状態の間のアクティブなブロックの数と同じであるが、数３４２５は、本開示の範囲内の別の実施形態では、異なるように構成されてもよいことが、当業者には明白であろう。オーディオ監視状態Ｓ４またはアクティブオーディオロギング状態Ｓ５のアクティブなブロックの数は、それぞれ、パッシブオーディオ監視状態Ｓ１またはアクティブオーディオロギング状態Ｓ３と同様に実装され得る。

【0093】

図３５は、精度が、各々の事前に決定された状態に従って構成され得る、または、コンテキスト情報Ｓ６００にふさわしいように動的に制御され得る、Ａ／Ｄコンバータの精度制御の実施形態の図である。パッシブオーディオ監視状態Ｓ１の状態の間のＡ／Ｄコンバータユニットは、図３５では「低」と呼ばれる、低分解能の設定を有するように構成され得るが、アクティブオーディオ監視状態Ｓ２またはアクティブオーディオロギング状態Ｓ３の状態では、それぞれ、中程度の分解能の設定である「中」設定、または高い分解能の設定である「高」設定を有するように構成され得る。この機構は、各状態に対する最適な設定を可能にすることによって、消費電力またはメモリ使用量を節減するのに、役立ち得る。別の実施形態では、パッシブオーディオ監視状態Ｓ１およびアクティブオーディオ監視状態Ｓ２の段階の間のＡ／Ｄコンバータ設定が、同一の分解能を有するように構成され得る。あるいは、アクティブオーディオ監視状態Ｓ２およびアクティブオーディオロギング状態Ｓ３の段階の間のＡ／Ｄコンバータ設定が、同一の分解能を有するように構成され得る。

【0094】

Ａ／Ｄコンバータユニットの精度設定は、コンテキスト情報Ｓ６００に基づいて、アクティブオーディオロギング状態Ｓ３の間に動的に変更されるように構成され得る。図３５は、動的な変更が、アクティブオーディオロギング処理の間の、全体の期間と部分的な期間のいずれかで有効になる（３５４０）ように構成され得ることを示す。アクティブオーディオロギング状態Ｓ３のデフォルトの精度設定は、「高」であると仮定される（３５２０）。コンテキスト情報Ｓ６００の優先度に関して大きな変化があった場合には、精度設定は「中」（３５３５）または「低」（３５２５）の設定に低くされ得る。たとえば、精度設定の変更は、コンテキスト情報Ｓ６００のサブセットであるコンテンツの分類の、「音楽」から「発話」または「発話」から「音楽」への変更によって、開始されてよい。あるいは、精度設定の変更は、オーディオ入力Ｓ２７０のバックグラウンドノイズのレベルまたはノイズのタイプの変化によって、開始されてもよい。別の実施形態では、精度設定の変更は、ローカル記憶装置の利用可能なメモリのサイズ、または、モバイルデバイスとリモートサーバとの間のチャネルの品質によって、開始されてもよい。

【0095】

図３６は、増強が、コンテキスト情報Ｓ６００に従って動的に構成され得る、オーディオ入力信号の増強制御の実施形態の図である。例示を目的として、いくつかの信号増強レベル、すなわち、増強なし、低レベルの増強、中レベルの増強、高レベルの増強が存在すると、仮定された。アクティブオーディオロギング状態Ｓ３、Ｓ５の間、オーディオ信号の増強レベルは、コンテキスト情報Ｓ６００に従って動的に調整されるように構成され得る。たとえば、バックグラウンドノイズの特性またはレベルを用いて、オーディオ信号の増強レベルの変更をトリガすることができる。バックグラウンドノイズのレベルが非常に高い場合、または、バックグラウンドノイズのレベルの特性が安定的なタイプのノイズから不安定なタイプのノイズに実質的に変化した場合、オーディオ信号の増強の設定は、低レベルの増強または増強なしから、中程度の増強、またはさらには高レベルの増強に変更されるように構成され得る。たとえば、スマートオーディオロギングシステムが、オーディオロギング状態Ｓ３、Ｓ５にあり、オーディオ入力Ｓ２７０をアクティブにロギングしている可能性があるときに、ユーザは、列車が到着するのを地下鉄の駅で待っていることがある。列車がプラットホームに到着するとき、または発車するときは、通常の会話の発話を理解するのが難しくなるある閾値を、ノイズレベルが超えることが多い。重大なバックグラウンドノイズのレベルもしくはバックグラウンドノイズのタイプの変化を検出すると、または、主要な聴覚シーンの変化を検出すると、スマートオーディオロギングシステムは、それに従ってオーディオ信号の増強の設定を再構成することができる。オーディオ信号の増強の設定の変更は、マイクロフォンのアクティブな数の前でも後でもよい。

【0096】

図３７は、圧縮が、コンテキスト情報Ｓ６００に従って動的に構成され得る、オーディオ圧縮パラメータの制御の実施形態の図である。例示を目的として、いくつかの圧縮レベル、すなわち、圧縮なし、「低」圧縮、「中」圧縮、および「高」圧縮が存在すると、仮定された。アクティブオーディオロギング状態Ｓ３、Ｓ５の間、オーディオ信号の圧縮レベルは、コンテキスト情報Ｓ６００に従って動的に調整されるように構成され得る。たとえば、圧縮モードの変更は、コンテキスト情報Ｓ６００のサブセットであるコンテンツの分類の、「音楽」から「発話」または「発話」から「音楽」への変更によって、開始されてよい。「音楽」のコンテンツに対しては高いビットレートを用いるのが望ましいことがあるが、符号化される信号の帯域幅が通常は「音楽」のコンテンツよりもはるかに狭い、「発話」のコンテンツに対しては、低いビットレートを用いるのが望ましいことがある。あるいは、圧縮モードの変更は、ローカル記憶装置の利用可能なメモリのサイズ、または、モバイルデバイスとリモートサーバとの間のチャネルの品質によって、開始されてもよい。

【0097】

符号化フォーマットは、コンテキスト情報Ｓ６００にも従って変更されるように、構成され得る。図３８は、圧縮符号化フォーマットの選択またはその選択の欠如が、コンテキスト情報Ｓ６００に従って動的に構成され得る、圧縮符号化フォーマットの選択の実施形態の図である。例示を目的として、オーディオコーデック＃１および発話コーデック＃１が図３８で示されるが、一般には、符号化フォーマットはまた、複数のオーディオコーデックまたは複数の発話コーデックの間で変化するように構成され得る。

【0098】

たとえば、本オーディオコーデック＃１３８１０は、「音楽」から「発話」への主要な信号の分類の変化を検出すると、発話コーデック＃１３８２０に変更されるように構成され得る。別の実施形態では、符号化フォーマットの変更は、あったとしても「圧縮なしモード」（３８３０）の後にのみトリガされてもよく、または代替的には、間に「圧縮なしモード」（３８３０）がなくても、事前に定められたコンテキスト情報Ｓ６００の変化を検出するといつでもトリガされてもよい。

【0099】

様々な例示的な構成は、本明細書で開示する方法および他の構造を当業者が製造または使用できるように与えたものである。本明細書で図示および説明した流れ図、ブロック図、および他の構造は例にすぎず、これらの構造の他の変形形態も開示の範囲内である。これらの構成に対する様々な変更が可能であり、本明細書で提示した一般的原理は他の構成にも同様に適用できる。たとえば、本開示の範囲は例示した構成に限定されないことが強調される。むしろ、本明細書で説明する様々な特定の構成の特徴が互いに矛盾していない場合、そのような特徴を組み合わせて、本開示の範囲内に含まれる他の構成を生成することができることが明確に企図され、本明細書によって開示される。また、装置の２つ以上の要素の間の接続について説明する場合は、１つまたは複数の介在する要素（フィルタなど）が存在してもよく、方法の２つ以上のタスクの間の接続について説明する場合は、１つまたは複数の介在するタスクまたは動作（フィルタ処理演算など）が存在してもよいことが明確に企図され、本明細書によって開示される。

【0100】

本明細書で説明する構成は、部分的にまたは全体的に、配線回路として、特定用途向け集積回路中に作成された回路構成として、または不揮発性記憶装置にロードされるファームウェアプログラム、または、マイクロプロセッサもしくは他のデジタル信号処理ユニットなどの論理要素のアレイによって実行可能な命令である機械可読コードとしてコンピュータ可読媒体からロードされる、もしくはコンピュータ可読媒体にロードされる、ソフトウェアプログラムとして実装され得る。コンピュータ可読媒体は、（限定はしないが、ダイナミックもしくはスタティックＲＡＭ（ランダムアクセスメモリ）、ＲＯＭ（読取り専用メモリ）、および／またはフラッシュＲＡＭを含み得る）半導体メモリ、強誘電体メモリ、ポリマーメモリ、もしくは位相変化メモリのような記憶要素のアレイ、磁気ディスクもしくは光ディスクのようなディスク媒体、または、データ記憶用の任意の他のコンピュータ可読媒体であってよい。「ソフトウェア」という用語は、ソースコード、アセンブリ言語コード、機械コード、バイナリコード、ファームウェア、マクロコード、マイクロコード、論理要素のアレイによって実行可能な命令の１つまたは複数のセットまたはシーケンス、およびそのような例の任意の組合せを含むことを理解されたい。

【0101】

また、本明細書で開示する方法の各々は、論理要素（たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械）のアレイを含む機械によって読取り可能かつ／または実行可能な命令の１つまたは複数のセットとして（たとえば、上記に記載する１つまたは複数のコンピュータ可読媒体中で）、有形に具現化することができる。したがって、本開示は、上記に示した構成に限定されるものではなく、原開示の一部をなす、出願した添付の特許請求の範囲を含む、本明細書において任意の方法で開示された原理および新規の特徴に一致する最も広い範囲が与えられるべきである。
以下に本願の出願当初の特許請求の範囲に記載された発明を付記する。
[Ｃ１] モバイルデバイスのためのデジタルオーディオ信号を処理する方法であって、
少なくとも１つのマイクロフォンによって音響信号を受信することと、
前記受信された音響信号を前記デジタルオーディオ信号に変換することと、
前記デジタルオーディオ信号から、少なくとも１つの聴覚コンテキスト情報を抽出することと、
イベント開始インジケータを自動的に検出したことに応答して、前記デジタルオーディオ信号のオーディオロギングを実行することと、
イベント終了インジケータを自動的に検出したことに応答して、前記オーディオロギングを終了することと、を備える、方法。
[Ｃ２] 前記変換することは、
前記受信された音響信号を電気信号に変換することと、
前記電気信号をサンプリングして、前記デジタルオーディオ信号を得ることと、
前記デジタルオーディオ信号をバッファに記憶することと、を備え、
前記サンプリングは、サンプリング周波数およびデータ幅に基づく、Ｃ１に記載のデジタルオーディオ信号を処理する方法。
[Ｃ３] 前記少なくとも１つの聴覚コンテキスト情報は、オーディオの分類、キーワードの識別、または話者の識別のうちの少なくとも１つに関連する、Ｃ１に記載のデジタルオーディオ信号を処理する方法。
[Ｃ４] 前記少なくとも１つの聴覚コンテキスト情報は、信号エネルギー、信号対雑音比、スペクトル傾斜、またはゼロクロッシング・レートのうちの１つに少なくとも一部基づく、Ｃ３に記載のデジタルオーディオ信号を処理する方法。
[Ｃ５] 前記少なくとも１つの聴覚コンテキスト情報は、非聴覚情報に少なくとも一部基づく、Ｃ３に記載のデジタルオーディオ信号を処理する方法。
[Ｃ６] 前記非聴覚情報が、スケジューリング情報またはカレンダー情報を備える、Ｃ５に記載のデジタルオーディオ信号を処理する方法。
[Ｃ７] 前記イベント開始インジケータを前記検出することは、前記少なくとも１つの聴覚コンテキスト情報から、少なくとも１つのコンテキスト情報を選択することと、
前記選択されたコンテキスト情報と、少なくとも１つの予め定められた閾値との比較に応答して、前記イベント開始インジケータが検出されたかどうかを判定することと、を備える、Ｃ１に記載のデジタルオーディオ信号を処理する方法。
[Ｃ８] 前記イベント開始インジケータを前記検出することは、非聴覚情報に少なくとも一部基づき、前記非聴覚情報がスケジューリング情報またはカレンダー情報を備える、Ｃ１に記載のデジタルオーディオ信号を処理する方法。
[Ｃ９] 前記オーディオロギングを前記実行することは、
前記少なくとも１つの聴覚コンテキスト情報に少なくとも一部基づいて、前記変換と関連する少なくとも１つのパラメータを更新することと、
追加の処理が必要かどうかを、前記少なくとも１つの聴覚コンテキスト情報に少なくとも一部基づいて判定したことに応答して、前記デジタルオーディオ信号に前記追加の処理を適用して、処理されたオーディオ信号を得ることと、
前記処理されたオーディオ信号をメモリ記憶装置に記憶することと、を備える、Ｃ１に記載のデジタルオーディオ信号を処理する方法。
[Ｃ１０] 前記追加の処理は信号増強処理を含む、Ｃ９に記載のデジタルオーディオ信号を処理する方法。
[Ｃ１１] 前記信号増強処理は、音響エコー除去（ＡＥＣ）、音声増強の受信（ＲＶＥ）、アクティブノイズ除去（ＡＮＣ）、ノイズ抑制（ＮＳ）、音響利得制御（ＡＧＣ）、音量制御（ＡＶＣ）、または音響ダイナミックレンジ制御（ＡＤＲＣ）のうちの少なくとも１つを含む、Ｃ１０に記載のデジタルオーディオ信号を処理する方法。
[Ｃ１２] 前記ノイズ抑制は複数のマイクロフォンに基づく、Ｃ１１に記載のデジタルオーディオ信号を処理する方法。
[Ｃ１３] 前記追加の処理は信号圧縮処理を含む、Ｃ９に記載のデジタルオーディオ信号を処理する方法。
[Ｃ１４] 前記信号圧縮処理は、発話圧縮またはオーディオ圧縮を含む、Ｃ１３に記載のデジタルオーディオ信号を処理する方法。
[Ｃ１５] 少なくとも１つの圧縮パラメータは、前記聴覚コンテキスト情報に基づいて決定される、Ｃ１３に記載のデジタルオーディオ信号を処理する方法。
[Ｃ１６] 前記少なくとも１つの圧縮パラメータは、圧縮モード、ビットレート、またはチャネルの数を含む、Ｃ１５に記載のデジタルオーディオ信号を処理する方法。
[Ｃ１７] 前記メモリ記憶装置は、前記モバイルデバイス内のローカルメモリ、または、ワイヤレスチャネルを通じて前記モバイルデバイスに接続されるリモートメモリを備える、Ｃ９に記載のデジタルオーディオ信号を処理する方法。
[Ｃ１８] 前記メモリ記憶装置は、前記聴覚コンテキスト情報に少なくとも一部基づいて選択される、Ｃ１７に記載のデジタルオーディオ信号を処理する方法。
[Ｃ１９] 前記イベント終了インジケータを前記検出することは、
前記少なくとも１つの聴覚コンテキスト情報から、少なくとも１つのコンテキスト情報を選択することと、
前記選択されたコンテキスト情報と、少なくとも１つの予め定められた閾値との比較に応答して、前記イベント終了インジケータが検出されたかどうかを判定することと、を備える、Ｃ１に記載のデジタルオーディオ信号を処理する方法。
[Ｃ２０] 前記イベント終了インジケータを前記検出することは、予め定められた時間期間の間聴覚イベントが発生しなかったことに少なくとも一部基づく、Ｃ１に記載のデジタルオーディオ信号を処理する方法。
[Ｃ２１] 前記イベント終了インジケータを前記検出することは、非聴覚情報に少なくとも一部基づき、前記非聴覚情報はスケジューリング情報またはカレンダー情報を備える、Ｃ１に記載のデジタルオーディオ信号を処理する方法。
[Ｃ２２] モバイルデバイスのためのデジタルオーディオ信号を処理するための装置であって、
音響信号を受信するように構成される少なくとも１つのマイクロフォンと、
前記受信された音響信号を前記デジタルオーディオ信号に変換するように構成される変換器と、
前記デジタルオーディオ信号から、少なくとも１つの聴覚コンテキスト情報を抽出するように構成されるコンテキスト識別器と、
イベント開始インジケータを自動的に検出するように構成されるイベント開始マネジャと、
イベント終了インジケータを自動的に検出するように構成されるイベント終了マネジャと、
オーディオロギングプロセッサと、を備え、
前記オーディオロギングプロセッサは、前記イベント開始インジケータの前記検出に応答して、前記デジタルオーディオ信号のオーディオロギングを実行し、
前記イベント終了インジケータの前記検出に応答して、前記オーディオロギングを終了するように構成される、装置。
[Ｃ２３] 前記変換器は、
前記受信された音響信号を電気信号に変換し、
前記電気信号をサンプリングして、前記デジタルオーディオ信号を得て、前記デジタルオーディオ信号をバッファに記憶するように構成され、
前記サンプリングは、サンプリング周波数およびデータ幅に基づく、Ｃ２２に記載のデジタルオーディオ信号を処理するための装置。
[Ｃ２４] 前記少なくとも１つの聴覚コンテキスト情報は、オーディオの分類、キーワードの識別、または話者の識別のうちの少なくとも１つに関連する、Ｃ２２に記載のデジタルオーディオ信号を処理するための装置。
[Ｃ２５] 前記少なくとも１つの聴覚コンテキスト情報は、信号エネルギー、信号対雑音比、スペクトル傾斜、またはゼロクロッシング・レートの１つに少なくとも一部基づく、Ｃ２４に記載のデジタルオーディオ信号を処理するための装置。
[Ｃ２６] 前記少なくとも１つの聴覚コンテキスト情報は、非聴覚情報に少なくとも一部基づく、Ｃ２４に記載のデジタルオーディオ信号を処理するための装置。
[Ｃ２７] 前記非聴覚情報は、スケジューリング情報またはカレンダー情報を備える、Ｃ２６に記載のデジタルオーディオ信号を処理するための装置。
[Ｃ２８] 前記イベント開始マネジャは、
前記少なくとも１つの聴覚コンテキスト情報から、少なくとも１つのコンテキスト情報を選択し、
前記選択されたコンテキスト情報を、少なくとも１つの予め定められた閾値と比較し、
前記比較に応答して、前記イベント開始インジケータが検出されたかどうかを判定するように構成される、Ｃ２２に記載のデジタルオーディオ信号を処理するための装置。
[Ｃ２９] 前記イベント開始インジケータを前記検出することは、非聴覚情報に少なくとも一部基づき、前記非聴覚情報がスケジューリング情報またはカレンダー情報を備える、Ｃ２２に記載のデジタルオーディオ信号を処理するための装置。
[Ｃ３０] 前記オーディオロギングプロセッサは、
前記少なくとも１つの聴覚コンテキスト情報に少なくとも一部基づいて、前記変換器と関連する少なくとも１つのパラメータを更新し、
前記少なくとも１つの聴覚コンテキスト情報に少なくとも一部基づいて、追加の処理が必要かどうかを判定し、
前記判定に応答して、前記追加の処理を前記デジタルオーディオ信号に適用して、処理されたオーディオ信号を得、
前記処理されたオーディオ信号をメモリ記憶装置に記憶するように構成される、Ｃ２２に記載のデジタルオーディオ信号を処理するための装置。
[Ｃ３１] 前記追加の処理は信号増強処理を含む、Ｃ３０に記載のデジタルオーディオ信号を処理するための装置。
[Ｃ３２] 前記信号増強処理は、音響エコー除去（ＡＥＣ）、音声増強の受信（ＲＶＥ）、アクティブノイズ除去（ＡＮＣ）、ノイズ抑制（ＮＳ）、音響利得制御（ＡＧＣ）、音量制御（ＡＶＣ）、または音響ダイナミックレンジ制御（ＡＤＲＣ）のうちの少なくとも１つを含む、Ｃ３１に記載のデジタルオーディオ信号を処理するための装置。
[Ｃ３３] 前記ノイズ抑制は複数のマイクロフォンに基づく、Ｃ３２に記載のデジタルオーディオ信号を処理するための装置。
[Ｃ３４] 前記追加の処理は信号圧縮処理を含む、Ｃ３０に記載のデジタルオーディオ信号を処理するための装置。
[Ｃ３５] 前記信号圧縮処理は、発話圧縮またはオーディオ圧縮を含む、Ｃ３４に記載のデジタルオーディオ信号を処理するための装置。
[Ｃ３６] 少なくとも１つの圧縮パラメータは、前記聴覚コンテキスト情報に基づいて決定される、Ｃ３４に記載のデジタルオーディオ信号を処理するための装置。
[Ｃ３７] 前記少なくとも１つの圧縮パラメータは、圧縮モード、ビットレート、またはチャネルの数を含む、Ｃ３６に記載のデジタルオーディオ信号を処理するための装置。
[Ｃ３８] 前記メモリ記憶装置は、前記モバイルデバイス内のローカルメモリ、または、ワイヤレスチャネルを通じて前記モバイルデバイスに接続されるリモートメモリを備える、Ｃ３０に記載のデジタルオーディオ信号を処理するための装置。
[Ｃ３９] 前記メモリ記憶装置は、前記聴覚コンテキスト情報に少なくとも一部基づいて選択される、Ｃ３８に記載のデジタルオーディオ信号を処理するための装置。
[Ｃ４０] 前記イベント終了マネジャは、
前記少なくとも１つの聴覚コンテキスト情報から、少なくとも１つのコンテキスト情報を選択し、
前記選択されたコンテキスト情報を、少なくとも１つの予め定められた閾値と比較し、
前記比較に応答して、前記イベント終了インジケータが検出されたかどうかを判定するように構成される、Ｃ２２に記載のデジタルオーディオ信号を処理するための装置。
[Ｃ４１] 前記イベント終了インジケータを前記検出することは、予め定められた時間期間の間聴覚イベントが発生しなかったことに少なくとも一部基づく、Ｃ２２に記載のデジタルオーディオ信号を処理するための装置。
[Ｃ４２] 前記イベント終了インジケータを前記検出することは、非聴覚情報に少なくとも一部基づき、前記非聴覚情報はスケジューリング情報またはカレンダー情報を備える、Ｃ２２に記載のデジタルオーディオ信号を処理するための装置。
[Ｃ４３] モバイルデバイスのためのデジタルオーディオ信号を処理するための装置であって、
少なくとも１つのマイクロフォンによって音響信号を受信するための手段と、
前記受信された音響信号を前記デジタルオーディオ信号に変換するための手段と、
前記デジタルオーディオ信号から、少なくとも１つの聴覚コンテキスト情報を抽出するための手段と、
イベント開始インジケータを自動的に検出するための手段と、
前記イベント開始インジケータの前記検出に応答して、前記デジタルオーディオ信号のオーディオロギングを実行するための手段と、
イベント終了インジケータを自動的に検出するための手段と、
前記イベント終了インジケータの前記検出に応答して、前記デジタルオーディオ信号のオーディオロギングを終了するための手段と、を備える、装置。
[Ｃ４４] 前記変換するための手段は、
前記受信された音響信号を電気信号に変換するための手段と、
前記電気信号をサンプリングして、前記デジタルオーディオ信号を得るための手段と、前記デジタルオーディオ信号をバッファに記憶するための手段と、を備え、
前記サンプリングは、サンプリング周波数およびデータ幅に基づく、Ｃ４３に記載のデジタルオーディオ信号を処理するための装置。
[Ｃ４５] 前記少なくとも１つの聴覚コンテキスト情報は、オーディオの分類、キーワードの識別、または話者の識別のうちの少なくとも１つに関連する、Ｃ４３に記載のデジタルオーディオ信号を処理するための装置。
[Ｃ４６] 前記少なくとも１つの聴覚コンテキスト情報は、信号エネルギー、信号対雑音比、スペクトル傾斜、またはゼロクロッシング・レートのうちの１つに少なくとも一部基づく、Ｃ４５に記載のデジタルオーディオ信号を処理するための装置。
[Ｃ４７] 前記少なくとも１つの聴覚コンテキスト情報は、非聴覚情報に少なくとも一部基づく、Ｃ４５に記載のデジタルオーディオ信号を処理するための装置。
[Ｃ４８] 前記非聴覚情報は、スケジューリング情報またはカレンダー情報を備える、Ｃ４７に記載のデジタルオーディオ信号を処理するための装置。
[Ｃ４９] 前記イベント開始インジケータを検出するための前記手段は、
前記少なくとも１つの聴覚コンテキスト情報から、少なくとも１つのコンテキスト情報を選択するための手段と、
前記選択されたコンテキスト情報を、少なくとも１つの予め定められた閾値と比較するための手段と、
前記比較に応答して、前記イベント開始インジケータが検出されたかどうかを判定するための手段と、を備える、Ｃ４３に記載のデジタルオーディオ信号を処理するための装置。
[Ｃ５０] 前記イベント開始インジケータの前記検出は、非聴覚情報に少なくとも一部基づき、前記非聴覚情報はスケジューリング情報またはカレンダー情報を備える、Ｃ４３に記載のデジタルオーディオ信号を処理するための装置。
[Ｃ５１] 前記オーディオロギングを実行するための前記手段は、
前記少なくとも１つの聴覚コンテキスト情報に少なくとも一部基づいて、前記変換するための手段と関連する少なくとも１つのパラメータを更新するための手段と、
前記少なくとも１つの聴覚コンテキスト情報に少なくとも一部基づいて、追加の処理が必要かどうかを判定するための手段と、
前記判定に応答して、前記追加の処理を前記デジタルオーディオ信号に適用し、処理されたオーディオ信号を得るための手段と、
前記処理されたオーディオ信号をメモリ記憶装置に記憶するための手段と、を備える、Ｃ４３に記載のデジタルオーディオ信号を処理するための装置。
[Ｃ５２] 前記追加の処理は信号増強処理を含む、Ｃ５１に記載のデジタルオーディオ信号を処理するための装置。
[Ｃ５３] 前記信号増強処理は、音響エコー除去（ＡＥＣ）、音声増強の受信（ＲＶＥ）、アクティブノイズ除去（ＡＮＣ）、ノイズ抑制（ＮＳ）、音響利得制御（ＡＧＣ）、音量制御（ＡＶＣ）、または音響ダイナミックレンジ制御（ＡＤＲＣ）のうちの少なくとも１つを含む、Ｃ５２に記載のデジタルオーディオ信号を処理するための装置。
[Ｃ５４] 前記ノイズ抑制は複数のマイクロフォンに基づく、Ｃ５３に記載のデジタルオーディオ信号を処理するための装置。
[Ｃ５５] 前記追加の処理は信号圧縮処理を含む、Ｃ５１に記載のデジタルオーディオ信号を処理するための装置。
[Ｃ５６] 前記信号圧縮処理は、発話圧縮またはオーディオ圧縮を含む、Ｃ５５に記載のデジタルオーディオ信号を処理するための装置。
[Ｃ５７] 少なくとも１つの圧縮パラメータは、前記聴覚コンテキスト情報に基づいて決定される、Ｃ５５に記載のデジタルオーディオ信号を処理するための装置。
[Ｃ５８] 前記少なくとも１つの圧縮パラメータは、圧縮モード、ビットレート、またはチャネルの数を含む、Ｃ５７に記載のデジタルオーディオ信号を処理するための装置。
[Ｃ５９] 前記メモリ記憶装置は、前記モバイルデバイス内のローカルメモリ、または、ワイヤレスチャネルを通じて前記モバイルデバイスに接続されるリモートメモリを備える、Ｃ５１に記載のデジタルオーディオ信号を処理するための装置。
[Ｃ６０] 前記メモリ記憶装置は、前記聴覚コンテキスト情報に少なくとも一部基づいて選択される、Ｃ５９に記載のデジタルオーディオ信号を処理するための装置。
[Ｃ６１] 前記イベント終了インジケータを検出するための前記手段は、
前記少なくとも１つの聴覚コンテキスト情報から、少なくとも１つのコンテキスト情報を選択するための手段と、
前記選択されたコンテキスト情報を、少なくとも１つの予め定められた閾値と比較するための手段と、
前記比較に応答して、前記イベント終了インジケータが検出されたかどうかを判定するための手段と、を備える、Ｃ４３に記載のデジタルオーディオ信号を処理するための装置。
[Ｃ６２] 前記イベント終了インジケータを検出するための前記手段は、予め定められた時間期間の間聴覚イベントが発生しなかったことに少なくとも一部基づく、Ｃ４３に記載のデジタルオーディオ信号を処理するための装置。
[Ｃ６３] 前記イベント終了インジケータを検出するための前記手段は、非聴覚情報に少なくとも一部基づき、前記非聴覚情報はスケジューリング情報またはカレンダー情報を備える、Ｃ４３に記載のデジタルオーディオ信号を処理するための装置。
[Ｃ６４] モバイルデバイスのためのデジタルオーディオ信号を処理するための命令を備える非一時的なコンピュータ可読媒体であって、前記命令は、プロセッサによって実行されたとき、前記プロセッサに、
少なくとも１つのマイクロフォンによって音響信号を受信させ、
前記受信された音響信号をデジタルオーディオ信号に変換させ、
前記デジタルオーディオ信号から、少なくとも１つの聴覚コンテキスト情報を抽出させ、イベント開始インジケータを自動的に検出させ、
前記イベント開始インジケータの前記検出に応答して、前記デジタルオーディオ信号のオーディオロギングを実行させ、
イベント終了インジケータを自動的に検出させ、
前記イベント終了インジケータの前記検出に応答して、前記オーディオロギングを終了させる、コンピュータ可読媒体。
[Ｃ６５] プロセッサによって実行されたとき、前記プロセッサに、前記受信された音響信号を変換させる前記命令は、前記プロセッサに、
前記受信された音響信号を電気信号に変換させ、前記デジタルオーディオ信号を取得するために、前記電気信号をサンプリングさせ、
前記デジタルオーディオ信号をバッファに記憶させるように構成され、前記サンプリングは、サンプリング周波数およびデータ幅に基づく、Ｃ６４に記載のコンピュータ可読媒体。
[Ｃ６６] 前記少なくとも１つの聴覚コンテキスト情報は、オーディオの分類、キーワードの識別、または話者の識別のうちの少なくとも１つに関連する、Ｃ６４に記載のコンピュータ可読媒体。
[Ｃ６７] 前記少なくとも１つの聴覚コンテキスト情報は、信号エネルギー、信号対雑音比、スペクトル傾斜、またはゼロクロッシング・レートの１つに少なくとも一部基づく、Ｃ６６に記載のコンピュータ可読媒体。
[Ｃ６８] 前記少なくとも１つの聴覚コンテキスト情報は、非聴覚情報に少なくとも一部基づく、Ｃ６６に記載のコンピュータ可読媒体。
[Ｃ６９] 前記非聴覚情報は、スケジューリング情報またはカレンダー情報を備える、Ｃ６８に記載のコンピュータ可読媒体。
[Ｃ７０] プロセッサによって実行されたとき、前記プロセッサに、前記イベント開始インジケータを検出させる前記命令は、前記プロセッサに、
前記少なくとも１つの聴覚コンテキスト情報から、少なくとも１つのコンテキスト情報を選択させ、
前記選択されたコンテキスト情報を、少なくとも１つの予め定められた閾値と比較させ、
前記比較に応答して、前記イベント開始インジケータが検出されたかどうかを判定させるように構成される、Ｃ６４に記載のコンピュータ可読媒体。
[Ｃ７１] プロセッサによって実行されたとき、前記プロセッサに、前記イベント開始インジケータを検出させる前記命令は、
非聴覚情報に少なくとも一部基づいて前記イベント開始インジケータを検出するように構成され、前記非聴覚情報は、スケジューリング情報またはカレンダー情報を備える、Ｃ６４に記載のコンピュータ可読媒体。
[Ｃ７２] プロセッサによって実行されたとき、前記プロセッサに、前記オーディオロギングを実行させる前記命令は、前記プロセッサに、
前記少なくとも１つの聴覚コンテキスト情報に少なくとも一部基づいて、前記変換と関連する少なくとも１つのパラメータを更新させ、
前記少なくとも１つの聴覚コンテキスト情報に少なくとも一部基づいて、追加の処理が必要かどうかを判定させ、
処理されたオーディオ信号を取得するために、前記判定に応答して、前記追加の処理を前記デジタルオーディオ信号に適用させ、
前記処理されたオーディオ信号をメモリ記憶装置に記憶させるように構成される、Ｃ６４に記載のコンピュータ可読媒体。
[Ｃ７３] 前記追加の処理は信号増強処理を含む、Ｃ７２に記載のコンピュータ可読媒体。
[Ｃ７４] 前記信号増強処理は、音響エコー除去（ＡＥＣ）、音声増強の受信（ＲＶＥ）、アクティブノイズ除去（ＡＮＣ）、ノイズ抑制（ＮＳ）、音響利得制御（ＡＧＣ）、音量制御（ＡＶＣ）、または音響ダイナミックレンジ制御（ＡＤＲＣ）のうちの少なくとも１つを含む、Ｃ７３に記載のコンピュータ可読媒体。
[Ｃ７５] 前記ノイズ抑制は複数のマイクロフォンに基づく、Ｃ７４に記載のコンピュータ可読媒体。
[Ｃ７６] 前記追加の処理は信号圧縮処理を含む、Ｃ７２に記載のコンピュータ可読媒体。
[Ｃ７７] 前記信号圧縮処理は、発話圧縮またはオーディオ圧縮を含む、Ｃ７６に記載のコンピュータ可読媒体。
[Ｃ７８] 少なくとも１つの圧縮パラメータは、前記聴覚コンテキスト情報に基づいて決定される、Ｃ７６に記載のコンピュータ可読媒体。
[Ｃ７９] 前記少なくとも１つの圧縮パラメータは、圧縮モード、ビットレート、またはチャネルの数を含む、Ｃ７８に記載のコンピュータ可読媒体。
[Ｃ８０] 前記メモリ記憶装置は、前記モバイルデバイス内のローカルメモリ、または、ワイヤレスチャネルを通じて前記モバイルデバイスに接続されるリモートメモリを備える、Ｃ７２に記載のコンピュータ可読媒体。
[Ｃ８１] 前記メモリ記憶装置は、前記聴覚コンテキスト情報に少なくとも一部基づいて選択される、Ｃ８０に記載のコンピュータ可読媒体。
[Ｃ８２] プロセッサによって実行されたとき、前記プロセッサに、前記イベント終了インジケータを検出させる前記命令は、前記プロセッサに、
前記少なくとも１つの聴覚コンテキスト情報から、少なくとも１つのコンテキスト情報を選択させ、
前記選択されたコンテキスト情報を、少なくとも１つの予め定められた閾値と比較させ、
前記比較に応答して、前記イベント終了インジケータが検出されたかどうかを判定させるように構成される、Ｃ６４に記載のコンピュータ可読媒体。
[Ｃ８３] プロセッサによって実行されたとき、前記プロセッサに、前記イベント終了インジケータを検出させる前記命令は、予め定められた期間期間の間聴覚イベントが発生しないことに少なくとも一部基づいて前記イベント終了インジケータを検出するように構成される、Ｃ６４に記載のコンピュータ可読媒体。
[Ｃ８４] プロセッサによって実行されたとき、前記プロセッサに、前記イベント終了インジケータを検出させる前記命令は、非聴覚情報に少なくとも一部基づいて前記イベント終了インジケータを検出するように構成され、前記非聴覚情報は、スケジューリング情報またはカレンダー情報を備える、Ｃ６４に記載のコンピュータ可読媒体。
[Ｃ８５] イベント開始インジケータを自動的に検出したことに応答して、オーディオ入力信号の第１の部分を処理して第１の情報を得ることと、
前記第１の情報に基づいて、少なくとも１つの記録パラメータを決定することと、
前記決定された少なくとも１つの記録パラメータに基づいて、前記モバイルデバイスのオーディオキャプチャユニットを再構成することと、を備える、モバイルデバイスのための方法。
[Ｃ８６] 前記オーディオキャプチャユニットを前記再構成することは、前記オーディオ入力信号の非アクティブな部分の間に発生する、Ｃ８５に記載の方法。
[Ｃ８７] 前記少なくとも１つの記録パラメータは、前記モバイルデバイスのＡ／Ｄコンバータのサンプリング周波数またはデータ幅を示す情報を含む、Ｃ８５に記載の方法。
[Ｃ８８] 前記少なくとも１つの記録パラメータは、前記モバイルデバイスのアクティブなマイクロフォンの数を示す情報を含む、Ｃ８５に記載の方法。
[Ｃ８９] 前記少なくとも１つの記録パラメータは、少なくとも１つのマイクロフォンの起動間隔またはアクティブ期間を示すタイミング情報を含む、Ｃ８５に記載の方法。
[Ｃ９０] 前記第１の情報は、前記モバイルデバイスが記録を行なっている環境を表すコンテキスト情報である、Ｃ８５に記載の方法。
[Ｃ９１] 前記第１の情報は、前記オーディオ入力信号の特性を表すコンテキスト情報である、Ｃ８５に記載の方法。
[Ｃ９２] 前記イベント開始インジケータは、ワイヤレスチャネルを通じて送信される信号に基づく、Ｃ８５に記載の方法。
[Ｃ９３] 前記オーディオ入力信号の第２の部分を処理して、第２の情報を得ることと、
バックグラウンドノイズを抑制することによって、前記オーディオ入力信号を増強して、増強された信号を得ることと、
前記増強された信号を符号化して、符号化された信号を得ることと、
前記モバイルデバイス内のローカル記憶装置に、前記符号化された信号を記憶することと、をさらに備える、Ｃ８５に記載の方法。
[Ｃ９４] 前記第２の情報に基づいて、前記オーディオ入力信号の前記増強の度合いを決定することをさらに備える、Ｃ９３に記載の方法。
[Ｃ９５] 前記増強された信号を前記符号化することは、
前記第２の情報に基づいて、符号化タイプを決定することと、
前記決定された符号化のための少なくとも１つの符号化パラメータを決定することと、
前記決定された符号化タイプおよび前記決定された少なくとも１つの符号化パラメータに基づいて、前記増強された信号を処理して、前記符号化された信号を得ることと、を備え、
前記少なくとも１つの符号化パラメータは、ビットレートまたは符号化モードを備える、Ｃ９３に記載の方法。
[Ｃ９６] イベント終了インジケータを自動的に検出することと、
イベント終了インジケータの前記検出に応答して、前記モバイルデバイス内の前記ローカル記憶装置と、ワイヤレスチャネルを通じて前記モバイルデバイスに接続されるネットワーク記憶装置から、前記符号化された信号のための長期記憶装置の位置を決定することと、をさらに備える、Ｃ９３に記載の方法。
[Ｃ９７] 前記長期記憶装置の位置を前記決定することは、前記符号化された信号の優先度に基づく、Ｃ９６に記載の方法。
[Ｃ９８] モバイルデバイスのための装置であって、
イベント開始インジケータを自動的に検出し、
前記イベント開始インジケータの前記検出に応答して、オーディオ入力信号の第１の部分を処理して第１の情報を得て、
前記第１の情報に基づいて、少なくとも１つの記録パラメータを決定するように構成される、オーディオロギングプロセッサと、
前記決定された少なくとも１つの記録パラメータに基づいて、自身を再構成するように構成されたオーディオキャプチャユニットと、を備える、装置。
[Ｃ９９] 前記オーディオキャプチャユニットは、前記オーディオ入力信号の非アクティブな部分の間に、自身を再構成するように構成される、Ｃ９８に記載の装置。
[Ｃ１００] 前記少なくとも１つの記録パラメータは、前記オーディオキャプチャユニットのＡ／Ｄコンバータのサンプリング周波数またはデータ幅を示す情報を含む、Ｃ９８に記載の装置。
[Ｃ１０１] 前記少なくとも１つの記録パラメータは、前記モバイルデバイスのアクティブなマイクロフォンの数を示す情報を含む、Ｃ９８に記載の装置。
[Ｃ１０２] 前記少なくとも１つの記録パラメータは、少なくとも１つのマイクロフォンの起動間隔またはアクティブ期間を示すタイミング情報を含む、Ｃ９８に記載の装置。
[Ｃ１０３] 前記第１の情報は、前記モバイルデバイスが記録を行なっている環境を示すコンテキスト情報である、Ｃ９８に記載の装置。
[Ｃ１０４] 前記第１の情報は、前記オーディオ入力信号の特性を示すコンテキスト情報である、Ｃ９８に記載の装置。
[Ｃ１０５] 前記イベント開始インジケータは、ワイヤレスチャネルを通じて送信される信号に基づく、Ｃ９８に記載の装置。
[Ｃ１０６] 前記オーディオロギングプロセッサはさらに、
前記オーディオ入力信号の第２の部分を処理して、第２の情報を得、
バックグラウンドノイズを抑制することによって、前記オーディオ入力信号を増強して、増強された信号を得、
前記増強された信号を符号化して、符号化された信号を得、
前記モバイルデバイス内のローカル記憶装置に、前記符号化された信号を記憶するように構成される、Ｃ９８に記載の装置。
[Ｃ１０７] 前記オーディオロギングプロセッサはさらに、前記第２の情報に基づいて、前記オーディオ入力信号の前記増強の度合いを決定するように構成される、Ｃ１０６に記載の装置。
[Ｃ１０８] 前記オーディオロギングプロセッサは、
前記第２の情報に基づいて、符号化タイプを決定し、
前記決定された符号化のための少なくとも１つの符号化パラメータを決定し、
前記決定された符号化タイプおよび前記決定された少なくとも１つの符号化パラメータに基づいて、前記増強された信号を処理して、前記符号化された信号を得るように構成され、
前記少なくとも１つの符号化パラメータは、ビットレートまたは符号化モードを備える、Ｃ１０６に記載の装置。
[Ｃ１０９] 前記オーディオロギングプロセッサはさらに、
イベント終了インジケータを自動的に検出し、
イベント終了インジケータの前記検出に応答して、前記モバイルデバイス内の前記ローカル記憶装置と、ワイヤレスチャネルを通じて前記モバイルデバイスに接続されるネットワーク記憶装置から、前記符号化された信号のための長期記憶装置の位置を決定するように構成される、Ｃ１０６に記載の装置。
[Ｃ１１０] 前記長期記憶装置の位置を前記決定することは、前記符号化された信号の優先度に基づく、Ｃ１０９に記載の装置。
[Ｃ１１１] イベント開始インジケータを自動的に検出するための手段と、
前記イベント開始インジケータの検出に応答して、オーディオ入力信号の第１の部分を処理して第１の情報を得るための手段と、
前記第１の情報に基づいて、少なくとも１つの記録パラメータを決定するための手段と、
前記決定された少なくとも１つの記録パラメータに基づいて、前記モバイルデバイスのオーディオキャプチャユニットを再構成するための手段と、を備える、モバイルデバイスのための装置。
[Ｃ１１２] 前記オーディオキャプチャユニットを再構成するための前記手段は、前記オーディオ入力信号の非アクティブな部分の間に発生する、Ｃ１１１に記載の装置。
[Ｃ１１３] 前記少なくとも１つの記録パラメータは、前記オーディオキャプチャユニットのＡ／Ｄコンバータのサンプリング周波数またはデータ幅を示す情報を含む、Ｃ１１１に記載の装置。
[Ｃ１１４] 前記少なくとも１つの記録パラメータは、前記モバイルデバイスのアクティブなマイクロフォンの数を示す情報を含む、Ｃ１１１に記載の装置。
[Ｃ１１５] 前記少なくとも１つの記録パラメータは、少なくとも１つのマイクロフォンの起動間隔またはアクティブ期間を示すタイミング情報を含む、Ｃ１１１に記載の装置。
[Ｃ１１６] 前記第１の情報は、前記モバイルデバイスが記録を行なっている環境を示すコンテキスト情報である、Ｃ１１１に記載の装置。
[Ｃ１１７] 前記第１の情報は、前記オーディオ入力信号の特性を示すコンテキスト情報である、Ｃ１１１に記載の装置。
[Ｃ１１８] 前記イベント開始インジケータは、ワイヤレスチャネルを通じて送信される信号に基づく、Ｃ１１１に記載の装置。
[Ｃ１１９] 前記オーディオ入力信号の第２の部分を処理して、第２の情報を得るための手段と、
バックグラウンドノイズを抑制することによって、前記オーディオ入力信号を増強して、増強された信号を得るための手段と、
前記増強された信号を符号化して、符号化された信号を得るための手段と、
前記モバイルデバイス内のローカル記憶装置に、前記符号化された信号を記憶するための手段と、をさらに備える、Ｃ１１１に記載の装置。
[Ｃ１２０] 前記第２の情報に基づいて、前記オーディオ入力信号の前記増強の度合いを決定するための手段をさらに備える、Ｃ１１９に記載の装置。
[Ｃ１２１] 前記増強された信号を符号化するための前記手段は、
前記第２の情報に基づいて、符号化タイプを決定するための手段と、
前記決定された符号化のための少なくとも１つの符号化パラメータを決定するための手段と、
前記決定された符号化タイプおよび前記決定された少なくとも１つの符号化パラメータに基づいて、前記増強された信号を処理して、前記符号化された信号を得るための手段と、を備え、
前記少なくとも１つの符号化パラメータは、ビットレートまたは符号化モードを備える、Ｃ１１９に記載の装置。
[Ｃ１２２] イベント終了インジケータを自動的に検出するための手段と、
イベント終了インジケータの前記検出に応答して、前記モバイルデバイス内の前記ローカル記憶装置と、ワイヤレスチャネルを通じて前記モバイルデバイスに接続されるネットワーク記憶装置とから、前記符号化された信号のための長期記憶装置の位置を決定するための手段と、をさらに備える、Ｃ１１９に記載の装置。
[Ｃ１２３] 前記長期記憶装置の位置を決定するための前記手段は、前記符号化された信号の優先度に基づく、Ｃ１２２に記載の装置。
[Ｃ１２４] プロセッサによって実行されたとき、前記プロセッサに、
イベント開始インジケータを自動的に検出させ、
前記イベント開始インジケータの検出に応答して、第１の情報を取得するために、オーディオ入力信号の第１の部分を処理させ、
前記第１の情報に基づいて、少なくとも１つの記録パラメータを決定させ、
前記決定された少なくとも１つの記録パラメータに基づいて、前記モバイルデバイスのオーディオキャプチャユニットを再構成させる、命令を備える、非一時的なコンピュータ可読媒体。
[Ｃ１２５] プロセッサによって実行されたとき、前記プロセッサに、前記オーディオキャプチャユニットを再構成させる前記命令は、前記オーディオ入力信号の非アクティブな部分の間に前記オーディオキャプチャユニットを再構成するように構成される、Ｃ１２４に記載のコンピュータ可読媒体。
[Ｃ１２６] 前記少なくとも１つの記録パラメータは、前記オーディオキャプチャユニットのＡ／Ｄコンバータのサンプリング周波数またはデータ幅を示す情報を含む、Ｃ１２４に記載のコンピュータ可読媒体。
[Ｃ１２７] 前記少なくとも１つの記録パラメータは、前記モバイルデバイスのアクティブなマイクロフォンの数を示す情報を含む、Ｃ１２４に記載のコンピュータ可読媒体。
[Ｃ１２８] 前記少なくとも１つの記録パラメータは、少なくとも１つのマイクロフォンの起動間隔またはアクティブ期間を示すタイミング情報を含む、Ｃ１２４に記載のコンピュータ可読媒体。
[Ｃ１２９] 前記第１の情報は、前記モバイルデバイスが記録を行なっている環境を示すコンテキスト情報である、Ｃ１２４に記載のコンピュータ可読媒体。
[Ｃ１３０] 前記第１の情報は、前記オーディオ入力信号の特性を示すコンテキスト情報である、Ｃ１２４に記載のコンピュータ可読媒体。
[Ｃ１３１] 前記イベント開始インジケータは、ワイヤレスチャネルを通じて送信される信号に基づく、Ｃ１２４に記載のコンピュータ可読媒体。
[Ｃ１３２] 前記命令は、プロセッサによって実行されたとき、前記プロセッサに、
第２の情報を取得するために、前記オーディオ入力信号の第２の部分を処理させ、
増強された信号を取得するために、バックグラウンドノイズを抑制することによって、前記オーディオ入力信号を増強させ、
符号化された信号を取得するために、前記増強された信号を符号化させ、
前記モバイルデバイス内のローカル記憶装置に、前記符号化された信号を記憶させる、Ｃ１２４に記載のコンピュータ可読媒体。
[Ｃ１３３] 前記命令は、プロセッサによって実行されたとき、前記プロセッサに、前記第２の情報に基づいて、前記オーディオ入力信号の前記増強の度合いを決定させる、Ｃ１３２に記載のコンピュータ可読媒体。
[Ｃ１３４] プロセッサによって実行されたとき、前記プロセッサに、前記増強された信号を符号化させる前記命令は、前記プロセッサに、
前記第２の情報に基づいて、符号化タイプを決定させ、
前記決定された符号化のための少なくとも１つの符号化パラメータを決定させ、
前記符号化された信号を取得するために、前記決定された符号化タイプおよび前記決定された少なくとも１つの符号化パラメータに基づいて、前記増強された信号を処理させる、ように構成され、
前記少なくとも１つの符号化パラメータは、ビットレートまたは符号化モードを備える、Ｃ１３２に記載のコンピュータ可読媒体。
[Ｃ１３５] 前記命令は、プロセッサによって実行されたとき、前記プロセッサに、
イベント終了インジケータを自動的に検出させ、
イベント終了インジケータの前記検出に応答して、前記モバイルデバイス内の前記ローカル記憶装置と、ワイヤレスチャネルを通じて前記モバイルデバイスに接続されるネットワーク記憶装置とから、前記符号化された信号のための長期記憶装置の位置を決定させる、Ｃ１３２に記載のコンピュータ可読媒体。
[Ｃ１３６] プロセッサによって実行されたとき、前記プロセッサに、前記長期記憶装置の位置を決定させる前記命令は、前記プロセッサに、前記符号化された信号の優先度に基づいて、前記長期記憶装置の位置を決定させる、Ｃ１３５に記載のコンピュータ可読媒体。

【図1A】