特許5937202 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ クゥアルコム・インコーポレイテッドの特許一覧

特許5937202モバイルデバイスにおけるオーディオデータ収集プライバシーを保護すること

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2a
2b
2c
3a
3b
4

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】5937202

(24)【登録日】2016年5月20日

(45)【発行日】2016年6月22日

(54)【発明の名称】モバイルデバイスにおけるオーディオデータ収集プライバシーを保護すること

(51)【国際特許分類】

G10L 21/01 20130101AFI20160609BHJP

G10L 15/10 20060101ALI20160609BHJP

【ＦＩ】

G10L21/01

G10L15/10 500Z

【請求項の数】32

【全頁数】23

(21)【出願番号】特願2014-512870(P2014-512870)

(86)(22)【出願日】2012年5月14日

(65)【公表番号】特表2014-517939(P2014-517939A)

(43)【公表日】2014年7月24日

(86)【国際出願番号】US2012037783

(87)【国際公開番号】WO2012162009

(87)【国際公開日】20121129

【審査請求日】2014年1月7日

(31)【優先権主張番号】61/488,927

(32)【優先日】2011年5月23日

(33)【優先権主張国】US

(31)【優先権主張番号】13/213,294

(32)【優先日】2011年8月19日

(33)【優先権主張国】US

(73)【特許権者】

【識別番号】595020643

【氏名又は名称】クゥアルコム・インコーポレイテッド

【氏名又は名称原語表記】ＱＵＡＬＣＯＭＭＩＮＣＯＲＰＯＲＡＴＥＤ

(74)【代理人】

【識別番号】100108855

【弁理士】

【氏名又は名称】蔵田昌俊

(74)【代理人】

【識別番号】100109830

【弁理士】

【氏名又は名称】福原淑弘

(74)【代理人】

【識別番号】100103034

【弁理士】

【氏名又は名称】野河信久

(74)【代理人】

【識別番号】100075672

【弁理士】

【氏名又は名称】峰隆司

(74)【代理人】

【識別番号】100153051

【弁理士】

【氏名又は名称】河野直樹

(74)【代理人】

【識別番号】100140176

【弁理士】

【氏名又は名称】砂川克

(74)【代理人】

【識別番号】100158805

【弁理士】

【氏名又は名称】井関守三

(74)【代理人】

【識別番号】100172580

【弁理士】

【氏名又は名称】赤穂隆雄

(74)【代理人】

【識別番号】100179062

【弁理士】

【氏名又は名称】井上正

(74)【代理人】

【識別番号】100124394

【弁理士】

【氏名又は名称】佐藤立志

(74)【代理人】

【識別番号】100112807

【弁理士】

【氏名又は名称】岡田貴志

(74)【代理人】

【識別番号】100111073

【弁理士】

【氏名又は名称】堀内美保子

(72)【発明者】

【氏名】グロコップ、レオナルド・エイチ．

(72)【発明者】

【氏名】ナラヤナン、ビドゥヤ

(72)【発明者】

【氏名】ドルター、ジェームズ・ダブリュ．

(72)【発明者】

【氏名】ナンダ、サンジブ

【審査官】山下剛史

(56)【参考文献】

【文献】特開２００９−２９４６４２（ＪＰ，Ａ）

【文献】特開２０１０−７９７４８（ＪＰ，Ａ）

【文献】特表２００５−５３４０６１（ＪＰ，Ａ）

【文献】特開２００５−８６７０７（ＪＰ，Ａ）

【文献】特開２００９−７５１６０（ＪＰ，Ａ）

【文献】特開２００６−２３８１１０（ＪＰ，Ａ）

【文献】山野貴一郎他，"音響情報を用いたライフログデータのクラスタリング"，第３回音声ドキュメント処理ワークショップ講演論文集，豊橋技術科学大学メディア科学リサーチセンター，２００９年２月，pp.65-70

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ１０Ｌ１５／００−１７／２６，２１／００−２５／９３

(57)【特許請求の範囲】

【請求項1】

デバイスが、連続オーディオストリーム中に含まれているオーディオデータのサブセットをキャプチャすることであって、
前記連続オーディオストリームが人間音声を含んでおり、
オーディオデータの前記サブセットが前記人間音声の成分を不明瞭にし、
オーディオデータの前記サブセットが複数のオーディオデータセグメントを備え、
前記複数のオーディオデータセグメントの各々のオーディオデータセグメントは、前記連続オーディオストリームの複数の時間ブロックの異なる時間ブロック内でキャプチャされ、前記複数の時間ブロックの各々の時間ブロックは、各オーディオセグメントよりも時間的に長い、
キャプチャすることと、
前記デバイスが、オーディオ特性についてオーディオデータの前記サブセットを分析することと、
前記デバイスが、前記オーディオ特性に少なくとも部分的に基づいて周囲環境の判断を行うこととを備える、プライバシー敏感オーディオ分析の方法。

【請求項2】

オーディオデータの前記サブセットが、了解性忠実度をもって前記連続オーディオストリームを再生するために必要とされるよりも少ないビット数を有する前記連続オーディオストリームの計算された関数を備える、請求項１に記載のプライバシー敏感オーディオ分析の方法。

【請求項3】

前記オーディオ特性に少なくとも部分的に基づいて人間の識別情報の判断を行うことをさらに備える、請求項１に記載のプライバシー敏感オーディオ分析の方法。

【請求項4】

前記複数のオーディオデータセグメントの各々が、３０ｍｓ〜１００ｍｓの記録されたオーディオを備える、請求項１に記載のプライバシー敏感オーディオ分析の方法。

【請求項5】

前記連続オーディオストリームの各時間ブロックは、長さが２５０ｍｓ〜２ｓである、請求項１に記載のプライバシー敏感オーディオ分析の方法。

【請求項6】

オーディオデータの前記サブセットを分析する前に、前記複数のオーディオデータセグメントの順序をランダムに変更することをさらに備える、請求項１に記載のプライバシー敏感オーディオ分析の方法。

【請求項7】

前記複数のオーディオデータセグメントの前記順序をランダムに変更することが、
全地球測位システム（ＧＰＳ）デバイスと、
モバイルデバイス内の回路からの信号雑音と、
マイクロフォンからの信号雑音と、
アンテナからの信号雑音とのうちの１つからの情報に少なくとも部分的に基づく、請求項６に記載のプライバシー敏感オーディオ分析の方法。

【請求項8】

マイクロフォンと、
前記マイクロフォンに通信可能に結合された処理ユニットであって、
前記マイクロフォンからの信号中に表される連続オーディオストリーム中に含まれているオーディオデータのサブセットをキャプチャすることであって、
前記連続オーディオストリームが人間音声を含んでおり、
オーディオデータの前記サブセットが前記人間音声の成分を不明瞭にし、
オーディオデータの前記サブセットが複数のオーディオデータセグメントを備え、
前記複数のオーディオデータセグメントの各々のオーディオデータセグメントは、前記連続オーディオストリームの複数の時間ブロックの異なる時間ブロック内でキャプチャされ、前記複数の時間ブロックの各々の時間ブロックは、各オーディオセグメントよりも時間的に長い、
キャプチャすることと、
オーディオ特性についてオーディオデータの前記サブセットを分析することと、
前記オーディオ特性に少なくとも部分的に基づいて周囲環境の判断を行うことと
を行うように構成された処理ユニットとを備える、プライバシー敏感オーディオを不明瞭にするためのデバイス。

【請求項9】

オーディオデータの前記サブセットが、了解性忠実度をもって前記連続オーディオストリームを再生するために必要とされるよりも少ないビット数を有する前記連続オーディオストリームの計算された関数を備える、請求項８に記載のプライバシー敏感オーディオを不明瞭にするためのデバイス。

【請求項10】

前記処理ユニットが、前記オーディオ特性に少なくとも部分的に基づいて人間の識別情報の判断を行うように構成された、請求項８に記載のプライバシー敏感オーディオを不明瞭にするためのデバイス。

【請求項11】

前記複数のオーディオデータセグメントの各々が、３０ｍｓ〜１００ｍｓの記録されたオーディオを備える、請求項８に記載のプライバシー敏感オーディオを不明瞭にするためのデバイス。

【請求項12】

前記連続オーディオストリームの各時間ブロックは、長さが２５０ｍｓ〜２ｓである、請求項８に記載のプライバシー敏感オーディオを不明瞭にするためのデバイス。

【請求項13】

前記処理ユニットが、オーディオデータの前記サブセットを分析する前に、前記複数のオーディオデータセグメントの順序をランダムに変更するように構成された、請求項８に記載のプライバシー敏感オーディオを不明瞭にするためのデバイス。

【請求項14】

前記処理ユニットが、
全地球測位システム（ＧＰＳ）デバイスと、
モバイルデバイス内の回路からの信号雑音と、
前記マイクロフォンからの信号雑音と、
アンテナからの信号雑音とのうちの１つからの情報に少なくとも部分的に基づいて、前記複数のオーディオデータセグメントの前記順序をランダムに変更するように構成された、請求項１３に記載のプライバシー敏感オーディオを不明瞭にするためのデバイス。

【請求項15】

連続オーディオストリームを受信するように構成されたオーディオセンサーと、
前記オーディオセンサーに結合された少なくとも１つの処理ユニットであって、
オーディオデータのサブセットが前記連続オーディオストリーム中に含まれる人間音声の成分を不明瞭にするように、前記連続オーディオストリーム中に含まれているオーディオデータの前記サブセットをキャプチャすることであって、
オーディオデータの前記サブセットが複数のオーディオデータセグメントを備え、
前記複数のオーディオデータセグメントの各々のオーディオデータセグメントは、前記連続オーディオストリームの複数の時間ブロックの異なる時間ブロック内でキャプチャされ、前記複数の時間ブロックの各々の時間ブロックは、各オーディオセグメントよりも時間的に長い、
キャプチャすることと、
オーディオ特性についてオーディオデータの前記サブセットを分析することと、
前記オーディオ特性に少なくとも部分的に基づいて周囲環境の判断を行うことと
を行うように構成された少なくとも１つの処理ユニットとを備える、モバイルデバイスに関連する環境を判断するためのシステム。

【請求項16】

前記モバイルデバイスからリモートにあるロケーションに、ネットワークを介してオーディオデータの前記サブセットを表す情報を送るように構成されたネットワークインターフェースをさらに備える、請求項１５に記載のモバイルデバイスに関連する環境を判断するためのシステム。

【請求項17】

前記少なくとも１つの処理ユニットが、前記モバイルデバイスからリモートにある前記ロケーションにおいて前記周囲環境の前記判断を行うように構成された、請求項１６に記載のモバイルデバイスに関連する環境を判断するためのシステム。

【請求項18】

前記少なくとも１つの処理ユニットが、前記オーディオ特性に少なくとも部分的に基づいて人間の識別情報の判断を行うように構成された、請求項１５に記載のモバイルデバイスに関連する環境を判断するためのシステム。

【請求項19】

前記複数のオーディオデータセグメントの各々が、３０ｍｓ〜１００ｍｓの記録されたオーディオを備える、請求項１５に記載のモバイルデバイスに関連する環境を判断するためのシステム。

【請求項20】

前記連続オーディオストリームの各時間ブロックは、長さが２５０ｍｓ〜２ｓである、請求項１５に記載のモバイルデバイスに関連する環境を判断するためのシステム。

【請求項21】

前記少なくとも１つの処理ユニットが、オーディオデータの前記サブセットを分析する前に、前記複数のオーディオデータセグメントの順序をランダムに変更するように構成された、請求項１５に記載のモバイルデバイスに関連する環境を判断するためのシステム。

【請求項22】

連続オーディオストリーム中に含まれているオーディオデータのサブセットをキャプチャすることであって、
前記連続オーディオストリームが人間音声を含んでおり、
オーディオデータの前記サブセットが前記人間音声の成分を不明瞭にし、
オーディオデータの前記サブセットが複数のオーディオデータセグメントを備え、
前記複数のオーディオデータセグメントの各々のオーディオデータセグメントは、前記連続オーディオストリームの複数の時間ブロックの異なる時間ブロック内でキャプチャされ、前記複数の時間ブロックの各々の時間ブロックは、各オーディオセグメントよりも時間的に長い、
キャプチャすることと、
オーディオ特性についてオーディオデータの前記サブセットを分析することと、
前記オーディオ特性に少なくとも部分的に基づいて周囲環境の判断を行うこととをプロセッサに行わせるためのコンピュータプログラム。

【請求項23】

オーディオデータの前記サブセットが、了解性忠実度をもって前記連続オーディオストリームを再生するために必要とされるよりも少ないビット数を有する前記連続オーディオストリームの計算された関数を備える、請求項２２に記載のコンピュータプログラム。

【請求項24】

前記オーディオ特性に少なくとも部分的に基づいて人間の識別情報の判断を行うことを前記プロセッサにさらに行わせる、請求項２２に記載のコンピュータプログラム。

【請求項25】

前記複数のオーディオデータセグメントの各々が、３０ｍｓ〜１００ｍｓの記録されたオーディオを備える、請求項２２に記載のコンピュータプログラム。

【請求項26】

前記連続オーディオストリームの各時間ブロックは、長さが２５０ｍｓ〜２ｓである、請求項２２に記載のコンピュータプログラム。

【請求項27】

オーディオデータの前記サブセットを分析する前に、前記複数のオーディオデータセグメントの順序をランダムに変更することを前記プロセッサにさらに行わせる、請求項２２に記載のコンピュータプログラム。

【請求項28】

全地球測位システム（ＧＰＳ）デバイスと、
モバイルデバイス内の回路からの信号雑音と、
マイクロフォンからの信号雑音と、
アンテナからの信号雑音とのうちの１つからの情報に少なくとも部分的に基づいて、前記複数のオーディオデータセグメントの前記順序をランダムに変更することを前記プロセッサにさらに行わせる、請求項２７に記載のコンピュータプログラム。

【請求項29】

マイクロフォンからの信号中に表される連続オーディオストリーム中に含まれているオーディオデータのサブセットをキャプチャするための手段であって、
前記連続オーディオストリームが人間音声を含んでおり、
オーディオデータの前記サブセットが前記人間音声の成分を不明瞭にし、
オーディオデータの前記サブセットが複数のオーディオデータセグメントを備え、
前記複数のオーディオデータセグメントの各々のオーディオデータセグメントは、前記連続オーディオストリームの複数の時間ブロックの異なる時間ブロック内でキャプチャされ、前記複数の時間ブロックの各々の時間ブロックは、各オーディオセグメントよりも時間的に長い、
キャプチャするための手段と、
オーディオ特性についてオーディオデータの前記サブセットを分析するための手段と、
前記オーディオ特性に少なくとも部分的に基づいて周囲環境を判断するための手段とを備える、プライバシー敏感オーディオを不明瞭にするためのデバイス。

【請求項30】

オーディオデータの前記サブセットをキャプチャするための前記手段が、了解性忠実度をもって前記連続オーディオストリームを再生するために必要とされるよりも少ないビット数を有する前記連続オーディオストリームの計算された関数に従ってオーディオデータの前記サブセットをキャプチャするように構成された、請求項２９に記載のプライバシー敏感オーディオを不明瞭にするためのデバイス。

【請求項31】

前記周囲環境を判断するための前記手段が、前記オーディオ特性に少なくとも部分的に基づいて人間の識別情報の判断を行うように構成された、請求項２９に記載のプライバシー敏感オーディオを不明瞭にするためのデバイス。

【請求項32】

オーディオデータの前記サブセットをキャプチャするための前記手段は、前記複数のオーディオデータセグメントの各々が、３０ｍｓ〜１００ｍｓの記録されたオーディオを備えるように、オーディオデータの前記サブセットをキャプチャするように構成された、請求項２９に記載のプライバシー敏感オーディオを不明瞭にするためのデバイス。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願の相互参照
本出願は、そのすべてがすべての目的のために参照により本明細書に組み込まれる、２０１１年５月２３日に出願された「PRESERVING AUDIO DATA COLLECTION PRIVACY IN MOBILE DEVICES」と題する米国仮特許出願第６１／４８８，９２７号、代理人整理番号第１１１１７４Ｐ１号の優先権を主張する。本出願はまた、そのすべてがすべての目的のために参照により本明細書に組み込まれる、２０１１年８月１９日に出願された「PRESERVING AUDIO DATA COLLECTION PRIVACY IN MOBILE DEVICES」と題する米国特許出願第１３／２１３，２９４号、代理人整理番号第１１１１７４号の優先権を主張する。

【背景技術】

【0002】

モバイルデバイスは、今日の社会において信じられないほど普及している。たとえば、人々は、セルラーフォン、スマートフォン、携帯情報端末、ラップトップコンピュータ、ページャ、タブレットコンピュータなどを使用して、無数のロケーションからデータをワイヤレスに送信および受信する。さらに、ワイヤレス通信技術の進歩は、今日のモバイルデバイスの汎用性を大幅に高め、ユーザは、従来は複数のデバイスまたはより大きい非ポータブル機器のいずれかを必要とした広範囲のタスクを単一のポータブルデバイスから実行することが可能になった。

【0003】

たとえば、モバイルデバイスは、コンテキスト判断と呼ばれるプロセスを通して、モバイルデバイスユーザがどんな環境（たとえば、レストラン、車、公園、空港など）にあり得るかを判断するように構成され得る。そのようなコンテキスト判断を実行するコンテキストアウェアネスアプリケーションは、ＧＰＳ、ＷｉＦｉおよびＢｌｕｅＴｏｏｔｈ（登録商標）など、モバイルデバイスのセンサー入力からの情報を利用することによってモバイルデバイスの環境を判断しようとする。多くのシナリオでは、モバイルデバイスのマイクロフォンからのオーディオを分類することは、コンテキスト判断を行う際に極めて有益であるが、音声を含み得るオーディオを収集するプロセスはプライバシー問題を引き起こすことがある。

【発明の概要】

【0004】

本明細書で開示する技法は、オーディオデータを使用したコンテキストアウェアネスアプリケーションによってコンテキスト判断が行われる前に、オーディオデータ中の音声を不明瞭にするためにモバイルデバイスのハードウェアおよび／またはソフトウェアを使用することを提供する。特に、収集されたオーディオから音声（単語、句および文）が確実に再構成され得ないように、連続オーディオストリームのサブセットがキャプチャされる。サブセットはオーディオ特性について分析され、周囲環境に関する判断が行われ得る。

【0005】

いくつかの実施形態では、プライバシー敏感オーディオ分析の方法を提示する。本方法は、連続オーディオストリーム中に含まれているオーディオデータのサブセットをキャプチャすることを含み得る。連続オーディオストリームは人間音声を含んでいることがある。オーディオデータのサブセットは人間音声の成分を不明瞭にし得る。本方法は、オーディオ特性についてオーディオデータのサブセットを分析することを含み得る。本方法は、オーディオ特性に少なくとも部分的に基づいて周囲環境の判断を行うことを含み得る。

【0006】

そのような方法の実施形態は、以下のうちの１つまたは複数を含み得る。オーディオデータのサブセットは、了解性忠実度をもって連続オーディオストリームを再生するために必要とされるよりも少ないビット数を有する連続オーディオストリームの計算された関数を備え得る。オーディオデータのサブセットは複数のオーディオデータセグメントを備え得、各オーディオデータセグメントは、連続オーディオストリームの異なる時間成分からのデータを備える。本方法は、オーディオ特性に少なくとも部分的に基づいて人間の識別情報の判断を行うことを含み得る。複数のオーディオデータセグメントは、３０ｍｓ〜１００ｍｓの記録されたオーディオを備え得る。連続オーディオストリームの各時間成分は、長さが２５０ｍｓ〜２ｓであり得る。本方法は、オーディオデータのサブセットを分析する前に、複数のオーディオデータセグメントの順序をランダムに変更することを含み得る。複数のオーディオデータセグメントの順序をランダムに変更することは、地球測位システム（ＧＰＳ）デバイスと、モバイルデバイス内の回路からの信号雑音と、マイクロフォンからの信号雑音と、アンテナからの信号雑音とのうちの１つからの情報に少なくとも部分的に基づき得る。

【0007】

いくつかの実施形態では、プライバシー敏感オーディオを不明瞭にするためのデバイスを提示する。本デバイスはマイクロフォンを含み得る。本デバイスは、マイクロフォンに通信可能に結合された処理ユニットを含み得る。処理ユニットは、マイクロフォンからの信号中に表される連続オーディオストリーム中に含まれているオーディオデータのサブセットをキャプチャするように構成され得る。連続オーディオストリームは人間音声を含んでいることがある。オーディオデータのサブセットは人間音声の成分を不明瞭にし得る。処理ユニットは、オーディオ特性についてオーディオデータのサブセットを分析するように構成され得る。処理ユニットは、オーディオ特性に少なくとも部分的に基づいて周囲環境の判断を行うように構成され得る。

【0008】

そのようなデバイスの実施形態は、以下のうちの１つまたは複数を含み得る。オーディオデータのサブセットは、了解性忠実度をもって連続オーディオストリームを再生するために必要とされるよりも少ないビット数を有する連続オーディオストリームの計算された関数を備え得る。オーディオデータのサブセットは複数のオーディオデータセグメントを備え得、各オーディオデータセグメントは、連続オーディオストリームの異なる時間成分からのデータを備える。処理ユニットは、オーディオ特性に少なくとも部分的に基づいて人間の識別情報の判断を行うように構成され得る。複数のオーディオデータセグメントの各々は、３０ｍｓ〜１００ｍｓの記録されたオーディオを備え得る。連続オーディオストリームの各時間成分は、長さが２５０ｍｓ〜２ｓであり得る。処理ユニットは、オーディオデータのサブセットを分析する前に、複数のオーディオデータセグメントの順序をランダムに変更するようにさらに構成される。複数のオーディオデータセグメントの順序をランダムに変更することは、地球測位システム（ＧＰＳ）デバイスと、モバイルデバイス内の回路からの信号雑音と、マイクロフォンからの信号雑音と、アンテナからの信号雑音とのうちの１つからの情報に少なくとも部分的に基づき得る。

【0009】

いくつかの実施形態では、モバイルデバイスに関連する環境を判断するためのシステムを提示する。本システムは、連続オーディオストリームを受信するように構成されたオーディオセンサーを含み得る。本システムは、オーディオセンサーに結合された少なくとも１つの処理ユニットを含み得る。処理ユニットは、オーディオデータのサブセットが連続オーディオストリーム中に含まれる人間音声の成分を不明瞭にするように、連続オーディオストリーム中に含まれているオーディオデータのサブセットをキャプチャするように構成され得る。処理ユニットは、オーディオ特性についてオーディオデータのサブセットを分析するように構成され得る。処理ユニットは、オーディオ特性に少なくとも部分的に基づいて周囲環境の判断を行うように構成され得る。

【0010】

そのようなシステムの実施形態は、以下のうちの１つまたは複数を含み得る。本システムは、モバイルデバイスからリモートにあるロケーションに、ネットワークを介してオーディオデータのサブセットを表す情報を送るように構成されたネットワークインターフェースを含み得る。少なくとも１つの処理ユニットは、モバイルデバイスからリモートにあるロケーションにおいて周囲環境の判断を行うように構成され得る。オーディオデータのサブセットは複数のオーディオデータセグメントを備え得、各オーディオデータセグメントは、連続オーディオストリームの異なる時間成分からのデータを備える。少なくとも１つの処理ユニットは、オーディオ特性に少なくとも部分的に基づいて人間の識別情報の判断を行うように構成され得る。複数のオーディオデータセグメントの各々は、３０ｍｓ〜１００ｍｓの記録されたオーディオを備え得る。連続オーディオストリームの各時間成分は、長さが２５０ｍｓ〜２ｓであり得る。処理ユニットは、オーディオデータのサブセットを分析する前に、複数のオーディオデータセグメントの順序をランダムに変更するようにさらに構成され得る。

【0011】

いくつかの実施形態では、非一時的プロセッサ可読媒体上に常駐するコンピュータプログラム製品を提示する。非一時的プロセッサ可読媒体は、連続オーディオストリーム中に含まれているオーディオデータのサブセットをキャプチャすることをプロセッサに行わせるように構成されたプロセッサ可読命令を含む。連続オーディオストリームは人間音声を含んでいることがある。オーディオデータのサブセットは人間音声の成分を不明瞭にし得る。プロセッサ可読命令は、オーディオ特性についてオーディオデータのサブセットを分析することをプロセッサに行わせるように構成され得る。プロセッサ可読命令は、オーディオ特性に少なくとも部分的に基づいて周囲環境の判断を行うことをプロセッサに行わせるように構成され得る。

【0012】

そのようなコンピュータプログラム製品の実施形態は、以下のうちの１つまたは複数を含み得る。オーディオデータのサブセットは、了解性忠実度をもって連続オーディオストリームを再生するために必要とされるよりも少ないビット数を有する連続オーディオストリームの計算された関数を備え得る。オーディオデータのサブセットは複数のオーディオデータセグメントを備え得、各オーディオデータセグメントは、連続オーディオストリームの異なる時間成分からのデータを備える。プロセッサ可読命令は、オーディオ特性に少なくとも部分的に基づいて人間の識別情報の判断を行うことをプロセッサに行わせるように構成され得る。複数のオーディオデータセグメントの各々は、３０ｍｓ〜１００ｍｓの記録されたオーディオを備え得る。連続オーディオストリームの各時間成分は、長さが２５０ｍｓ〜２ｓであり得る。プロセッサ可読命令は、オーディオデータのサブセットを分析する前に、複数のオーディオデータセグメントの順序をランダムに変更するように構成され得る。複数のオーディオデータセグメントの順序をランダムに変更するためのプロセッサ可読命令は、地球測位システム（ＧＰＳ）デバイスと、モバイルデバイス内の回路からの信号雑音と、マイクロフォンからの信号雑音と、アンテナからの信号雑音とのうちの１つからの情報に少なくとも部分的に基づく。

【0013】

いくつかの実施形態では、プライバシー敏感オーディオを不明瞭にするためのデバイスを提示する。本デバイスは、マイクロフォンからの信号中に表される連続オーディオストリーム中に含まれているオーディオデータのサブセットをキャプチャするための手段を含み得る。連続オーディオストリームは人間音声を含んでいることがある。オーディオデータのサブセットは人間音声の成分を不明瞭にし得る。本デバイスは、オーディオ特性についてオーディオデータのサブセットを分析するための手段を含み得る。本デバイスは、オーディオ特性に少なくとも部分的に基づいて周囲環境を判断するための手段を含み得る。

【0014】

そのようなデバイスの実施形態は、以下のうちの１つまたは複数を含み得る。オーディオデータのサブセットをキャプチャするための手段は、了解性忠実度をもって連続オーディオストリームを再生するために必要とされるよりも少ないビット数を有する連続オーディオストリームの計算された関数に従ってオーディオデータのサブセットをキャプチャするように構成され得る。オーディオデータのサブセットをキャプチャするための手段は、オーディオデータのサブセットが複数のオーディオデータセグメントを備え、各オーディオデータセグメントが、連続オーディオストリームの異なる時間成分からのデータを備えるように、オーディオデータのサブセットをキャプチャするように構成され得る。周囲環境を判断するための手段は、オーディオ特性に少なくとも部分的に基づいて人間の識別情報の判断を行うように構成され得る。オーディオデータのサブセットをキャプチャするための手段は、複数のオーディオデータセグメントの各々が、３０ｍｓ〜１００ｍｓの記録されたオーディオを備えるように、オーディオデータのサブセットをキャプチャするように構成され得る。

【0015】

本明細書で説明するアイテムおよび／または技法は、以下の機能、ならびに言及しない他の機能のうちの１つまたは複数を提供し得る。コンテキスト判断の精度にほとんどまたはまったく影響を与えることなしに、コンテキスト判断のために使用されるオーディオストリーム中に含まれ得る音声の成分を不明瞭にすること。最小処理リソースを使用して、リアルタイムで実行され得る比較的単純な方法を利用すること。コンテキスト判断において使用されるモデルの精度を改善するのを助けるために、（不明瞭にされた音声を有する）オーディオデータのサブセットをアップロードする能力を含むこと。少なくとも１つのアイテム／技法効果ペアについて説明したが、言及した効果は、言及した手段以外の手段によって実現されることが可能であり得、言及したアイテム／技法は、必ずしも言及した効果を生じ得るとは限らない。

【0016】

以下の図を参照すれば、様々な実施形態の性質および利点の理解が促進され得る。添付の図において、同様の構成要素または特徴は同じ参照ラベルを有し得る。さらに、同じタイプの様々な構成要素は、参照ラベルの後に、ダッシュと、それらの同様の構成要素同士を区別する第２のラベルとを続けることによって区別され得る。第１の参照ラベルのみが明細書において使用される場合、その説明は、第２の参照ラベルにかかわらず、同じ第１の参照ラベルを有する同様の構成要素のうちのいずれか１つに適用可能である。

【図面の簡単な説明】

【0017】

【図1】一実施形態による、コンテキストアウェアネスアプリケーションをサポートするように構成されたモバイルデバイスの基本構成要素の簡略ブロック図。

【図2a】音声のプライバシーを保証するのを助けると同時に、性能劣化のないモバイルデバイスの周囲環境を分類するために十分なオーディオ情報をキャプチャするためのプロセスの可視化を示す図。

【図2b】音声のプライバシーを保証するのを助けると同時に、性能劣化のないモバイルデバイスの周囲環境を分類するために十分なオーディオ情報をキャプチャするためのプロセスの可視化を示す図。

【図2c】音声のプライバシーを保証するのを助けると同時に、性能劣化のないモバイルデバイスの周囲環境を分類するために十分なオーディオ情報をキャプチャするためのプロセスの可視化を示す図。

【図3a】図２ｂおよび図２ｃに示した機能を提供するための方法の流れ図。

【図3b】図２ｂおよび図２ｃに示した機能を提供するための方法の流れ図。

【図4】本明細書で説明するいくつかの処理方法から生じるオーディオデータから、音声認識器が単語のｎ字列（n-gram）を再構成する確率に対する上限を計算する分析の結果を示すグラフ。

【発明を実施するための形態】

【0018】

図面を参照しながら以下の説明を行う。図面全体にわたって、同様の要素を指すのに同様の参照番号を使用する。本明細書では、１つまたは複数の技法の様々な詳細について説明するが、他の技法も可能である。いくつかの例では、様々な技法の説明を円滑にするために、よく知られている構造およびデバイスをブロック図の形態で示す。

【0019】

携帯情報端末（ＰＤＡ）、モバイルフォン、タブレットコンピュータ、および他のパーソナル電子機器など、モバイルデバイスは、コンテキストアウェアネスアプリケーションが使用可能であり得る。これらのコンテキストアウェアネスアプリケーションは、たとえば、モバイルデバイスのユーザがどこにいるか、特に、そのユーザが何をしている可能性があるかを判断することができる。そのようなコンテキスト判断は、モバイルデバイスが、ユーザが車中にいると判断した後に自動車モードに入ること、またはユーザが映画館に入ったと判断したときにサイレントモードに入ることなど、追加の機能をユーザに与えることを可能にするのを助けることができる。

【0020】

本明細書では、モバイルデバイスのコンテキスト判断のために使用されるオーディオ中でキャプチャされ得る音声におけるプライバシーを保護するための技法について説明する。より詳細には、オーディオデータのサブセットが、音声を含んでいることがある連続オーディオストリームからキャプチャされ得、それにより、サンプリングの性質は、連続オーディオストリーム中に含まれていることがある音声を不明瞭にする。しかしながら、サンプリングの性質はまた、モバイルデバイスの特定の周囲環境に関する判断などのコンテキスト判断が精度の低減をほとんどまたはまったく受けないように、連続オーディオストリームのいくつかのオーディオ特性を保護する。これらおよび他の技法について以下でさらに詳細に説明する。

【0021】

図１は、一実施形態による、コンテキストアウェアネスを提供することができるモバイルデバイス１００のいくつかの構成要素を示す簡略ブロック図である。この図は一例であり、限定的なものではない。たとえば、モバイルデバイス１００は、簡単のために図１から省略される追加の構成要素（たとえば、ユーザインターフェース、アンテナ、ディスプレイなど）を含み得る。さらに、図示された構成要素は、モバイルデバイス１００の機能に応じて、組み合わせられるか、分離されるか、または省略され得る。

【0022】

この実施形態では、モバイルデバイス１００はモバイルネットワークインターフェース１２０を含む。そのようなインターフェースは、モバイルキャリアと通信するためのハードウェア、ソフトウェア、および／またはファームウェアを含むことができる。モバイルネットワークインターフェース１２０は、高速パケットアクセス（ＨＳＰＡ：High Speed Packet Access）、ＥｎｈａｎｃｅｄＨＳＰＡ（ＨＳＰＡ＋）、３ＧＰＰＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ（ＬＴＥ）、および／またはモバイル通信のための他の規格を利用することができる。モバイルネットワークインターフェース１２０はまた、コンテキストアウェアネスアプリケーションにおいて有用であり得る、ロケーションデータなどのある情報を与えることができる。

【0023】

さらに、モバイルデバイス１００は他の（１つまたは複数の）ワイヤレスインターフェース１７０を含むことができる。そのようなインターフェースは、ＩＥＥＥ８０２．１１（ＷｉＦｉ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、および／または他のワイヤレス技術を含むことができる。これらの（１つまたは複数の）ワイヤレスインターフェース１７０は、コンテキスト判断において使用され得るモバイルデバイス１００に情報を与えることができる。たとえば、（１つまたは複数の）ワイヤレスインターフェース１７０は、（１つまたは複数の）ワイヤレスインターフェース１７０のうちの１つまたは複数が接続されるワイヤレスネットワークの近似ロケーションを判断することによってロケーションに関する情報を与えることができる。追加または代替として、（１つまたは複数の）ワイヤレスインターフェース１７０は、モバイルデバイス１００が、モバイルデバイス１００のコンテキストを判断する際に有用な情報を与え得る、ワイヤレスヘッドセットおよび／またはマイクロフォンなど、他のデバイスと通信することを可能にすることができる。

【0024】

モバイルデバイス１００はまた、全地球測位システム（ＧＰＳ）ユニット１６０、（１つまたは複数の）加速度計１３０、および／または他の（１つまたは複数の）センサー１５０を含むことができる。これらの追加の特徴は、ロケーション、配向、動き、温度、近接度などの情報を与えることができる。（１つまたは複数の）ワイヤレスインターフェース１７０の場合と同様に、これらの構成要素からの情報は、コンテキストアウェアネスアプリケーションがモバイルデバイス１００のコンテキストに関するコンテキスト判断を行うのを助けることができる。

【0025】

モバイルデバイス１００はさらに（１つまたは複数の）分析／判断モジュール１１０を含むことができる。特に、（１つまたは複数の）分析／判断モジュール１１０は、それが通信可能に結合される様々な構成要素からセンサー情報を受信することができる。（１つまたは複数の）分析／判断モジュール１１０はまた、（１つまたは複数の）分析／判断モジュール１１０とは別個であり、および／または（１つまたは複数の）分析／判断モジュール１１０に組み込まれ得る、メモリ１８０に記憶された（コンテキストアウェアネスアプリケーションを含む）ソフトウェアを実行することができる。さらに、（１つまたは複数の）分析／判断モジュール１１０は、中央処理ユニット（ＣＰＵ）、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、および／または、特に、オーディオデータを分析し、その分析に基づいて判断を行うことが可能な手段を有する構成要素を含む、１つのまたは多数の処理デバイスを備えることができる。

【0026】

ワイヤレスインターフェース１７０、ＧＰＳユニット１６０、（１つまたは複数の）加速度計１３０、および／または他の（１つまたは複数の）センサー１５０からの情報は、ユーザが、屋外にいるとき、識別可能なＷｉＦｉまたはＢｌｕｅＴｏｏｔｈアクセスポイントの近くにいるとき、歩行しているときなどのロケーションを判断するのを大いに支援することができるが、これらの構成要素には限界がある。多くのシナリオでは、それらは、環境および状況を判断するためにあまり有用でない。たとえば、これらの構成要素からの情報は、ユーザが会議中であるのか、自分のオフィスにいるのか、またはユーザが食品雑貨品店にいるのか、そのすぐ隣のジムにいるのかを区別する際にあまり有用でない。これらのシナリオなどでは、モバイルデバイス１００のオーディオキャプチャモジュール１４０（たとえば、（１つまたは複数の）マイクロフォンおよび／または他のオーディオキャプチャ手段）からの情報は、環境を分類するのを助けるために使用され得る極めて有益なオーディオデータを与え、ならびに音声が存在するかどうか、複数の話者が存在するかどうか、話者の識別情報などを判断することができる。

【0027】

コンテキスト判断のためにモバイルデバイス１００によってオーディオデータをキャプチャするプロセスは、電話のメモリ１８０にオーディオデータを一時的におよび／または永続的に記憶することを含むことができる。しかしながら、明瞭な音声を含むオーディオデータのキャプチャはプライバシー問題を引き起こすことがある。事実上、モバイルデバイス１００が、承諾なしに、モバイルデバイス１００のユーザまたは別の人間からの音声をキャプチャする場合、連邦法、州法、および／または地域法が関係していることがある。これらの問題は、音声（単語、句および文）が、キャプチャされたオーディオデータから確実に再構成され得ないように、音声がキャプチャされる前にオーディオデータを前処理するために、モバイルデバイス１００のハードウェアおよび／またはソフトウェアを使用することによって緩和され得る。その上、前処理は、さらに、（たとえば、背景雑音からの）周囲環境、および／または音声、音楽、タイピング音などの存在など、オーディオデータの他のオーディオ特性の判断を可能にすることができる。

【0028】

図２ａは、性能劣化のないモバイルデバイスおよび／またはユーザの状況／環境を分類するために十分なオーディオ情報をキャプチャするためのプロセスを可視化したものである。さらに、そのプロセスはまた、キャプチャされた情報から音声（単語、句および文）が確実に再構成され得ないことを保証するのを助けることができる。このプロセスは、入力オーディオストリームの次元数を低減することを伴う。言い換えれば、連続オーディオの入力ストリームのビット（すなわち、デジタルデータ）は、得られたオーディオストリームが、了解性忠実度をもって連続オーディオストリームを再生するために必要とされるよりも少ないビット数を有するように低減される。したがって、次元数を低減することは、音声が再生不可能であることを保証するように設計された、計算された関数であり得る。

【0029】

たとえば、連続オーディオストリームは、Ｔ_window秒持続するオーディオデータのウィンドウ２１０を備えることができる。ウィンドウ２１０は、複数のオーディオデータセグメントを有するものと見なされ得る。より詳細には、ウィンドウ２１０は、Ｎ個の時間成分、またはブロック２２０を備えることができ、各ブロック２２０は、Ｔ_block秒持続し、それぞれＴ_frame秒の複数のフレーム２３０を備える。マイクロフォン信号は、（データのＴ_frame秒をもつ）ただ１つのフレーム２３０がＴ_block秒のあらゆるブロック中で収集されるようにサンプリングされ得る。

【0030】

Ｔ_frameおよびＴ_blockの値は、所望の機能に応じて変動することができる。一実施形態では、たとえば、Ｔ_frame＝５０ｍｓおよびＴ_block＝５００ｍｓであるが、これらの設定は、得られたオーディオ情報２４０ａを使用するコンテキスト判断の精度への影響がほとんどなしに大幅に変動することができる。たとえば、Ｔ_frameは３０ｍｓ未満から１００ｍｓ以上にわたることができ、Ｔ_blockは２５０ｍｓ未満から２０００ｍｓ（２ｓ）以上までにわたることができ、Ｔ_windowは、単一のブロックと同じくらい短く（たとえば、ウィンドウ当たり１つのブロック）、最高１分以上になり得る。異なるフレーム長、ブロック長、およびウィンドウ長は、ブロック２２０当たりのフレーム２３０の数とウィンドウ２１０当たりのブロック２２０の数とに影響を及ぼすことがある。

【0031】

フレーム２３０のキャプチャは異なる方法で達成され得る。たとえば、（１つまたは複数の）分析／判断モジュール１１０は、連続オーディオのウィンドウ２１０中のマイクロフォン信号を連続的にサンプリングし、不要なフレーム２３０を廃棄する（すなわち、記憶しない）ことがある。したがって、上記の例では、Ｔ_frame＝５０ｍｓおよびＴ_block＝５００ｍｓである場合、処理ユニットは、サンプリングされた５００ｍｓごとに４５０ｍｓを単に廃棄することができる。追加または代替として、（１つまたは複数の）分析／判断モジュール１１０は、不要なフレーム２３０の間にオーディオキャプチャモジュール１４０をオフにし（たとえば、５００ｍｓごとに４５０ｍｓの間オーディオキャプチャジュール１４０をオフにし）、それにより、コンテキスト判断において使用される、得られたオーディオ情報２４０ａ中に挿入されるフレーム２３０のみを収集することができる。

【0032】

得られたオーディオ情報２４０ａは、ウィンドウ２１０中の連続オーディオストリームのサブセットのみを備えるフレーム２３０の収集である。たとえそうでも、この得られたオーディオ情報２４０ａは、判断の精度への著しい影響なしに、周囲環境を判断することなどのコンテキスト判断を可能にするのを助けることができるオーディオ特性を含むことができる。したがって、得られたオーディオ情報２４０ａは、コンテキスト分類のためのアプリケーションにリアルタイムで与えられ、ならびに／あるいは後の分析のために、および／またはモバイルデバイス１００に通信可能に結合されたサーバにアップロードするためにメモリ１８０に１つまたは複数の波形として記憶され得る。

【0033】

図２ｂおよび図２ｃは、図２ａに示したプロセスと同様に、オーディオ情報をキャプチャするためのプロセスを可視化したものである。ただし、図２ｂおよび図２ｃでは、キャプチャされ得る音声のさらなるプライバシーを保証するのを助けるために追加のステップをとる。

【0034】

図２ｂを参照すると、Ｔ_window秒のウィンドウ２１０ごとに、各ブロック２２０の第１のフレーム２３０がどのようにキャプチャされ得るかを示す可視化が与えられている。ウィンドウ２１０の最終ブロック２２０のフレーム２３０−１がキャプチャされた後、ウィンドウ２１０のすべてのキャプチャされたフレームは、得られたオーディオ情報２４０ｂを与えるためにランダムに置換（すなわち、ランダムにシャッフル）され得る。したがって、得られたオーディオ情報２４０ｂは、図２ａの得られたオーディオ情報２４０ａと同様であるが、得られたオーディオ情報２４０ｂがそれから構成されるフレームがランダム化される追加の特徴をもち、それにより、得られたオーディオ情報２４０ｂ中に含まれ得る音声が了解性忠実度をもって再生され得る可能性がさらに低下する。

【0035】

図２ｃは、図２ｂに示したプロセスと同様であるが、各ブロック２２０についてキャプチャされたフレーム２３０をさらにランダム化するプロセスを示す。より詳細には、図２ａおよび図２ｂに示したようにウィンドウ２１０の各ブロック２２０の第１のフレーム２３０をキャプチャするのではなく、図２ｃに示すプロセスは、代わりに各ブロック２２０からのランダムフレーム２３０が選択され得ることを示す。ウィンドウ２１０のフレーム２３０のキャプチャと得られたオーディオ情報２４０ｃ中のフレーム２３０の順序付けの両方のランダム化は、ウィンドウ２１０内の連続オーディオストリーム中に含まれている音声が不明瞭にされ、再生不可能であることをさらに保証するのを助ける。

【0036】

図２ｂおよび図２ｃに示したプロセスにおいて使用されるランダム化は、多数の方法で生成されるシードを使用して計算され得る。たとえば、シードは、ＧＰＳユニット１６０によって与えられるＧＰＳ時間、モバイルデバイス１００内の回路からの雑音、オーディオキャプチャモジュール１４０からの雑音（または他の信号）、アンテナからの雑音などに基づき得る。さらに、置換は、シャフリング効果が逆転させられ得ないことを保証するのを助けるために廃棄され得る（たとえば、記憶され得ない）。

【0037】

図２ａ、図２ｂ、および図２ｃに示したプロセスは、例として与えたものであり、限定的なものではない。他の実施形態が企図される。たとえば、ブロック２２０は、フレーム２３０がキャプチャされる前にランダムに置換され得る。代替的に、フレーム２３０は、ブロック２２０当たり１つのフレーム２３０をキャプチャするのではなく、ウィンドウ２１０全体にわたってランダムにキャプチャされ得る。

【0038】

図３ａは、図２ｂおよび図２ｃに示した機能を提供するための方法３００−１の実施形態を示す流れ図である。方法３００−１は段階３１０において開始し、そこで、連続オーディオストリームからオーディオデータのブロック２２０を受信する。連続オーディオストリームは、たとえば、モバイルデバイス１００のオーディオキャプチャモジュール１４０が露出される時間のウィンドウ２１０内のオーディオであり得る。

【0039】

段階３２０において、オーディオデータのブロック２２０のフレーム２３０をキャプチャする。前に説明したように、フレーム２３０はオーディオデータの各ブロック２２０の所定のフレーム（たとえば、第１のフレーム）であり得るか、またはそれはランダムに選択され得る。フレーム２３０は、たとえば、モバイルデバイス１００のメモリ１８０に（一時的にまたは永続的に）記憶されることによってキャプチャされる。前に説明したように、フレーム２３０のキャプチャは、オーディオキャプチャモジュール１４０をオンおよびオフにすることおよび／または連続オーディオストリームを表すオーディオキャプチャモジュール１４０からの信号のいくつかの部分をサンプリングすることを含むことができる。

【0040】

段階３３０において、現在のウィンドウ２１０中に追加のブロック２２０があるかどうかを判断する。追加のブロック２２０がある場合、ブロック２２０からのフレーム２３０をキャプチャするプロセスが繰り返される。これは、所望の機能に応じて、何度でも繰り返され得る。たとえば、Ｔ_block＝５００ｍｓおよびＴ_window＝１０秒である場合、フレーム２３０をキャプチャするプロセスは２０回繰り返され、その結果、フレーム２３０が２０個キャプチャされることになる。

【0041】

現在のウィンドウ２１０中のすべてのブロック２２０からのフレーム２３０がキャプチャされた場合、プロセスは段階３４０に移動し、そこで、キャプチャされたフレームの順序をランダム化する。これらのランダム化されたフレームは、たとえば、コンテキストアウェアネスアプリケーションによる分析のために使用されるオーディオファイルに記憶され得る。最後に、段階３５０において、ランダム化されたフレームのオーディオ特性に少なくとも部分的に基づいて周囲環境の判断（または他のコンテキスト判断）を行う。

【0042】

方法３００−１の異なる段階は、モバイルデバイス１００の１つまたは複数の異なる構成要素および／またはモバイルデバイス１００に通信可能に結合された他のシステムによって実行され得る。さらに、段階は、ハードウェア、ソフトウェア、および／またはファームウェアの任意の組合せによって実行され得る。たとえば、オーディオストリーム全体（たとえば、認識可能な音声を有し得るオーディオストリーム）が、モバイルデバイス１００によって実行されるソフトウェアアプリケーションにアクセス不可能であることを保証するのを助けるために、段階３２０〜３４０などのいくつかの段階は、（（１つまたは複数の）分析／判断モジュール１１０などの）ハードウェアによって実行され、キャプチャされたフレームをメモリ１８０に記憶するおよび／またはそれらをソフトウェアアプリケーションに与える前に、たとえば、バッファ上でそれらをランダム化し得る。追加または代替として、いくつかの実施形態は、いくつかのパラメータ（たとえば、Ｔ_window、Ｔ_block、および／またはＴ_frame）がソフトウェアによって少なくとも部分的に構成可能であることを可能にし得る。

【0043】

さらに他の実施形態では、モバイルデバイス１００は、キャプチャされたフレームを含む、得られたオーディオ情報２４０をリモートサーバにアップロードし得る。この場合、リモートサーバは、段階３５０の周囲環境の判断を行うことができる。代替的に、モバイルデバイス１００は、モバイルデバイス１００によって行われた周囲環境の判断とともに、得られたオーディオ情報２４０をアップロードすることができる。いずれの場合も、リモートサーバは、その判断と得られたオーディオ情報２４０とを使用して、周囲環境判断を行うために使用される既存のモデルを変更することができる。これにより、サーバは、モバイルデバイス１００によって受信された入力から「学習する」ことが可能であるモデルを維持することが可能になる。次いで、修正および／または更新されたモデルは、モバイルデバイス１００によって行われた周囲環境判断の精度を改善するのを助けるためにモバイルデバイス１００にダウンロードされ得る。したがって、周囲環境判断（または他のコンテキスト判断）は継続的に改善され得る。

【0044】

上記のように、本明細書で説明する技法は、周囲環境および／または他のコンテキスト判断だけでなく、オーディオデータの他のオーディオ特性の判断をも可能にすることができる。これらのオーディオ特性は、音声、音楽、タイピング音などの存在を含むことができる。オーディオ特性に応じて、異なる判断が行われ得る。

【0045】

図３ｂは、図３の方法３００−１と同様の段階を含む、方法３００−１の一例を示す流れ図である。ただし、図３ｂの方法３００−２は、周囲環境の判断を行うために使用されるキャプチャされたフレーム中に音声が含まれる（１人または複数の）話者の識別情報に関する判断を行う追加の段階３６０を含む。段階３５０の場合と同様に、段階３６０の判断は、モバイルデバイス１００、および／またはキャプチャされたフレームがアップロードされるリモートサーバによって行われ得る。さらに、識別情報に関する判断は、話者の年齢、性別などを判断するのを助けるためのモデル、および特定の人間の音声のオーディオ特性に関する記憶された情報など、他の情報および／またはモデル、ならびに他のデータの使用を含むことができる。

【0046】

上記で説明したプロセスによって生成された、キャプチャされたオーディオファイルをリッスンすることは、単語がこの方式から確実に再構成され得ないことを明確に示す。ただし、この概念は、商用音声認識器を開発するための公開されているソースからの収集されたオーディオデータが与えられれば、音声認識器が単語のｎ字列を再構成する確率に対する上限を計算するための分析を実行することによって数学的に示され得、単語のｎ字列はｎ個の連続する単語の集合である。

【0047】

図４は、収集されたオーディオが与えられれば、ｎ字列を正しく推測する確率に対する上限を示す、そのような分析の結果を示すグラフである。１字列４１０と２字列４２０とを正しく再構成するための結果を示し、Ｔ_blockの可変長について、Ｔ_frame＝５０ｍｓである。直観的にｎ字列を再構成する確率はｎの増加とともに減少する。これは図４からわかり得、Ｔ_block＝５００ｍｓの場合、１字列４１０を正しく再構成する確率は１４％であり、２字列４２０を正しく再構成する確率は８％である。（この分析は、言語をなお一層不明瞭にし得る、本明細書で説明するフレームの置換を含まず、おおよそ（Ｔ_window／Ｔ_block）だけ確率を低減することに留意されたい。）
音声を再構成する確率の低減にもかかわらず、本明細書で説明する技法は、ユーザの環境を見分けるための、分類器（たとえば、コンテキストアウェアネスアプリケーションにおいて使用される確率的分類器）の能力に著しい影響を与えない。これは、１つの混合成分と２つの混合成分とを有する統計的モデルを用いた、コンテキストアウェアネス分類器の精度および再現率（recall）を示す表１に示されており、Ｔ_frame＝５０ｍｓであり、Ｔ_blockは可変である。使用されたデータは、コンテキストアウェアネスアプリケーション間で共通の（たとえば、公園内、街路上、マーケット内、車中、空港内などの）環境のセットの環境音の商業的に収集されたオーディオデータセットであった。

【表1】

【0048】

Ｔ_frame＝５０ｍｓであるので、Ｔ_block＝５０ｍｓについて表１に示した精度および再現率は連続オーディオである。したがって、表１は、連続オーディオストリームのサブセットのみをサンプリングすることによってオーディオデータの次元数を低減することが、Ｔ_blockが２秒に近づく（すなわち、マイクロフォンが、２秒ごとに５０ｍｓのみ、またはその時間の２．５％の間オンである）まで、周囲環境の分類器の判断の精度にほとんど影響を与えないことがあることを示す。分類器ごとに結果が異なり得る。

【0049】

上記で説明した方法、システム、デバイス、グラフ、および表は例である。様々な構成は、適宜に様々なプロシージャまたは構成要素を省略、置換、または追加し得る。たとえば、代替構成では、本方法は、説明した順序とは異なる順序で実行され得、ならびに／あるいは様々な段階が追加、省略、および／または組み合わせられ得る。また、いくつかの構成に関して説明した特徴は、様々な他の構成において組み合わせられ得る。構成の異なる態様および要素が、同様の方法で組み合わせられ得る。また、技術は発展し、したがって、要素の多くは例であり、本開示または特許請求の範囲を限定しない。さらに、本明細書で説明した技法は、異なるタイプのコンテキストアウェアネス分類器を用いて異なる結果を与え得る。

【0050】

説明では、（実装形態を含む）例示的な実施形態の完全な理解が得られるように具体的な詳細を与えた。ただし、実施形態は、これらの具体的な詳細なしに実施され得る。たとえば、構成を不明瞭にすることを避けるために、よく知られている回路、プロセス、アルゴリズム、構造、および技法を不要な詳細なしに示した。この説明は、例示的な構成を与えるにすぎず、特許請求の範囲の範囲、適用性、または構成を限定しない。そうではなく、構成の上記の説明は、説明した技法を実装することを可能にする説明を当業者に与えるものである。本開示の趣旨および範囲から逸脱することなく、要素の機能および構成において様々な変更が行われ得る。

【0051】

また、構成は、流れ図またはブロック図として示されるプロセスとして説明されることがある。各々は動作を逐次プロセスとして説明することがあるが、動作の多くは並行してまたは同時に実行され得る。さらに、動作の順序は並べ替えられ得る。プロセスは、図中に含まれない追加のステップを有し得る。

【0052】

本発明の様々な特徴を組み込んだコンピュータプログラムは、様々な非一時的コンピュータ可読記憶媒体および／または非一時的プロセッサ可読記憶媒体上で符号化され得、好適な媒体は、磁気媒体と、光学媒体と、フラッシュメモリと、他の非一時的媒体とを含む。プログラムコードで符号化された非一時的プロセッサ可読記憶媒体は、互換デバイスとともにパッケージングされるか、または他のデバイスから別々に与えられ得る。さらに、プログラムコードは、インターネットを含む、様々なプロトコルに準拠するワイヤード、光、および／またはワイヤレスネットワークを介して符号化され、送信され、それにより、たとえば、インターネットダウンロードを介した配信が可能になり得る。

【0053】

いくつかの例示的な構成を説明したが、本開示の趣旨から逸脱することなく、様々な変更形態、代替構成、および等価物が使用され得る。たとえば、上記の要素は、より大きいシステムの構成要素であり得、他のルールが、本発明の適用よりも優先するかまたは他の方法で本発明の適用を変更し得る。また、上記の要素が考慮される前に、考慮されている間に、または考慮された後に、いくつかのステップが行われ得る。したがって、上記の説明は特許請求の範囲を限定しない。
以下に、本願の出願当初請求項に記載された発明を付記する。
［Ｃ１］
連続オーディオストリーム中に含まれているオーディオデータのサブセットをキャプチャすることであって、
前記連続オーディオストリームが人間音声を含んでおり、
オーディオデータの前記サブセットが前記人間音声の成分を不明瞭にする
キャプチャすることと、
オーディオ特性についてオーディオデータの前記サブセットを分析することと、
前記オーディオ特性に少なくとも部分的に基づいて周囲環境の判断を行うこととを備える、プライバシー敏感オーディオ分析の方法。
［Ｃ２］
オーディオデータの前記サブセットが、了解性忠実度をもって前記連続オーディオストリームを再生するために必要とされるよりも少ないビット数を有する前記連続オーディオストリームの計算された関数を備える、上記Ｃ１に記載のプライバシー敏感オーディオ分析の方法。
［Ｃ３］
オーディオデータの前記サブセットが複数のオーディオデータセグメントを備え、各オーディオデータセグメントが、前記連続オーディオストリームの異なる時間成分からのデータを備える、上記Ｃ１に記載のプライバシー敏感オーディオ分析の方法。
［Ｃ４］
前記オーディオ特性に少なくとも部分的に基づいて人間の識別情報の判断を行うことをさらに備える、上記Ｃ３に記載のプライバシー敏感オーディオ分析の方法。
［Ｃ５］
前記複数のオーディオデータセグメントの各々が、３０ｍｓ〜１００ｍｓの記録されたオーディオを備える、上記Ｃ３に記載のプライバシー敏感オーディオ分析の方法。
［Ｃ６］
前記連続オーディオストリームの各時間成分は、長さが２５０ｍｓ〜２ｓである、上記Ｃ３に記載のプライバシー敏感オーディオ分析の方法。
［Ｃ７］
オーディオデータの前記サブセットを分析する前に、前記複数のオーディオデータセグメントの順序をランダムに変更することをさらに備える、上記Ｃ３に記載のプライバシー敏感オーディオ分析の方法。
［Ｃ８］
前記複数のオーディオデータセグメントの前記順序をランダムに変更することが、
全地球測位システム（ＧＰＳ）デバイスと、
モバイルデバイス内の回路からの信号雑音と、
マイクロフォンからの信号雑音と、
アンテナからの信号雑音とのうちの１つからの情報に少なくとも部分的に基づく、上記Ｃ７に記載のプライバシー敏感オーディオ分析の方法。
［Ｃ９］
マイクロフォンと、
前記マイクロフォンに通信可能に結合された処理ユニットであって、
前記マイクロフォンからの信号中に表される連続オーディオストリーム中に含まれているオーディオデータのサブセットをキャプチャすることであって、
前記連続オーディオストリームが人間音声を含んでおり、
オーディオデータの前記サブセットが前記人間音声の成分を不明瞭にする
キャプチャすることと、
オーディオ特性についてオーディオデータの前記サブセットを分析することと、
前記オーディオ特性に少なくとも部分的に基づいて周囲環境の判断を行うことと
を行うように構成された処理ユニットとを備える、プライバシー敏感オーディオを不明瞭にするためのデバイス。
［Ｃ１０］
オーディオデータの前記サブセットが、了解性忠実度をもって前記連続オーディオストリームを再生するために必要とされるよりも少ないビット数を有する前記連続オーディオストリームの計算された関数を備える、上記Ｃ９に記載のプライバシー敏感オーディオを不明瞭にするためのデバイス。
［Ｃ１１］
オーディオデータの前記サブセットが複数のオーディオデータセグメントを備え、各オーディオデータセグメントが、前記連続オーディオストリームの異なる時間成分からのデータを備える、上記Ｃ９に記載のプライバシー敏感オーディオを不明瞭にするためのデバイス。
［Ｃ１２］
前記処理ユニットが、前記オーディオ特性に少なくとも部分的に基づいて人間の識別情報の判断を行うように構成された、上記Ｃ１１に記載のプライバシー敏感オーディオを不明瞭にするためのデバイス。
［Ｃ１３］
前記複数のオーディオデータセグメントの各々が、３０ｍｓ〜１００ｍｓの記録されたオーディオを備える、上記Ｃ１１に記載のプライバシー敏感オーディオを不明瞭にするためのデバイス。
［Ｃ１４］
前記連続オーディオストリームの各時間成分は、長さが２５０ｍｓ〜２ｓである、上記Ｃ１１に記載のプライバシー敏感オーディオを不明瞭にするためのデバイス。
［Ｃ１５］
前記処理ユニットが、オーディオデータの前記サブセットを分析する前に、前記複数のオーディオデータセグメントの順序をランダムに変更するように構成された、上記Ｃ１１に記載のプライバシー敏感オーディオを不明瞭にするためのデバイス。
［Ｃ１６］
前記処理ユニットが、
全地球測位システム（ＧＰＳ）デバイスと、
モバイルデバイス内の回路からの信号雑音と、
前記マイクロフォンからの信号雑音と、
アンテナからの信号雑音とのうちの１つからの情報に少なくとも部分的に基づいて、前記複数のオーディオデータセグメントの前記順序をランダムに変更するように構成された、上記Ｃ１５に記載のプライバシー敏感オーディオを不明瞭にするためのデバイス。
［Ｃ１７］
連続オーディオストリームを受信するように構成されたオーディオセンサーと、
前記オーディオセンサーに結合された少なくとも１つの処理ユニットであって、
オーディオデータのサブセットが前記連続オーディオストリーム中に含まれる人間音声の成分を不明瞭にするように、前記連続オーディオストリーム中に含まれているオーディオデータの前記サブセットをキャプチャすることと、
オーディオ特性についてオーディオデータの前記サブセットを分析することと、
前記オーディオ特性に少なくとも部分的に基づいて周囲環境の判断を行うことと
を行うように構成された少なくとも１つの処理ユニットとを備える、モバイルデバイスに関連する環境を判断するためのシステム。
［Ｃ１８］
前記モバイルデバイスからリモートにあるロケーションに、ネットワークを介してオーディオデータの前記サブセットを表す情報を送るように構成されたネットワークインターフェースをさらに備える、上記Ｃ１７に記載のモバイルデバイスに関連する環境を判断するためのシステム。
［Ｃ１９］
前記少なくとも１つの処理ユニットが、前記モバイルデバイスからリモートにある前記ロケーションにおいて前記周囲環境の前記判断を行うように構成された、上記Ｃ１８に記載のモバイルデバイスに関連する環境を判断するためのシステム。
［Ｃ２０］
オーディオデータの前記サブセットが複数のオーディオデータセグメントを備え、各オーディオデータセグメントが、前記連続オーディオストリームの異なる時間成分からのデータを備える、上記Ｃ１８に記載のモバイルデバイスに関連する環境を判断するためのシステム。
［Ｃ２１］
前記少なくとも１つの処理ユニットが、前記オーディオ特性に少なくとも部分的に基づいて人間の識別情報の判断を行うように構成された、上記Ｃ２０に記載のモバイルデバイスに関連する環境を判断するためのシステム。
［Ｃ２２］
前記複数のオーディオデータセグメントの各々が、３０ｍｓ〜１００ｍｓの記録されたオーディオを備える、上記Ｃ２０に記載のモバイルデバイスに関連する環境を判断するためのシステム。
［Ｃ２３］
前記連続オーディオストリームの各時間成分は、長さが２５０ｍｓ〜２ｓである、上記Ｃ２０に記載のモバイルデバイスに関連する環境を判断するためのシステム。
［Ｃ２４］
前記少なくとも１つの処理ユニットが、オーディオデータの前記サブセットを分析する前に、前記複数のオーディオデータセグメントの順序をランダムに変更するように構成された、上記Ｃ２０に記載のモバイルデバイスに関連する環境を判断するためのシステム。
［Ｃ２５］
非一時的プロセッサ可読媒体上に常駐するコンピュータプログラム製品であって、
連続オーディオストリーム中に含まれているオーディオデータのサブセットをキャプチャすることであって、
前記連続オーディオストリームが人間音声を含んでおり、
オーディオデータの前記サブセットが前記人間音声の成分を不明瞭にする
キャプチャすることと、
オーディオ特性についてオーディオデータの前記サブセットを分析することと、
前記オーディオ特性に少なくとも部分的に基づいて周囲環境の判断を行うこととをプロセッサに行わせるように構成されたプロセッサ可読命令を備えるコンピュータプログラム製品。
［Ｃ２６］
オーディオデータの前記サブセットが、了解性忠実度をもって前記連続オーディオストリームを再生するために必要とされるよりも少ないビット数を有する前記連続オーディオストリームの計算された関数を備える、上記Ｃ２５に記載のコンピュータプログラム製品。
［Ｃ２７］
オーディオデータの前記サブセットが複数のオーディオデータセグメントを備え、各オーディオデータセグメントが、前記連続オーディオストリームの異なる時間成分からのデータを備える、上記Ｃ２５に記載のコンピュータプログラム製品。
［Ｃ２８］
前記プロセッサ可読命令が、前記オーディオ特性に少なくとも部分的に基づいて人間の識別情報の判断を行うことを前記プロセッサに行わせるように構成された、上記Ｃ２７に記載のコンピュータプログラム製品。
［Ｃ２９］
前記複数のオーディオデータセグメントの各々が、３０ｍｓ〜１００ｍｓの記録されたオーディオを備える、上記Ｃ２７に記載のコンピュータプログラム製品。
［Ｃ３０］
前記連続オーディオストリームの各時間成分は、長さが２５０ｍｓ〜２ｓである、上記Ｃ２７に記載のコンピュータプログラム製品。
［Ｃ３１］
前記プロセッサ可読命令が、オーディオデータの前記サブセットを分析する前に、前記複数のオーディオデータセグメントの順序をランダムに変更することを前記プロセッサに行わせるように構成された、上記Ｃ２７に記載のコンピュータプログラム製品。
［Ｃ３２］
前記プロセッサ可読命令が、
全地球測位システム（ＧＰＳ）デバイスと、
モバイルデバイス内の回路からの信号雑音と、
マイクロフォンからの信号雑音と、
アンテナからの信号雑音とのうちの１つからの情報に少なくとも部分的に基づいて、前記複数のオーディオデータセグメントの前記順序をランダムに変更することを前記プロセッサに行わせるように構成された、上記Ｃ３１に記載のコンピュータプログラム製品。
［Ｃ３３］
マイクロフォンからの信号中に表される連続オーディオストリーム中に含まれているオーディオデータのサブセットをキャプチャするための手段であって、
前記連続オーディオストリームが人間音声を含んでおり、
オーディオデータの前記サブセットが前記人間音声の成分を不明瞭にする
キャプチャするための手段と、
オーディオ特性についてオーディオデータの前記サブセットを分析するための手段と、
前記オーディオ特性に少なくとも部分的に基づいて周囲環境を判断するための手段とを備える、プライバシー敏感オーディオを不明瞭にするためのデバイス。
［Ｃ３４］
オーディオデータの前記サブセットをキャプチャするための前記手段が、了解性忠実度をもって前記連続オーディオストリームを再生するために必要とされるよりも少ないビット数を有する前記連続オーディオストリームの計算された関数に従ってオーディオデータの前記サブセットをキャプチャするように構成された、上記Ｃ３３に記載のプライバシー敏感オーディオを不明瞭にするためのデバイス。
［Ｃ３５］
オーディオデータの前記サブセットをキャプチャするための前記手段は、オーディオデータの前記サブセットが複数のオーディオデータセグメントを備え、各オーディオデータセグメントが、前記連続オーディオストリームの異なる時間成分からのデータを備えるように、オーディオデータの前記サブセットをキャプチャするように構成された、上記Ｃ３３に記載のプライバシー敏感オーディオを不明瞭にするためのデバイス。
［Ｃ３６］
前記周囲環境を判断するための前記手段が、前記オーディオ特性に少なくとも部分的に基づいて人間の識別情報の判断を行うように構成された、上記Ｃ３５に記載のプライバシー敏感オーディオを不明瞭にするためのデバイス。
［Ｃ３７］
オーディオデータの前記サブセットをキャプチャするための前記手段は、前記複数のオーディオデータセグメントの各々が、３０ｍｓ〜１００ｍｓの記録されたオーディオを備えるように、オーディオデータの前記サブセットをキャプチャするように構成された、上記Ｃ３５に記載のプライバシー敏感オーディオを不明瞭にするためのデバイス。

【図1】

【図2a】

【図2b】

【図2c】

【図3a】

【図3b】

【図4】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

特許第5937202号(P5937202)IP Force 特許公報掲載プロジェクト 2022.1.31 β版