IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ インターナショナル・ビジネス・マシーンズ・コーポレーションの特許一覧

特許7714303姿勢に基づくテキスト音声変換の主要ソースを選択すること
<>
  • 特許-姿勢に基づくテキスト音声変換の主要ソースを選択すること 図1
  • 特許-姿勢に基づくテキスト音声変換の主要ソースを選択すること 図2
  • 特許-姿勢に基づくテキスト音声変換の主要ソースを選択すること 図3
  • 特許-姿勢に基づくテキスト音声変換の主要ソースを選択すること 図4
  • 特許-姿勢に基づくテキスト音声変換の主要ソースを選択すること 図5
  • 特許-姿勢に基づくテキスト音声変換の主要ソースを選択すること 図6
  • 特許-姿勢に基づくテキスト音声変換の主要ソースを選択すること 図7
  • 特許-姿勢に基づくテキスト音声変換の主要ソースを選択すること 図8
  • 特許-姿勢に基づくテキスト音声変換の主要ソースを選択すること 図9
  • 特許-姿勢に基づくテキスト音声変換の主要ソースを選択すること 図10
  • 特許-姿勢に基づくテキスト音声変換の主要ソースを選択すること 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-07-18
(45)【発行日】2025-07-29
(54)【発明の名称】姿勢に基づくテキスト音声変換の主要ソースを選択すること
(51)【国際特許分類】
   H04S 7/00 20060101AFI20250722BHJP
【FI】
H04S7/00 300
H04S7/00 330
【請求項の数】 17
(21)【出願番号】P 2022573559
(86)(22)【出願日】2021-06-09
(65)【公表番号】
(43)【公表日】2023-07-20
(86)【国際出願番号】 IB2021055065
(87)【国際公開番号】W WO2021260469
(87)【国際公開日】2021-12-30
【審査請求日】2023-11-14
(31)【優先権主張番号】16/910,765
(32)【優先日】2020-06-24
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】390009531
【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MACHINES CORPORATION
【住所又は居所原語表記】New Orchard Road, Armonk, New York 10504, United States of America
(74)【代理人】
【識別番号】100112690
【弁理士】
【氏名又は名称】太佐 種一
(74)【代理人】
【識別番号】100120710
【弁理士】
【氏名又は名称】片岡 忠彦
(72)【発明者】
【氏名】チャン,ダ,ウェイ
(72)【発明者】
【氏名】チェン,ケ
(72)【発明者】
【氏名】スン,ユ,ピン
(72)【発明者】
【氏名】ジャ,ホウ,ピン
(72)【発明者】
【氏名】モー,シャオクゥアン
【審査官】稲葉 崇
(56)【参考文献】
【文献】特開2000-099307(JP,A)
【文献】特開2003-099078(JP,A)
【文献】国際公開第2018/034168(WO,A1)
【文献】特開2015-232849(JP,A)
【文献】特開2012-195661(JP,A)
【文献】特開2006-115364(JP,A)
【文献】国際公開第2019/087646(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04S 1/00-7/00
G10L 13/00-13/10
G10L 19/00-99/00
H04M 3/00-3/58
H04M 7/00-7/16
H04M 11/00-11/10
H04N 7/10-7/56
H04N 21/00-21/858
(57)【特許請求の範囲】
【請求項1】
方法であって、
コンピュータ・システムによって、それぞれがテキスト・コンテンツを含む複数のコンテンツ・ソースを識別するステップであって、前記複数のコンテンツ・ソースはユーザにとっての関心により順序付けされる、識別するステップと、
前記コンピュータ・システムによって、前記複数のコンテンツ・ソースの各々を、前記テキスト・コンテンツから、複数のオーディオ選択の別個のオーディオ選択を含む音声に変換するステップと、
前記コンピュータ・システムによって、前記複数のオーディオ選択のそれぞれのオーディオ選択、多次元音響空間内の複数の位置の中から前記それぞれのオーディオ選択のそれぞれの位置に配置し、かつ、前記それぞれのオーディオ選択の1または複数の特性を前記複数のオーディオ選択の他のオーディオ選択から聴覚的に区別するようにオーディオ属性を指定するステップであって、前記それぞれのオーディオ選択の前記それぞれの位置は、前記関心により順序付けされたそれぞれのオーディオ選択のランクを反映する、前記オーディオ属性を指定するステップと、
前記コンピュータ・システムによって、前記関心により順序付けられた前記複数のコンテンツ・ソースを反映する前記多次元音響空間内の前記複数の位置における、前記ユーザに対する前記複数のオーディオ選択のステレオ再生のために、前記複数のオーディオ選択の同時ストリームを音声出力装置に出力するステップと
を含む、方法。
【請求項2】
前記コンピュータ・システムによって、それぞれがテキスト・コンテンツを含む前記複数のコンテンツ・ソースを識別するステップであって、前記複数のコンテンツ・ソースは前記ユーザにとっての関心により順序付けされる、識別するステップは、
前記コンピュータ・システムによって、ユーザによってアクセスされるコンテンツを、前記ユーザによる前記コンテンツの選択の指示として、監視するステップと、
前記ユーザによる前記コンテンツの選択の指示を検出することに応答して、前記コンピュータ・システムによって、前記選択の指示および前記コンテンツをコンテンツ履歴ログに記録するステップと、
前記コンピュータ・システムによって、少なくとも1種類のコンテンツの頻度について前記コンテンツ履歴ログを解析するステップと、
前記コンピュータ・システムによって、前記少なくとも1種類のコンテンツおよびそれぞれの頻度に基づいて、前記ユーザについての少なくとも1つのトピック選好を生成するステップと、
前記コンピュータ・システムによって、前記少なくとも1つのトピックを含む他のコンテンツを識別するために前記少なくとも1つのトピック選好および前記それぞれの頻度を用いて認知モデルを訓練するステップと、
前記ユーザが複数のテキスト・パッセージを含むウェブサイトにアクセスすることに応答して、前記コンピュータ・システムによって、前記少なくとも1つのトピックを含む前記複数のテキスト・パッセージの選択から、前記認知モデルを介して、前記複数のコンテンツ・ソースを識別するステップと、
前記コンピュータ・システムによって、前記複数のコンテンツ・ソースの前記それぞれのコンテンツ・ソースに存在する前記少なくとも1つのトピックの前記それぞれの頻度に基づいて前記認知モデルによって識別されるそれぞれの優先レベルに従って、前記複数のコンテンツ・ソースを順序付けるステップと
を含む、請求項1に記載の方法。
【請求項3】
前記コンピュータ・システムによって、それぞれがテキスト・コンテンツを含む前記複数のコンテンツ・ソースを識別するステップであって、前記複数のコンテンツ・ソースは特定のユーザにとっての関心により順序付けされる、識別するステップは、
前記コンピュータ・システムによって、コンテンツ・アグリゲータから利用可能な複数のテキスト・パッセージを含むインタフェースを識別するステップと、
前記コンピュータ・システムによって、前記インタフェースにおけるテキスト・パッセージ間の境界を識別するために少なくとも1つのグラフィカル特性を指定する出力インタフェース設定に基づいて、前記コンテンツ・アグリゲータからの前記複数のテキスト・パッセージを前記複数のコンテンツ・ソースの別個のコンテンツ・ソースに分割するステップと
を含む、請求項1に記載の方法。
【請求項4】
前記オーディオ属性を調整するための複数の選択可能な特徴は、1または複数の声種別属性、1または複数の声量属性、および1または複数の声速属性のうちの1または複数を含む請求項1に記載の方法。
【請求項5】
前記オーディオ属性を指定するステップは、さらに、
前記コンピュータ・システムによって、各オーディオ選択について、トピックによって、それぞれのコンテンツ・ソースのグラフィカル表現特性によって、およびテーマによって指定される属性選好設定に基づいて、前記オーディオ属性を指定するステップ
を含む、請求項4に記載の方法。
【請求項6】
前記オーディオ属性を指定するステップは、さらに、
前記コンピュータ・システムによって前記関心により順序付けされた最も高いランクを有する特定のコンテンツ・ソースから変換された特定のオーディオ選択に対して、前記多次元音響空間内の前記ユーザの前方の主要位置における前記複数の位置のうちの特定の位置に対する前記オーディオ属性を指定するステップ
を含む、請求項1に記載の方法。
【請求項7】
前記方法は、
前記コンピュータ・システムによって、ユーザ姿勢変化を示す入力を監視するステップと、
前記ユーザ姿勢変化を示す前記入力を検出することに応答して、前記コンピュータ・システムによって、3D音響空間を含む前記多次元音響空間内の前記複数のオーディオ選択のポジショニングに相対する前記ユーザ姿勢変化の動きの方向を解析するステップと、
前記コンピュータ・システムによって、前記3D音響空間における前記複数のオーディオ選択のポジショニングに相対する前記ユーザ姿勢変化の動きの方向に基づいて、前記ユーザによって選択される、前記複数のオーディオ選択の中からの特定のオーディオ選択を識別するステップと、
前記コンピュータ・システムによって、前記複数のオーディオ選択の前記それぞれのオーディオ選択を、前記3D音響空間内の前記複数の位置の中から前記それぞれのオーディオ選択の前記それぞれの位置に再配置し、かつ、前記それぞれのオーディオ選択の前記1または複数の特性を前記複数のオーディオ選択の他のオーディオ選択から聴覚的に区別するように更新されたオーディオ属性を指定するステップであって、前記特定のオーディオ選択は前記3D音響空間内の前記ユーザの前方の主要位置へ移動され、前記特定のオーディオ選択の音量は、前記複数のオーディオ選択のうちの他のオーディオ選択に相対的に増加される、前記更新されたオーディオ属性を指定するステップと
をさらに含む、請求項1に記載の方法。
【請求項8】
前記コンピュータ・システムによって、前記ユーザ姿勢変化を示す入力を監視するステップは、さらに、
前記コンピュータ・システムによって、前記同時ストリームの音声出力を聴くユーザの頭部の回転運動を測定する、角速度を測定するジャイロスコープからの出力を受信するステップを含む、請求項7に記載の方法。
【請求項9】
1または複数のプロセッサと、1または複数のコンピュータ可読メモリと、1または複数のコンピュータ可読ストレージ・デバイスと、前記1または複数のコンピュータ可読ストレージ・デバイスの少なくとも1つに格納され、前記1または複数のメモリのうちの少なくとも1つを介して前記1または複数のプロセッサのうちの少なくとも1つによって実行するためのプログラム命令とを含むコンピュータ・システムであって、格納された前記プログラム命令は、
それぞれがテキスト・コンテンツを含む複数のコンテンツ・ソースを識別するプログラム命令であって、前記複数のコンテンツ・ソースはユーザにとっての関心により順序付けされる、プログラム命令と、
前記複数のコンテンツ・ソースの各々を、前記テキスト・コンテンツから、複数のオーディオ選択の別個のオーディオ選択を含む音声に変換するプログラム命令と、
前記複数のオーディオ選択のそれぞれのオーディオ選択、多次元音響空間内の複数の位置の中から前記それぞれのオーディオ選択のそれぞれの位置に配置し、かつ、前記それぞれのオーディオ選択の1または複数の特性を前記複数のオーディオ選択の他のオーディオ選択から聴覚的に区別するようにオーディオ属性を指定するプログラム命令であって、前記それぞれのオーディオ選択の前記それぞれの位置は、前記関心により順序付けされたそれぞれのオーディオ選択のランクを反映する、プログラム命令と、
前記関心により順序付けされた前記複数のコンテンツ・ソースを反映する前記多次元音響空間内の前記複数の位置内における、前記ユーザに対する前記複数のオーディオ選択のステレオ再生のために、前記複数のオーディオ選択の同時ストリームを音声出力装置に出力するプログラム命令と
を含む、コンピュータ・システム。
【請求項10】
それぞれがテキスト・コンテンツを含む前記複数のコンテンツ・ソースを識別するプログラム命令であって、前記複数のコンテンツ・ソースは、前記ユーザにとっての関心により順序付けされる、前記格納されたプログラム命令は、
ユーザによってアクセスされるコンテンツを、前記ユーザによる前記コンテンツの選択の指示として監視するプログラム命令と、
前記ユーザによる前記コンテンツの選択の指示を検出することに応答して、前記選択の指示および前記コンテンツをコンテンツ履歴ログに記録するプログラム命令と、
少なくとも1種類のコンテンツの頻度について前記コンテンツ履歴ログを解析するプログラム命令と、
前記少なくとも1種類のコンテンツおよびそれぞれの頻度に基づいて、前記ユーザについての少なくとも1つのトピック選好を生成するプログラム命令と、
前記少なくとも1つのトピックを含む他のコンテンツを識別するために前記少なくとも1つのトピック選好および前記それぞれの頻度を用いて認知モデルを訓練するプログラム命令と、
前記ユーザが複数のテキスト・パッセージを含むウェブサイトにアクセスすることに応答して、前記少なくとも1つのトピックを含む前記複数のテキスト・パッセージの選択から、前記認知モデルを介して、前記複数のコンテンツ・ソースを識別するプログラム命令と、
前記複数のコンテンツ・ソースのそれぞれのコンテンツ・ソースに存在する前記少なくとも1つのトピックの前記それぞれの頻度に基づいて前記認知モデルによって識別されるそれぞれの優先レベルに従って、前記複数のコンテンツ・ソースを順序付けるプログラム命令と
を含む、請求項9に記載のコンピュータ・システム。
【請求項11】
それぞれがテキスト・コンテンツを含む前記複数のコンテンツ・ソースを識別するプログラム命令であって、前記複数のコンテンツ・ソースは、特定のユーザにとっての関心により順序付けされる、前記格納されたプログラム命令は、さらに、
コンテンツ・アグリゲータから利用可能な複数のテキスト・パッセージを含むインタフェースを識別するプログラム命令と、
前記インタフェースにおけるテキスト・パッセージ間の境界を識別するために少なくとも1つのグラフィカル特性を指定する出力インタフェース設定に基づいて、前記コンテンツ・アグリゲータからの前記複数のテキスト・パッセージを前記複数のコンテンツ・ソースの別個のコンテンツ・ソースに分割するプログラム命令と
を含む、請求項9に記載のコンピュータ・システム。
【請求項12】
前記オーディオ属性を調整するための複数の選択可能な特徴は、1または複数の声種別属性、1または複数の声量属性、および1または複数の声速属性のうちの1または複数を含む請求項9に記載のコンピュータ・システム。
【請求項13】
前記オーディオ属性を指定する、前記格納されたプログラム命令は、さらに、
各オーディオ選択について、トピックによって、それぞれのコンテンツ・ソースのグラフィカル表現特性によっておよびテーマによって指定される属性選好設定に基づいて、前記オーディオ属性を指定するプログラム命令
を含む、請求項12に記載のコンピュータ・システム。
【請求項14】
前記オーディオ属性を指定する、前記格納されたプログラム命令は、さらに、
前記関心により順序付けされた最も高いランクを有する特定のコンテンツ・ソースから変換された特定のオーディオ選択に対する前記多次元音響空間内の前記ユーザの前方の主要位置における前記複数の位置のうちの特定の位置に対する前記オーディオ属性を指定するプログラム命令
を含む、請求項9に記載のコンピュータ・システム。
【請求項15】
前記格納されたプログラム命令は、さらに、
ユーザ姿勢変化を示す入力を監視するプログラム命令と、
前記ユーザ姿勢変化を示す前記入力を検出することに応答して、3D音響空間を含む前記多次元音響空間内の前記複数のオーディオ選択のポジショニングに相対する前記ユーザ姿勢変化の動きの方向を解析するプログラム命令と、
前記3D音響空間における前記複数のオーディオ選択のポジショニングに相対する前記ユーザ姿勢変化の動きの方向に基づいて、前記ユーザによって選択される、前記複数のオーディオ選択の中からの特定のオーディオ選択を識別するプログラム命令と、
前記複数のオーディオ選択の前記それぞれのオーディオ選択、前記3D音響空間内の前記複数の位置の中から前記それぞれのオーディオ選択の前記それぞれの位置に再配置し、かつ、前記それぞれのオーディオ選択の前記1または複数の特性を前記複数のオーディオ選択の他のオーディオ選択から聴覚的に区別するように更新されたオーディオ属性を指定するプログラム命令であって、前記特定のオーディオ選択は前記3D音響空間内の前記ユーザの前方の主要位置へ移動され、前記特定のオーディオ選択の音量は、前記複数のオーディオ選択のうちの他のオーディオ選択に相対的に増加される、プログラム命令と
を含む、請求項9に記載のコンピュータ・システム。
【請求項16】
前記ユーザ姿勢変化を示す入力を監視する、前記格納されたプログラム命令は、さらに、
前記同時ストリームの音声出力を聴くユーザの頭部の回転運動を測定する、角速度を測定するジャイロスコープからの出力を受信するプログラム命令
を含む、請求項15に記載のコンピュータ・システム。
【請求項17】
コンピュータ・システムに、請求項1から請求項8のいずれか1項に記載の方法における各ステップを実行させる、コンピュータ・プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の1または複数の実施形態は、概して、データ処理に関し、より詳細には、姿勢に基づいてテキスト音声変換の主要ソースを選択することに関する。
【背景技術】
【0002】
多くのコンピューティング・デバイスは、テキスト・コンテンツを、スピーカまたは他の音声出力デバイスを介して出力される音声に変換するテキスト音声化(Text to Speech)技術をサポートする。ユーザが、ニュース・ウェブサイトまたは検索エンジンの結果など、複数のソースから集約されたテキスト・コンテンツの複数の項目を含むウェブサイトを開き、テキスト音声化を用いて変換されたそのウェブサイトからのテキスト・コンテンツを聞くことを選択する場合、テキスト音声化コンバータが、テキストをウェブサイト内の単一のテキスト文字列から音声に変換することを開始する。ユーザが関心を有するトピックを見つけ出すために、ユーザにウェブサイト内に見えるテキスト・コンテンツの各項目から変換される音声を個別に一つ一つ聞き取ることを要求することは、ユーザがウェブサイトを視覚的に走査して1つのページに同時に表示された種々の見出しまたは他のテキスト・コンテンツの項目のテキストにおけるキーワードにわたり手早く走査したり、いずれのテキスト・コンテンツの項目に焦点を当てて詳しく読むかを手早く決定することができる視覚的走査よりも、非効率的である。
【0003】
Logan等の米国特許第6,199,076号明細書には、「オーディオ・プログラム・セグメントの所定のスケジュールを自動的に再生」し、ユーザが「望む場合に、各セグメントを説明するオーディオ音声アナウンスを、それが再生される前に視聴し、次から前のアナウンスまで前方または後方にスキップして、これによって、所与のセグメントが関心のあるものか否かを決定するために必要な情報を即時に取得する」ことをサポートするオーディオ・プログラム・プレーヤを説明する。加えて、Logan等は、任意のプログラム・セグメント内の1または複数の別個のパッセージが「ハイライトされる」ものとして識別する機能を説明し、プレーヤは、ハイライトされていないコンテンツのこれらの部分をスキップし、これにより、視聴者が、プレゼンテーションのキーポイントだけをレビューしたり、特定のプログラムの本体内の関心のある特定のパッセージをより迅速に特定したりすることを可能とする「ハイライト再生(play highlights)」モードにおかれてプレーヤが動作する手段を組み込む。加えて、Logan等は、「ニュースソース、ライブラリなどからのテキスト形式で利用可能な情報が、人間の読者によってまたは従来の音声合成によって、圧縮された音声形式に変換されてもよい。音声合成が用いられる場合、音声へのテキストの変換は、好ましくはプレーヤによってクライアント局103で行われる」ことを説明する。しかしながら、Logan等のオーディオ・プログラム・プレーヤは、依然として、ユーザに、一つ一つセグメントについてのオーディオ音声アナウンスまたはテキストから音声へ変換されたセグメントからのハイライトを視聴することを要求し、これは、ユーザが迅速に、同時に1つのページに表示される複数のテキスト・コンテンツの項目の表示を通して視覚的に走査してさらなる調査のために特定のテキスト・コンテンツ項目を選択することができるようには効率的ではない。
【0004】
Craig Jinによる「制限なしの同時音響を用いたリアルタイムのヘッドトラッキング3Dオーディオ」は、「無制限の数の同時音源についての3Dオーディオ再生のためのリアルタイムのヘッドトラッキングを用いた新規な方法が提案された。3Dオーディオ処理をオフラインで実行することによって、無制限の数の同時音源を空間的にレンダリングすることができる。固定かつ密に離間された頭部の姿勢のセットについてバイノーラル音響トラックをレンダリングすることによって、リアルタイムのヘッドトラッキングでの滑らかな再生が達成された」ことを説明する。しかしながら、Jinの無制限の数の同時音源に対する3Dオーディオ再生は、映画のサウンドトラックである既存の音源を事前にロードされるように制限され、任意のコンテンツ・ソースを識別またはテキストから音声へ変換しない。加えて、無制限の数の同時音源に対するJinの3Dオーディオ再生は、音源を調整し、ユーザが全ての同時音源を迅速に走査し、次いで1つの音源に焦点を合わせるように選択することを可能にするために提供されていない。
【0005】
オンライン集約されたコンテンツ・プロバイダの数が増加し続けるにつれて、テキスト・コンテンツの項目がテキストから音声に変換される場合にユーザがコンテンツ・アグリゲータからの複数のテキスト・コンテンツの項目を走査する改善された効率をサポートするための方法、システムおよびコンピュータ・プログラムが必要とされている。加えて、多次元オーディオを聴くためのステレオ・ヘッドフォンおよびスピーカが普及するにつれて、多次元音響空間における出力のための音源の改善されたチューニングをサポートして、ユーザが、複数の音源を同時に聴くことを容易にして複数の音源からユーザにとって関心のあるトピックを識別し、次いで、特定の音源の出力特性を選択的に調整して、他の音源が依然として提示されながら特定の音源に焦点を当てた視聴を行うことを容易にする方法、システムおよびコンピュータ・プログラム製品が必要とされている。
【発明の概要】
【0006】
上記を踏まえて、本発明の1または複数の実施形態は、異なる音声属性を各オーディオ選択に適用して各オーディオ選択を他のオーディオ選択から聴覚的に区別しながら、音声に変換される複数のテキスト・パッセージから生成され、並列に再生される複数のオーディオ選択の同時ストリームを生成することを提供し、ユーザが効率的に音声に変換された複数のテキスト・コンテンツ項目のコンテンツを通して聴覚的に走査することを容易にする、異なる声で満たされる空間を作成する音声出力を提供する。本発明の1または複数の実施形態は、異なる音声属性を各オーディオ選択に適用して各オーディオ選択を多次元音響空間内の異なる位置に聴覚的に配置しながら、音声に変換される複数のテキスト・パッセージから生成された複数のオーディオ選択の同時ストリームを生成することを提供し、ユーザが異なる聴覚的な位置に並列に提示される複数のオーディオ選択のコンテンツを通して走査することを容易にして、オーディオ選択の中からユーザにとって関心のあるトピックを識別するためにユーザに利用可能な異なるスピーカによって満たされる空間をシミュレートする。加えて、上記を踏まえて、本発明の1または複数の実施形態は、多次元音響空間内のオーディオ選択の位置に相対するユーザ姿勢の移動を、テキスト・コンテンツのソースから変換された特定のオーディオ選択へ焦点を合わせるユーザの選好の指示として監視し、また、特定のオーディオ選択の出力特性を選択的に調整して多次元音響空間において他のオーディオ選択を再生することを継続しながら特定のオーディオ選択へ焦点を合わせた視聴を容易にすることを提供し、ユーザが姿勢の動きを使用して焦点を合わせた視聴を制御することを可能としながら音声に変換された集約テキスト・コンテンツの出力のための、集約されたテキスト・コンテンツを出力する視覚的な環境と同様の効率で理解し易い聴覚的な環境を提供する。
【0007】
1または複数の実施形態においては、方法は、コンピュータ・システムによって、それぞれがテキスト・コンテンツを含む複数のコンテンツ・ソースを識別するステップを対象とし、ここで、複数のコンテンツ・ソースは、ユーザにとっての関心により順序付けされる。方法は、コンピュータ・システムによって、複数のコンテンツ・ソースの各々を、テキスト・コンテンツから、複数のオーディオ選択の別個のオーディオ選択を含む音声に変換するステップを対象とする。方法は、コンピュータ・システムによって、各オーディオ選択に対し1または複数の音声属性を適用して、多次元音響空間内の複数の位置の中からそれぞれのオーディオ選択のそれぞれの位置を選択するオーディオ属性を指定し、複数のオーディオ選択の他のオーディオ選択からそれぞれのオーディオ選択の1または複数の特性を聴覚的に区別するステップを対象とし、ここで、それぞれのオーディオ選択のそれぞれの位置は、関心により順序付けされたそれぞれのオーディオ選択のランクを反映する。方法は、コンピュータ・システムによって、関心により順序付けられた複数のコンテンツ・ソースを反映する多次元音響空間内の複数の位置における、ユーザに対する複数のオーディオ選択のステレオ再生のために、複数のオーディオ選択の同時ストリームを音声出力装置に出力するステップを対象とする。1または複数の音声属性を各オーディオ選択に対し適用して、多次元音響空間内の複数の位置の中からそれぞれのオーディオ選択のそれぞれの位置を選択するオーディオ属性を指定し、複数のオーディオ選択の他のオーディオ選択からそれぞれのオーディオ選択の1または複数の特性を聴覚的に区別することの1つの利点は、オーディオ選択の同時ストリームが、ユーザが、ユーザにとって検出可能な異なる聴覚的位置に並列に提示される複数のオーディオ選択のコンテンツを通して走査し、オーディオ選択の中からユーザにとって関心のあるトピックを識別することをサポートするオーディオ出力を提供することである。ユーザにとっての関心によって順序付けられる複数のコンテンツ・ソースを識別し、オーディオ属性を指定して、関心により順序付けされたそれぞれのオーディオ選択のランクを反映したオーディオ選択のそれぞれの位置を選択することの1つの利点は、オーディオ選択の同時ストリームが、ユーザが最も関心を持ちそうなコンテンツ・ソースを、1または複数の主要位置に配置するオーディオ出力を提供することであり、ここで、この1または複数の主要位置は、聴覚的位置を走査する際に、1または複数の主要位置におけるオーディオ選択がユーザにとって最も高い関心を有するであろうという、ユーザにとっての予測可能性を改善する。
【0008】
加えて、1または複数の実施形態においては、コンピュータ・システムによって、それぞれがテキスト・コンテンツを含む複数のコンテンツ・ソースを識別する方法のステップであって、複数のコンテンツ・ソースは、ユーザにとっての関心により順序付けされる、識別する方法のステップは、コンピュータ・システムによって、ユーザによってアクセスされるコンテンツを、ユーザによるコンテンツの選択の指示として監視するステップを対象としてもよい。方法は、さらに、ユーザによるコンテンツの選択の指示を検出することに応答して、コンピュータ・システムによって、選択の指示およびコンテンツをコンテンツ履歴ログに記録するステップを対象としてもよい。方法は、さらに、コンピュータ・システムによって、少なくとも1種類のコンテンツの頻度についてコンテンツ履歴ログを解析するステップを対象としてもよい。方法は、さらに、コンピュータ・システムによって、少なくとも1種類のコンテンツおよびそれぞれの頻度に基づいて、ユーザについての少なくとも1つのトピック選好を生成するステップを対象としてもよい。方法は、コンピュータ・システムによって、少なくとも1つのトピックを含む他のコンテンツを識別するために少なくとも1つのトピック選好およびそれぞれの頻度を用いて認知モデルを訓練するステップを対象としてもよい。方法は、ユーザが複数のテキスト・パッセージを含むウェブサイトにアクセスすることに応答して、コンピュータ・システムによって、少なくとも1つのトピックを含む複数のテキスト・パッセージの選択から、認知モデルを介して、複数のコンテンツ・ソースを識別するステップを対象としてもよい。方法は、さらに、コンピュータ・システムによって、複数のコンテンツ・ソースのそれぞれのコンテンツ・ソースに存在する少なくとも1つのトピックのそれぞれの頻度に基づいて認知モデルによって識別されるそれぞれの優先レベルに従って、複数のコンテンツ・ソースを順序付けるステップを対象としてもよい。コンテンツにアクセスし、応答する監視されるユーザのアクティビティに基づくトピック選好および頻度を用いて認知モデルを訓練し、次いで、訓練された認知モデルによってコンテンツ・ソースを選択的に識別し、順序付けることの1つの利点は、同時ストリームにおいて並列に再生されるコンテンツ・ソースの選択が、特定のユーザにとっての関心の尤もらしさに従って聴覚的な位置において順序付けられて、特定のユーザが、並列にストリームされた複数のオーディオ選択を通して走査し、ユーザにとって関心のある少なくとも1つの可聴な選択を見つけ出す効率を向上することである。
【0009】
加えて、1または複数の実施形態においては、コンピュータ・システムによって、それぞれがテキスト・コンテンツを含む複数のコンテンツ・ソースを識別する方法のステップであって、複数のコンテンツ・ソースは、ユーザにとっての関心により順序付けされる、識別する方法のステップは、コンピュータ・システムによって、コンテンツ・アグリゲータ(content aggregator)から利用可能な複数のテキスト・パッセージ(text passages)を含むインタフェースを識別するステップを対象としてもよい。方法は、さらに、コンピュータ・システムによって、インタフェース(interface)におけるテキスト・パッセージ間の境界を識別するために少なくとも1つのグラフィカル特性を指定する出力インタフェース設定に基づいて、コンテンツ・アグリゲータからの複数のテキスト・パッセージを複数のコンテンツ・ソースの別個のコンテンツ・ソースに分割するステップを対象としてもよい。コンテンツ・アグリゲータから利用可能な複数のテキスト・パッセージを識別し、インタフェースにおけるテキスト・パッセージ間の境界を識別するために少なくとも1つのグラフィカル特性を指定する出力インタフェース設定に基づいて複数のテキスト・パッセージをコンテンツ・ソースに分割することの1つの利点は、コンテンツ・ソースが任意の特定のコンテンツ・アグリゲータ・インタフェースから独立に識別され、同時ストリームが、複数の種類のコンテンツ・アグリゲータからのコンテンツ・ソースについて、かつ、コンテンツ・アグリゲータが、音声に変換するために、インタフェースにおけるテキスト・パッセージを出力するか否かとは独立して生成されるようにすることである。
【0010】
加えて、1または複数の実施形態においては、コンピュータ・システムによって、各オーディオ選択に対し1または複数の音声属性を適用して、多次元音響空間内の複数の位置の中からそれぞれのオーディオ選択のそれぞれの位置を選択するオーディオ属性を指定し、複数のオーディオ選択の他のオーディオ選択からそれぞれのオーディオ選択の1または複数の特性を聴覚的に区別する方法のステップであって、それぞれのオーディオ選択のそれぞれの位置は、関心により順序付けされたそれぞれのオーディオ選択のランクを反映する、区別する方法のステップは、コンピュータ・システムによって、各オーディオ選択に対し1または複数の音声属性を適用して、関心により順序付けされた最も高いランクを有する特定のコンテンツ・ソースから変換された特定のオーディオ選択に対する多次元音響空間内のユーザの前方の主要位置における複数の位置のうちの特定の位置に対するオーディオ属性を指定するステップを対象としてもよい。1または複数の音声属性を適用して、多次元音響空間内のユーザの前方の主要位置において、関心により順序付けされた最も高いランクを有する特定のオーディオ選択に対するオーディオ属性を指定することの1つの利点は、ユーザに、ユーザにとって最も関心がある可能性のあるオーディオ選択が、ユーザの前方の位置に予測可能に位置づけられながら、異なる位置における複数のオーディオ選択とともにオーディオ出力が提供されて、並列に再生されるオーディオ選択のそれぞれを走査して焦点を当てる順序をユーザが決定する際の効率を向上することである。
【0011】
加えて、1または複数の実施形態においては、方法は、コンピュータ・システムによって、ユーザ姿勢変化を示す入力を監視するステップを対象としてもよい。方法は、また、ユーザ姿勢変化を示す入力を検出することに応答して、コンピュータ・システムによって、3D音響空間を含む多次元音響空間内の複数のオーディオ選択のポジショニングに相対するユーザ姿勢変化の動きの方向を解析するステップを対象としてもよい。方法は、また、コンピュータ・システムによって、3D音響空間における複数のオーディオ選択のポジショニングに相対するユーザ姿勢変化の動きの方向に基づいて、ユーザによって選択される、複数のオーディオ選択の中からの特定のオーディオ選択を識別するステップを対象としてもよい。方法は、また、コンピュータ・システムによって、各オーディオ選択に対し1または複数の更新された音声属性を適用して、3D音響空間内の複数の位置の中からそれぞれのオーディオ選択のそれぞれの位置を選択するオーディオ属性を指定し、複数のオーディオ選択の他のオーディオ選択からそれぞれのオーディオ選択の1または複数の特性を聴覚的に区別するステップであって、特定のオーディオ選択は、3D音響空間内のユーザの前方の主要位置へ移動し、特定のオーディオ選択の音量は、複数のオーディオ選択のうちの他のオーディオ選択に相対的に増加される、区別するステップを対象としてもよい。ユーザ姿勢変化を示す入力を監視し、多次元音響空間における複数のオーディオ選択のポジショニングに相対するユーザ姿勢変化における動きの方向を検出することの1つの利点は、ユーザが、ハンズフリーで、かつ、精確な動きを要求することなく、同時ストリーム内の複数のオーディオ選択の中から特定のオーディオ選択を選択して焦点を合わせることを可能とする最小限の動きによって特定のオーディオ選択に焦点を合わせるための入力を提供することである。
【0012】
1または複数の実施形態においては、コンピュータ・システムは、1または複数のプロセッサと、1または複数のコンピュータ可読メモリと、1または複数のコンピュータ可読ストレージ・デバイスと、1または複数のコンピュータ可読ストレージ・デバイスの少なくとも1つに格納され、1または複数のメモリのうちの少なくとも1つを介して1または複数のプロセッサのうちの少なくとも1つによって実行するためのプログラム命令とを含む。格納されたプログラム命令は、それぞれがテキスト・コンテンツを含む複数のコンテンツ・ソースを識別するプログラム命令であって、複数のコンテンツ・ソースは、ユーザにとっての関心により順序付けされる、プログラム命令を含む。格納されたプログラム命令は、複数のコンテンツ・ソースの各々を、テキスト・コンテンツから、複数のオーディオ選択の別個のオーディオ選択を含む音声に変換するプログラム命令を含む。格納されたプログラム命令は、各オーディオ選択に対し1または複数の音声属性を適用して、多次元音響空間内の複数の位置の中からそれぞれのオーディオ選択のそれぞれの位置を選択するオーディオ属性を指定し、複数のオーディオ選択の他のオーディオ選択からそれぞれのオーディオ選択の1または複数の特性を聴覚的に区別するプログラム命令であって、それぞれのオーディオ選択のそれぞれの位置は、関心により順序付けされたそれぞれのオーディオ選択のランクを反映する、プログラム命令を含む。格納されたプログラム命令は、関心により順序付けられた複数のコンテンツ・ソースを反映する多次元音響空間内の複数の位置における、ユーザに対する複数のオーディオ選択のステレオ再生のために、複数のオーディオ選択の同時ストリームを音声出力装置に出力するプログラム命令を含む。1または複数の音声属性を各オーディオ選択に対して適用して、多次元音響空間内の複数の位置の中からそれぞれのオーディオ選択のそれぞれの位置を選択するオーディオ属性を指定し、複数のオーディオ選択の他のオーディオ選択からそれぞれのオーディオ選択の1または複数の特性を聴覚的に区別することの1つの利点は、オーディオ選択の同時ストリームが、ユーザが、ユーザにとって検出可能な異なる聴覚的位置に並列に提示される複数のオーディオ選択のコンテンツを通して走査し、オーディオ選択の中からユーザにとって関心のあるトピックを識別することをサポートするオーディオ出力を提供することである。ユーザにとっての関心によって順序付けられる複数のコンテンツ・ソースを識別し、オーディオ属性を指定して、関心により順序付けされたそれぞれのオーディオ選択のランクを反映したオーディオ選択のそれぞれの位置を選択することの1つの利点は、オーディオ選択の同時ストリームが、ユーザが最も関心を持ちそうなコンテンツ・ソースを、1または複数の主要位置に配置するオーディオ出力を提供することであり、ここで、この1または複数の主要位置は、聴覚的位置を走査する際に、1または複数の主要位置におけるオーディオ選択がユーザにとって最も高い関心を有するであろうという、ユーザにとっての予測可能性を改善する。
【0013】
加えて、1または複数の実施形態においては、それぞれがテキスト・コンテンツを含む複数のコンテンツ・ソースを識別するプログラム命令であって、複数のコンテンツ・ソースは、ユーザにとっての関心により順序付けされる、格納されたプログラム命令は、ユーザによってアクセスされるコンテンツを、ユーザによるコンテンツの選択の指示として、監視する、格納されたプログラム命令を対象としてもよい。コンピュータ・システムは、さらに、ユーザによるコンテンツの選択の指示を検出することに応答して、選択の指示およびコンテンツをコンテンツ履歴ログに記録する、格納されたプログラム命令を含んでもよい。コンピュータ・システムは、少なくとも1種類のコンテンツの頻度についてコンテンツ履歴ログを解析する、格納されたプログラム命令を含んでもよい。コンピュータ・システムは、さらに、少なくとも1種類のコンテンツおよびそれぞれの頻度に基づいて、ユーザについての少なくとも1つのトピック選好を生成する、格納されたプログラム命令を含んでもよい。コンピュータ・システムは、さらに、少なくとも1つのトピックを含む他のコンテンツを識別するために少なくとも1つのトピック選好およびそれぞれの頻度を用いて認知モデルを訓練する、格納されたプログラム命令を含んでもよい。コンピュータ・システムは、さらに、ユーザが複数のテキスト・パッセージを含むウェブサイトにアクセスすることに応答して、少なくとも1つのトピックを含む複数のテキスト・パッセージの選択から、認知モデルを介して、複数のコンテンツ・ソースを識別する、格納されたプログラム命令を含んでもよい。コンピュータ・システムは、さらに、複数のコンテンツ・ソースのそれぞれのコンテンツ・ソースに存在する少なくとも1つのトピックのそれぞれの頻度に基づいて認知モデルによって識別されるそれぞれの優先レベルに従って、複数のコンテンツ・ソースを順序付けるプログラム命令を含んでもよい。コンテンツにアクセスし、応答する監視されるユーザのアクティビティに基づくトピック選好および頻度を用いて認知モデルを訓練し、次いで、訓練された認知モデルによってコンテンツ・ソースを選択的に識別し、順序付けることの1つの利点は、同時ストリームにおいて並列に再生されるコンテンツ・ソースの選択が、特定のユーザにとっての関心の尤もらしさに従って聴覚的な位置において順序付けられて、特定のユーザが、並列にストリームされた複数のオーディオ選択を通して走査し、ユーザにとって関心のある少なくとも1つの可聴な選択を見つけ出す効率を向上することである。
【0014】
加えて、1または複数の実施形態においては、それぞれがテキスト・コンテンツを含む複数のコンテンツ・ソースを識別するプログラム命令であって、複数のコンテンツ・ソースは、特定のユーザにとっての関心により順序付けされる、格納されたプログラム命令は、コンテンツ・アグリゲータから利用可能な複数のテキスト・パッセージを含むインタフェースを識別する、格納されたプログラム命令を対象としてもよい。コンピュータ・システムは、さらに、インタフェースにおけるテキスト・パッセージ間の境界を識別するために少なくとも1つのグラフィカル特性を指定する出力インタフェース設定に基づいて、コンテンツ・アグリゲータからの複数のテキスト・パッセージを複数のコンテンツ・ソースの別個のコンテンツ・ソースに分割する、格納されたプログラム命令を含んでもよい。コンテンツ・アグリゲータから利用可能な複数のテキスト・パッセージを識別し、インタフェースにおけるテキスト・パッセージ間の境界を識別するために少なくとも1つのグラフィカル特性を指定する出力インタフェース設定に基づいて複数のテキスト・パッセージをコンテンツ・ソースに分割することの1つの利点は、コンテンツ・ソースが任意の特定のコンテンツ・アグリゲータ・インタフェースから独立に識別され、同時ストリームが、複数の種類のコンテンツ・アグリゲータからのコンテンツ・ソースについて、かつ、コンテンツ・アグリゲータが、音声に変換するために、インタフェースにおけるテキスト・パッセージを出力するか否かとは独立して生成されるようにすることである。
【0015】
加えて、1または複数の実施形態においては、各オーディオ選択に対し1または複数の音声属性を適用して、多次元音響空間内の複数の位置の中からそれぞれのオーディオ選択のそれぞれの位置を選択するオーディオ属性を指定し、複数のオーディオ選択の他のオーディオ選択からそれぞれのオーディオ選択の1または複数の特性を聴覚的に区別するプログラム命令であって、それぞれのオーディオ選択のそれぞれの位置は、関心により順序付けされたそれぞれのオーディオ選択のランクを反映する、格納されたプログラム命令は、各オーディオ選択に対し1または複数の音声属性を適用して、関心により順序付けされた最も高いランクを有する特定のコンテンツ・ソースから変換された特定のオーディオ選択に対する多次元音響空間内のユーザの前方の主要位置における複数の位置のうちの特定の位置に対するオーディオ属性を指定する、格納されたプログラム命令を対象としてもよい。1または複数の音声属性を適用して、多次元音響空間内のユーザの前方の主要位置において、関心により順序付けされた最も高いランクを有する特定のオーディオ選択に対するオーディオ属性を指定することの1つの利点は、ユーザに、ユーザにとって最も関心がある可能性のあるオーディオ選択が、ユーザの前方の位置に予測可能に位置づけられながら、異なる位置における複数のオーディオ選択とともにオーディオ出力が提供されて、並列に再生されるオーディオ選択のそれぞれを走査して焦点を当てる順序をユーザが決定する際の効率を向上することである。
【0016】
加えて、1または複数の実施形態においては、コンピュータ・システムは、さらに、ユーザ姿勢変化を示す入力を監視する、格納されたプログラム命令を含んでもよい。コンピュータ・システムは、ユーザ姿勢変化を示す前記入力を検出することに応答して、3D音響空間を含む多次元音響空間内の複数のオーディオ選択のポジショニングに相対するユーザ姿勢変化の動きの方向を解析する、格納されたプログラム命令を含んでもよい。コンピュータ・システムは、さらに、3D音響空間における複数のオーディオ選択のポジショニングに相対するユーザ姿勢変化の動きの方向に基づいて、ユーザによって選択される、複数のオーディオ選択の中からの特定のオーディオ選択を識別する、格納されたプログラム命令を含んでもよい。コンピュータ・システムは、さらに、各オーディオ選択に対し1または複数の更新された音声属性を適用して、3D音響空間内の複数の位置の中からそれぞれのオーディオ選択のそれぞれの位置を選択するオーディオ属性を指定し、複数のオーディオ選択の他のオーディオ選択からそれぞれのオーディオ選択の1または複数の特性を聴覚的に区別する、格納されたプログラム命令であって、特定のオーディオ選択は、3D音響空間内のユーザの前方の主要位置へ移動し、特定のオーディオ選択の音量は、複数のオーディオ選択のうちの他のオーディオ選択に相対的に増加される、格納されたプログラム命令を含んでもよい。ユーザ姿勢変化を示す入力を監視し、多次元音響空間における複数のオーディオ選択のポジショニングに相対するユーザ姿勢変化における動きの方向を検出することの1つの利点は、ユーザが、ハンズフリーで、かつ、精確な動きを要求することなく、同時ストリーム内の複数のオーディオ選択の中から特定のオーディオ選択を選択して焦点を合わせることを可能とする最小限の動きによって特定のオーディオ選択に焦点を合わせるための入力を提供することである。
【0017】
1または複数の実施形態においては、コンピュータ・プログラム製品は、そこに具現化されたプログラム命令を有するコンピュータ可読ストレージ媒体を含む。コンピュータ可読ストレージ媒体は、それ自体が一時的な信号ではない。プログラム命令は、コンピュータによって実行可能であり、コンピュータに、コンピュータによって、それぞれがテキスト・コンテンツを含む複数のコンテンツ・ソースを識別することであって、複数のコンテンツ・ソースは、ユーザにとっての関心により順序付けされる、識別することを行わせる。プログラム命令は、コンピュータによって実行可能であり、コンピュータに、コンピュータによって、複数のコンテンツ・ソースの各々を、テキスト・コンテンツから、複数のオーディオ選択の別個のオーディオ選択を含む音声に変換することを行わせる。プログラム命令は、コンピュータによって実行可能であり、コンピュータに、コンピュータによって、各オーディオ選択に対し1または複数の音声属性を適用して、多次元音響空間内の複数の位置の中からそれぞれのオーディオ選択のそれぞれの位置を選択するオーディオ属性を指定し、複数のオーディオ選択の他のオーディオ選択からそれぞれのオーディオ選択の1または複数の特性を聴覚的に区別することであって、それぞれのオーディオ選択のそれぞれの位置は、関心により順序付けされたそれぞれのオーディオ選択のランクを反映する、区別することを行わせる。プログラム命令は、コンピュータによって実行可能であり、コンピュータに、コンピュータによって、関心により順序付けられた複数のコンテンツ・ソースを反映する多次元音響空間内の前記複数の位置における、ユーザに対する複数のオーディオ選択のステレオ再生のために、複数のオーディオ選択の同時ストリームを音声出力装置に出力することを行わせる。1または複数の音声属性を各オーディオ選択に対して適用して、多次元音響空間内の複数の位置の中からそれぞれのオーディオ選択のそれぞれの位置を選択するオーディオ属性を指定し、複数のオーディオ選択の他のオーディオ選択からそれぞれのオーディオ選択の1または複数の特性を聴覚的に区別することの1つの利点は、オーディオ選択の同時ストリームが、ユーザが、ユーザにとって検出可能な異なる聴覚的位置に並列に提示される複数のオーディオ選択のコンテンツを通して走査し、オーディオ選択の中からユーザにとって関心のあるトピックを識別することをサポートするオーディオ出力を提供することである。ユーザにとっての関心によって順序付けられる複数のコンテンツ・ソースを識別し、オーディオ属性を指定して、関心により順序付けされたそれぞれのオーディオ選択のランクを反映したオーディオ選択のそれぞれの位置を選択することの1つの利点は、オーディオ選択の同時ストリームが、ユーザが最も関心を持ちそうなコンテンツ・ソースを、1または複数の主要位置に配置するオーディオ出力を提供することであり、ここで、この1または複数の主要位置は、聴覚的位置を走査する際に、1または複数の主要位置におけるオーディオ選択がユーザにとって最も高い関心を有するであろうという、ユーザにとっての予測可能性を改善する。
【0018】
加えて、1または複数の実施形態においては、コンピュータ・プログラム製品は、コンピュータに、コンピュータによって、それぞれがテキスト・コンテンツを含む複数のコンテンツ・ソースを識別することであって、複数のコンテンツ・ソースは、ユーザにとっての関心により順序付けされる、識別することを行わせるプログラム命令を含み、これは、コンピュータによって実行可能であり、コンピュータに、コンピュータによって、ユーザによってアクセスされるコンテンツを、ユーザによるコンテンツの選択の指示として、監視することを行わせるためのプログラム命令を対象としてもよい。コンピュータ・プログラム製品は、コンピュータによって実行可能であり、コンピュータに、ユーザによるコンテンツの選択の指示を検出することに応答して、コンピュータによって、選択の指示およびコンテンツをコンテンツ履歴ログに記録することを行わせるためのプログラム命令を含んでもよい。コンピュータ・プログラム製品は、コンピュータによって実行可能であり、コンピュータに、コンピュータによって、少なくとも1種類のコンテンツの頻度についてコンテンツ履歴ログを解析することを行わせるためのプログラム命令を含んでもよい。コンピュータ・プログラム製品は、コンピュータによって実行可能であり、コンピュータに、コンピュータによって、少なくとも1種類のコンテンツおよびそれぞれの頻度に基づいて、ユーザについての少なくとも1つのトピック選好を生成することを行わせるためのプログラム命令を含んでもよい。コンピュータ・プログラム製品は、コンピュータによって実行可能であり、コンピュータに、コンピュータによって、少なくとも1つのトピックを含む他のコンテンツを識別するために少なくとも1つのトピック選好およびそれぞれの頻度を用いて認知モデルを訓練することを行わせるためのプログラム命令を含んでもよい。コンピュータ・プログラム製品は、コンピュータによって実行可能であり、コンピュータに、ユーザが複数のテキスト・パッセージを含むウェブサイトにアクセスすることに応答して、コンピュータによって、少なくとも1つのトピックを含む複数のテキスト・パッセージの選択から、認知モデルを介して、複数のコンテンツ・ソースを識別することを行わせるためのプログラム命令を含んでもよい。コンピュータ・プログラム製品は、コンピュータによって実行可能であり、コンピュータに、コンピュータによって、複数のコンテンツ・ソースのそれぞれのコンテンツ・ソースに存在する少なくとも1つのトピックのそれぞれの頻度に基づいて認知モデルによって識別されるそれぞれの優先レベルに従って、複数のコンテンツ・ソースを順序付けることを行わせるためのコンピュータが実行可能なプログラム命令を含んでもよい。コンテンツにアクセスし、応答する監視されるユーザのアクティビティに基づくトピック選好および頻度を用いて認知モデルを訓練し、次いで、訓練された認知モデルによってコンテンツ・ソースを選択的に識別し、順序付けることの1つの利点は、同時ストリームにおいて並列に再生されるコンテンツ・ソースの選択が、特定のユーザにとっての関心の尤もらしさに従って聴覚的な位置において順序付けられて、特定のユーザが、並列にストリームされた複数のオーディオ選択を通して走査し、ユーザにとって関心のある少なくとも1つの可聴な選択を見つけ出す効率を向上することである。
【0019】
加えて、1または複数の実施形態においては、コンピュータ・プログラム製品は、コンピュータに、コンピュータによって、それぞれがテキスト・コンテンツを含む複数のコンテンツ・ソースを識別することであって、複数のコンテンツ・ソースは、ユーザにとっての関心により順序付けされる、識別することを行わせるプログラム命令を含み、これは、コンピュータによって実行可能であり、コンピュータに、コンテンツ・アグリゲータから利用可能な複数のテキスト・パッセージを含むインタフェースを識別する、格納されたプログラム命令を対象としてもよい。加えて、1または複数の実施形態においては、コンピュータ・プログラム製品は、コンピュータによって実行可能であり、コンピュータによって、インタフェースにおけるテキスト・パッセージ間の境界を識別するために少なくとも1つのグラフィカル特性を指定する出力インタフェース設定に基づいて、コンテンツ・アグリゲータからの複数のテキスト・パッセージを複数のコンテンツ・ソースの別個のコンテンツ・ソースに分割するためのプログラム命令を含む。コンテンツ・アグリゲータから利用可能な複数のテキスト・パッセージを識別し、インタフェースにおけるテキスト・パッセージ間の境界を識別するために少なくとも1つのグラフィカル特性を指定する出力インタフェース設定に基づいて複数のテキスト・パッセージをコンテンツ・ソースに分割することの1つの利点は、コンテンツ・ソースが任意の特定のコンテンツ・アグリゲータ・インタフェースから独立に識別され、同時ストリームが、複数の種類のコンテンツ・アグリゲータからのコンテンツ・ソースについて、かつ、コンテンツ・アグリゲータが、音声に変換するために、インタフェースにおけるテキスト・パッセージを出力するか否かとは独立して生成されるようにすることである。
【0020】
加えて、1または複数の実施形態においては、コンピュータ・プログラム製品は、コンピュータによって実行可能であり、コンピュータによって、各オーディオ選択に対し1または複数の音声属性を適用して、関心により順序付けされた最も高いランクを有する特定のコンテンツ・ソースから変換された特定のオーディオ選択に対する多次元音響空間内のユーザの前方の主要位置における複数の位置のうちの特定の位置に対するオーディオ属性を指定する、格納されたプログラム命令を含んでもよい。
1または複数の音声属性を適用して、多次元音響空間内のユーザの前方の主要位置において、関心により順序付けされた最も高いランクを有する特定のオーディオ選択に対するオーディオ属性を指定することの1つの利点は、ユーザに、ユーザにとって最も関心がある可能性のあるオーディオ選択が、ユーザの前方の位置に予測可能に位置づけられながら、異なる位置における複数のオーディオ選択とともにオーディオ出力が提供されて、並列に再生されるオーディオ選択のそれぞれを走査して焦点を当てる順序をユーザが決定する際の効率を向上することである。
【0021】
本発明の1または複数の実施形態の特徴と考えられる新規な特徴は、添付の特許請求の範囲に明記される。本発明の1または複数の実施形態自身は、しかしながら、添付の図面と関連して読み取られる場合に、例示的な実施形態の以下の詳細な説明を参照することによって、最もよく理解されるであろう。
【図面の簡単な説明】
【0022】
図1図1は、テキストから音声に変換されて並列に再生される複数のコンテンツ・ソースの中から、主要位置に、コンテンツ・アグリゲータによって提供される複数のコンテンツ・ソースの中から特定のコンテンツ・ソースの音声再生にテキストから変換されたオーディオ選択を配置するために、ユーザ姿勢情報によって案内される同時音声再生コントローラを実装するリスニング・サービスの一例のブロック図を示す。
図2図2は、テキストから音声に変換され、並列に再生される複数のコンテンツ・ソースの中から、主要位置に配置されるオーディオ選択に注意を向けて聴くことができるように、ジャイロスコープからのユーザ姿勢情報によって案内される、同時音声再生コントローラを実装するコンピューティング・デバイスの一例のブロック図を示す。
図3図3は、同時音声再生コントローラのコンポーネントの一例のブロック図を示す。
図4図4は、テキストから音声化に変換され、並列に再生される複数のコンテンツ・ソースの中から、主要位置に配置されたオーディオ選択に注意を向けて聴くことができるように、視覚モニタにより検出されるユーザ姿勢情報によって案内される同時音声再生コントローラを実装するコンピューティング・デバイスの一例のブロック図を示す。
図5図5は、3D音響空間内で出力される特定のオーディオ選択の選択を示すユーザ姿勢情報を検出することに応答して、複数のテキスト・コンテンツ・ソースから変換されたオーディオ選択の同時ストリームにおけるオーディオ選択の位置に対する調整の一例のブロック図を示す。
図6図6は、音声に変換され並列に再生されるテキスト・ソース・コンテンツの同時ストリームを管理するためのリスニング・サービスによってコンテンツ・アグリゲータのインタフェースから識別されるインタフェース・コンテンツ選択のブロック図の一例を示す。
図7図7は、本発明の一実施形態を実施し得るコンピュータ・システムの一例を示す図である。
図8図8は、リスニング・サービスによる適用のためのユーザのトピック選好を追跡して、テキストから音声への変換および同時ストリームにおける並列再生についてコンテンツ・ソースを決定し優先順位付けするためのプロセスおよびコンピュータ・プログラムの高レベル論理フローチャートを示す。
図9図9は、ユーザ姿勢情報によって案内される同時音声再生コントローラを実装するリスニング・サービスを管理するためのプロセスおよびコンピュータ・プログラムの高レベル論理フローチャートを示す。
図10図10は、テキストから音声に変換されて並列に再生される複数のコンテンツ・ソースの中から、主要位置に、コンテンツ・アグリゲータによって提供される複数のコンテンツ・ソースの中からの特定のコンテンツ・ソースのテキストから音声再生に変換されたオーディオ選択を配置するためにユーザ姿勢情報によって案内される同時音声再生コントローラを管理するためのプロセスおよびプログラムの高レベル論理フローチャートの一例を示す。
図11図11は、ユーザ姿勢情報によって案内される同時音声再生コントローラによる適用のために属性選好設定、ユーザ姿勢運動および姿勢ベース調整設定に対するユーザ選好を設定するためのプロセスおよびプログラムの高レベル論理フローチャートの一例を示す。
【発明を実施するための形態】
【0023】
以下の説明では、説明のために、本発明の完全な理解を提供するために、多数の具体的な詳細が明記される。しかしながら、本発明が、これらの特定の詳細なしに実施され得ることは当業者にとって明らかであろう。他の実例では、本発明を不必要に不明りょうにすることを避けるために、周知の構造および装置がブロック図の形式で示される。
【0024】
加えて、以下の説明では、説明の便宜上、多数のシステムが説明される。本発明は、任意の数の異なる種類のオペレーティング・システムを動作させるコンピュータ・システムおよび電子デバイスを含む種々のコンピュータ・システムにおいて、実行されえもよいことに留意されたく、また当業者には明らかであろう。
【0025】
図1は、テキストから音声に変換されて並列に再生される複数のコンテンツ・ソースの中から、主要位置に、コンテンツ・アグリゲータによって提供される複数のコンテンツ・ソースの中から特定のコンテンツ・ソースの音声再生にテキストから変換されたオーディオ選択を配置するために、ユーザ姿勢情報によって案内される同時音声再生コントローラを実装するリスニング・サービスの一例のブロック図を示す。
【0026】
一例では、リスニング・サービス110は、コンテンツ・アグリゲータ(content aggregator)114から利用可能な1または複数のコンテンツ・ソース(content source)のオーディオ出力ストリームを制御するためのサービスを提供する。一例では、コンテンツ・アグリゲータ114は、ニュース・ウェブサイト上またはニュース・フィードにおいて公開された複数の記事、ソーシャル・メディア・ウェブサイト上で公開された複数のソーシャル・メディア・エントリ、検索結果ウェブサイトに集約された複数の検索結果、電子メール内の複数のエントリ、テキストチェーン内の複数のエントリ、および、その他アプリケーションやウェブサイトまたは他のサービスからユーザがアクセス可能な独立のコンテンツ項目として識別され得る他のコンテンツの集約などの複数のコンテンツ・ソースを表すテキスト・コンテンツを含む。一例では、コンテンツ・アグリゲータ114は、テキスト・コンテンツを含む。別の例では、コンテンツ・アグリゲータ114は、テキスト・コンテンツに加えて、グラフィカルおよびオーディオ・コンテンツを含む。
【0027】
一例では、図1の実施形態は、リスニング・サービス110の利点を提供し、この利点は、出力コンテンツが音声出力ストリームの形式で出力されることをコンテンツ・アグリゲータ114が意図しているか否かに関わらず、コンテンツ・アグリゲータ114から利用可能な1または複数のコンテンツ・ソースのオーディオ出力ストリームを制御するために有用である。有利なことに、リスニング・サービス110は、コンテンツ・アグリゲータ114によって提供されるウェブページまたは他のインタフェースを評価し、ウェブページまたは他のインタフェース内の個々のテキスト・コンテンツ項目間の1または複数の種類の描写の存在を評価し、描写されたテキスト・コンテンツ項目(textual content item)からコンテンツ・ソースを識別するための同時音声再生コントローラ112を含む。
【0028】
一例では、図1の実施形態は、同時音声再生コントローラ112が、また、コンテンツ・アグリゲータ114からの利用可能な複数のコンテンツ・ソースから生成された複数のオーディオ選択(audio selection)の同時ストリーム116の出力を管理して、ユーザが複数のコンテンツ・ソースのコンテンツを並列に効率的にレビューすることを容易にする利点を提供する。有利なことに、同時音声再生コントローラ112は、それぞれがコンテンツ・アグリゲータ114から利用可能な異なるコンテンツ・ソースから可聴音声に変換されたオーディオ選択132、オーディオ選択134およびオーディオ選択136の各々のオーディオ・トラックを同時に含む同時ストリーム116を出力する。追加的なまたは代替の実施形態においては、同時ストリーム116は、追加または代替のオーディオ選択を含む。
【0029】
この例では、同時音声再生コントローラ112は、同時ストリーム116で出力する前に、コンテンツ・アグリゲータ114からの、テキストベースのコンテンツ・ソースを、可聴な選択として出力されるべき音声に変換する。同時音声再生コントローラ112は、テキストベースの項目を音声に変換するための1または複数の選択可能な変換設定を用いる、1または複数のタイプのテキスト音声化コンバータ(text to speech convertor)を実装してもよい。
【0030】
加えて、図1の実施形態は、同時音声再生コントローラ112が、同時ストリーム116の出力を、複数のオーディオ選択の各々に対する三次元(3D)位置オーディオ調整を用いてステレオ音声として管理して、各オーディオ選択が3D音響空間130の異なる領域に配置される効果を創出し、ユーザが効果的に複数のコンテンツ・ソースのコンテンツを並列に聴覚的に区別する(audibly distinguish)ことを容易にする利点を提供する。この例では、3D音響空間130は、ユーザによって装着されたステレオ・ヘッドフォンまたはユーザが居る領域内でブロードキャストするステレオ・スピーカなどのステレオ出力デバイスによる出力として同時ストリーム116を聞いているユーザによって検出可能な、音の認識される位置の可聴出力を表す。一例では、ステレオ出力デバイスは、異なる個々のスピーカ・ユニットから異なる音声を同時に再生して、ユーザ周囲の3D音響空間内の異なる場所に配置されているように認識可能なオーディオ・サラウンド音響効果をサポートするオーディオ出力デバイスを表す。別の実施形態においては、同時ストリーム116は、一次元空間または二次元空間を含むがこれらに限定されない、他の次元のオーディオ出力をサポートする、オーディオ出力デバイスによって出力される。
【0031】
例えば、同時音声再生コントローラ112は、ユーザの左に認識されるべきオーディオ選択132に対する3D位置オーディオ調整、ユーザの中心に認識されるべきオーディオ選択134に対する3D位置オーディオ調整およびユーザの右に認識されるべきオーディオ選択136に対する3D位置オーディオ調整を伴って同時ストリーム116の出力を管理してもよい。追加または代替の例においては、3D位置オーディオ調整は、3D音響空間130においてユーザの上、ユーザの下またはユーザによって認識可能な3D領域内の他の認識可能な位置内の位置にオーディオ選択を配置してもよい。
【0032】
一例では、図1の実施形態は、同時音声再生コントローラ112が、オーディオ選択132、オーディオ選択134およびオーディオ選択136として同時に出力されるコンテンツ・ソースの特性を区別するための追加の音声属性チューニングを管理する利点を提供する。例えば、同時音声再生コントローラ112は、オーディオ選択132、オーディオ選択134およびオーディオ選択136として出力されるコンテンツ・ソースを区別するために、速度、吹替(dub)、トーンおよび音量などの特性を区別する音声属性を調整する。
【0033】
有利なことに、同時音声再生コントローラ112は、異なる特性でかつ異なる位置から話される複数の声を含むオーディオで提示される場合に、ユーザフォーカスの聴覚的注意およびカクテルパーティ効果とも呼ばれる脳内の選択的聴取(selective hearing)の効果として、ユーザにより効果的かつ効率的にナビゲート可能である3D音響空間130内の複数の声を用いて同時にストリーミングされたオーディオ選択を生成する。一例では、ユーザのその聴覚的注意に焦点を当て、かつ選択的聴取をとる能力に基づいて、人は、ユーザが騒がしい部屋で1つの会話に集中できる場合のように、スピーカの群衆を聞こえなくし、あるいは、他のさまざまな刺激を除外したりしながら単一のスピーカまたは刺激に注意を向けて聴く(tune into)ことができる。人の選択的聴取をとる能力に基づいて、人は、異なるスピーカを異なるストリームに分離し、いずれのストリームがユーザに最も関連しているかを決定する能力を有し、これにより、人が1つの声に注意を向けて聴き、または他の声を聞こえなくすることを可能とする。人の脳は、異なる聴覚的刺激を異なるストリームに分離する能力を有する可能性があり、また、いずれのストリームが最も関連するかを決定する能力を有する可能性がある。同時音声再生コントローラ112が3D音響空間130内で異なるオーディオ選択の位置および特性を調整する利点は、同時ストリーム116の出力が、異なる声の種別、音量、発話の速度、異なる位置から発話することでスピーカの群衆をシミュレートして、ユーザが、並列にすべての声を聴き、次いで、選択的聴取を通して、他の声を聞こえなくしながら増強された認知的な集中のために特定の声に焦点を合わせることをサポートすることである。
【0034】
ユーザが選択的聴取をとって同時ストリーム116内の特定のオーディオ選択に注意を向けて聴くことを容易にするために調整された各オーディオ選択の特性および位置で同時ストリーム116を出力することに加えて、有利なことに、同時音声再生コントローラ112は、3D音響空間130内のオーディオ選択に関連したユーザの姿勢に応答して、各オーディオ選択の特性および位置を動的に調整する。例えば、同時音声再生コントローラ112は、ユーザ姿勢情報120の入力を受信し、ユーザ姿勢情報120に関連して3D音響空間130内のオーディオ選択のポジショニングを分析し、ユーザ姿勢が向けられる特定のオーディオ選択を決定し、同時ストリーム116内の各オーディオ選択の特性および位置を調整して、特定のオーディオ選択を主要ソースとして主要位置(primary position)に制御する。一例では、ユーザ姿勢情報120は、ユーザによって装着されたステレオ・ヘッドフォン・セット内のジャイロスコープまたは他のタイプのモーション・センサによって検出される頭部の動きを表す。有利なことに、同時音声再生コントローラ112は、オーディオ選択のユーザ選択を示すための動きの方向を示すユーザ姿勢情報120を受信するが、3D音響空間130内の主要位置に配置するための特定のオーディオ選択を直接選択するための特定の厳密な動きを必要としない。
【0035】
一実施形態においては、リスニング・サービス110は、3D音響空間130内の特定のオーディオ選択に向けたユーザ姿勢情報120において識別されるユーザの頭部の動きの方向を、同時音声再生コントローラ112が3D音響空間130内の主要位置にいずれのオーディオ選択が配置されるかを選択する契機となる入力として、評価する。別の実施形態においては、リスニング・サービス110は、ユーザ姿勢情報120において示されるユーザによる他のジェスチャまたは姿勢変化を、リスニング・サービス110に異なるコンテンツ・アグリゲータに切り替えさせるための入力として評価してもよく、ここで、リスニング・サービス110は、複数のコンテンツ・アグリゲータからの同時ストリームの再生を管理してもよい。
【0036】
リスニング・サービス110が、コンテンツ・アグリゲータ114から識別される複数のコンテンツ・ソースのテキストから音声への変換をサポートする利点は、ユーザが、複数のテキスト・パッセージ(text passage)から変換された音声の複数の声のオーディオを並列に受信することであり、これにより、コンテンツ・アグリゲータ114によって提供される複数のコンテンツ・ソースの効率的なオーディオベースのブラウジングが提供される。リスニング・サービス110が、ユーザ姿勢情報120に応答して、3D音響空間130内の主要位置においてより大きな音量で再生するために特定のオーディオ選択の調整を管理する利点は、ユーザにとって関心のあるコンテンツの方向にユーザがその頭部を向ける、ユーザにより要求される最小の努力に応答して、ユーザの選択的聴取処理がサポートされることであり、これにより、ユーザがハンズフリー環境で選択的な視聴を制御することが可能となる。
【0037】
図2は、テキストから音声に変換され、並列に再生される複数のコンテンツ・ソースの中から、主要位置に配置されるオーディオ選択に注意を向けて聴くことができるように、ジャイロスコープからのユーザ姿勢情報によって案内される同時音声再生コントローラを実装する、コンピューティング・デバイスの一例のブロック図を示す。
【0038】
一例では、コンピューティング・デバイス200は、コンテンツ・アグリゲータ114からのコンテンツ・ソースが、コンテンツ項目A212、コンテンツ項目B214、コンテンツ項目C216およびコンテンツ項目D218などの選択可能なコンテンツ項目として表示されるディスプレイ・インタフェース210を含む。一実施形態では、コンテンツ項目A212、コンテンツ項目B214、コンテンツ項目C216およびコンテンツ項目D218の各々は、同時音声再生コントローラ112によってコンテンツ・ソースとして識別可能な独立したコンテンツ項目を表す。一例では、コンテンツ項目A212、コンテンツ項目B214、コンテンツ項目C216およびコンテンツ項目D218の各々は、テキスト・コンテンツを全部視覚的に読むためにユーザによって個別に選択可能な、ディスプレイ・インタフェース210に集約されたテキスト・コンテンツとして表示される。あるいは、コンテンツ項目A212、コンテンツ項目B214、コンテンツ項目C216およびコンテンツ項目D218の各々は、テキスト・コンテンツから変換された音声として聞き取るためにユーザによって個別的に選択可能であってもよい。別の実施形態においては、コンテンツ項目A212、コンテンツ項目B214、コンテンツ項目C216およびコンテンツ項目D218のうちの1つまたは複数は、ディスプレイ・インタフェース210内で選択可能であり、可聴フォーマットで出力するためにテキストから音声への初期の変換を必要としない、オーディオベースのコンテンツ項目を表す。
【0039】
一実施形態においては、ユーザは、ディスプレイ・インタフェース210内で項目を選択することによって、ディスプレイ・インタフェース210内の選択可能なコンテンツ項目のそれぞれを読みまたは再生するために選択してもよい。加えて、一実施形態の利点によれば、ユーザは、ディスプレイ・インタフェース210内のオーディオ再生セレクタ220を選択して、リスニング・サービス110の同時音声再生コントローラ112をトリガすることによって、または、別のタイプの入力を提供して、リスニング・サービス110の同時音声再生コントローラ112をトリガすることによって、ディスプレイ・インタフェース210内の識別可能なコンテンツ項目のそれぞれを同時に再生することを選択してもよい。ユーザが、同時音声再生コントローラ112をトリガすることを選択することによってディスプレイ・インタフェース210内の各識別可能なコンテンツ項目を同時に再生するように選択する利点は、ユーザがディスプレイ・インタフェース210内の各コンテンツ項目に視覚的に目を通すことと同様の効率で、ユーザが、各コンテンツ項目を並列に聴覚的にレビューし、特定のコンテンツ項目にさらに注意を向けて聴くように選択することを可能とすることである。
【0040】
一例では、コンピューティング・デバイス200は、入力/出力(I/O)インタフェース222を介して、3Dオーディオ・ストリームの出力をサポートする、ユーザがアクセス可能なステレオ音声出力デバイスへのオーディオ・ストリームの出力を制御する。図2に示す一実施形態においては、コンピューティング・デバイス200は、I/Oインタフェース222を介して、ユーザのユーザ頭部244に装着されたステレオ・ヘッドフォン240へのオーディオ・ストリームの出力を制御する。一例では、I/Oインタフェース222は、I/Oインタフェース222およびステレオ・ヘッドフォン240の間の有線接続を通して、または、I/Oインタフェース222およびステレオ・ヘッドフォン240間の無線接続を通して、オーディオ・ストリームを出力してもよい。
【0041】
一例では、同時音声再生コントローラ112は、初期に、コンテンツ項目A212が「位置#1」にオーディオ選択232として出力され、コンテンツ項目B214が「位置#2」にオーディオ選択234として出力され、コンテンツ項目C216が「位置#3」にオーディオ選択236として出力され、コンテンツ項目D218が「位置#4」にオーディオ選択238として出力されて、同時ストリームを3D音響空間230に出力する。この例では、「位置#3」が、ユーザの前方の主要位置であり、「位置#1」および「位置#2」が、中心位置の左であり、「位置#4」が中心位置の右にあると考えられる。有利なことに、同時音声再生コントローラ112は、ユーザにとっての関心のランク付けされた順序に基づいて、オーディオ選択としての出力に変換された場合の各コンテンツ・ソースの位置を選択し、ユーザにとって最も関心の高い可能性があるオーディオ選択をユーザの前方の主要位置に配置し、ユーザが、最も関心の高い可能性があるオーディオ選択をユーザの前方の可聴位置に配置しながら、選択的聴取を適用してすべてのオーディオ選択を並列に効率的に聴くことをサポートする。一例では、ディスプレイ・インタフェース210内のコンテンツ項目の順序付けは、同時音声再生コントローラ112によって決定され、コンテンツ項目C216が、最もランクの高いコンテンツ・ソースとして決定されて、初期に位置#3、主要位置に配置される、コンテンツ項目の位置の選択に適用されるユーザにとっての関心で順序付けされたランク付けとは異なる。あるいは、ディスプレイ・インタフェース210内のコンテンツ項目の順序付けは、ユーザにとっての関心により順序付けされたランク付けを反映してもよい。
【0042】
一実施形態においては、I/Oインタフェース222は、ユーザの姿勢変化を検出して、ユーザの姿勢変化をユーザ姿勢情報120としてブロードキャストまたは送信するステレオ・ヘッドフォン240または他の出力デバイスからの出力を検出するためのインタフェースをサポートする。一実施形態においては、ステレオ・ヘッドフォン240は、回転する動きを測定することによってユーザの頭部244の動きの変化を検出し、動きの変化をユーザ姿勢情報120として報告するジャイロスコープ246を組み込む。他の実施形態においては、ユーザにより装着された、または装着されていない他のセンサが、ユーザ頭部244の動きまたはユーザによる他のジェスチャの動きの変化を監視し、動きの変化をユーザ姿勢情報120として報告してもよい。一実施形態においては、ステレオ・ヘッドフォン240は、ユーザの頭部の位置に相対して3D音響空間230内のオーディオをポジショニングするために選択される実際の位置を動的に調整するために、ユーザの頭部の姿勢の変化を検出するためのジャイロスコープ246を組み込み、また、同時音声再生コントローラ112は、検出された動きの変化をユーザ姿勢情報120として受信する。
【0043】
一例では、ジャイロスコープ246は、参照符番242での回転運動の方向で示されるように、左に向けられるユーザの頭部244の回転運動を検出する。一例では、ジャイロスコープ246は、例えば、3軸を含むがこれに限定されない1または複数の軸の周りの回転を監視することによって、1秒当たりの角度または1秒当たりの回転数の単位で角速度を測定する1または複数のセンサを含む。一例では、ジャイロスコープ246内の各センサは、角速度の変化としてシフトする共振質量を有し、共振質量の移動は、1秒当たりの角度または1秒当たりの回転数の変化を示す電気信号に変換される。
【0044】
この例では、I/Oインタフェース222がジャイロスコープ246からの出力をユーザ姿勢情報120として検出することに応答して、同時音声再生コントローラ112は、3D音響空間230内のオーディオ選択の位置に相対するユーザ姿勢情報120を評価して、ユーザ入力に基づいて3D音響空間230内のオーディオ選択の位置をどのように調整するかを決定する。一例では、「位置#3」におけるオーディオ選択236が、ユーザによって3D音響空間230内の主要位置、中心位置において認識され、同時音声再生コントローラ112は、オーディオ選択234のユーザ選択を示すようなユーザの頭部の左への動きを分析する。オーディオ選択234のユーザ選択を分析することに応答して、同時音声再生コントローラ112は、各オーディオ選択のオーディオ属性を調整して、オーディオ選択234を3D音響空間内の中心位置に効果的に再配置し、オーディオ選択236を3D音響空間230内の代替位置に移動させる。有利なことに、同時音声再生コントローラ112は、特定のオーディオ選択への選好を示すユーザ姿勢情報120に基づいて、オーディオ選択として出力に変換される場合の各コンテンツ・ソースの位置を調整し、ユーザ選択されたオーディオ選択をユーザの前方の主要位置に配置し、ユーザが他のオーディオ選択を聴くように注意が向けられるように、すべての他のオーディオ選択がバックグラウンドで再生される続ける一方で、ユーザが、選択的聴取を適用して特定のオーディオ選択を効率的に聴くことをサポートする。
【0045】
図3は、同時音声再生コントローラのコンポーネントの一例のブロック図を示す。
【0046】
この例では、同時音声再生コントローラ112は、コンテンツ・モニタ350を含む。コンテンツ・モニタ350は、1または複数のオンラインソースから、ユーザによってアクセスされるコンテンツを監視し、コンテンツ履歴ログ352にコンテンツ・アクセスの記録を格納する。ユーザによってアクセスされるコンテンツを監視する際に、コンテンツ・モニタ350は、また、同時ストリーム116内の複数のオーディオ選択の中から特定のオーディオ選択を聴くためのユーザ選択など、ユーザが1または複数のタイプの入力を介していずれのコンテンツ・アクセスが選好を示すかを分析してもよく、コンテンツ選択のユーザの指示を介したユーザの選好の指示を用いてコンテンツ履歴ログ352を更新またはフィルタリングしてもよい。
【0047】
この例では、同時音声再生コントローラ112は、トピック・セレクタ360を含む。トピック・セレクタ360は、コンテンツ履歴ログ352を分析して、ユーザにとって関心のあるトピックのタイプおよび各タイプの頻度を決定する。トピック・セレクタ360は、関心のトピックの優先度の指示を提供する、関心のトピックおよび頻度を含むトピック選好362を生成する。一例においては、トピック・セレクタ360は、コンテンツ履歴ログ352から大量のコンテンツを受信して、ユーザのトピック選好362を学習する認知モデルを訓練し、また周期的に更新する認知分析関数を適用して、次いで、新しいコンテンツを分析して、新しいコンテンツ選択がユーザについてのトピック選好362にマッチするか否かを迅速に決定する。
【0048】
一実施形態においては、ユーザが1または複数のインタフェースを介してリスニング・サービス110にアクセスすることを選択する場合、トピック・インタフェース・コントローラ370は、初期に、トピック・インタフェース・コントローラ370による出力のために、コンテンツ・アグリゲータ114からの利用可能なテキスト・コンテンツを要求し、またはアクセスし、また、フィルタリングしてもよい。例えば、トピック・インタフェース・コントローラ370は、同時ストリーム116において出力するためのインタフェース・コンテンツ選択374を決定するために、トピック選好362に基づいて、コンテンツ・アグリゲータ114から現在のコンテンツを要求してもよい。トピック・インタフェース・コントローラ370は、トピック・セレクタ360の認知モデルを介して、コンテンツ・アグリゲータ114から受信したコンテンツをさらにフィルタリングして、コンテンツ・アグリゲータ114から受信したコンテンツ・ソースの選択のみをインタフェース・コンテンツ選択374として選択し、また、トピック選好362において利用可能な頻度および他の優先度情報に基づくユーザが関心を有する確率にしたがってコンテンツ・ソースを順序付けてもよい。
【0049】
別の実施形態においては、出力インタフェース設定372は、ニュース・ウェブサイトのレイアウトに基づいて、見出しのグラフィカル要素またはテキスト・パッセージの境界の開始を示すヘッダコードを用いて、ニュース・ウェブサイトを複数のコンテンツ・ソースに分割することによってなど、テキスト・パッセージの境界を識別する1または複数のグラフィカル特性に基づいて、コンテンツ・アグリゲータ114のホームページをコンテンツ・ソースに分割するよう、トピック・インタフェース・コントローラ370に指示する。トピック・インタフェース・コントローラ370は、次いで、トピック選好362を適用して、各コンテンツ・ソース内に存在するトピックへの特定のユーザの関心にしたがって各コンテンツ・ソースを並び替えし、また、順序付けすることによって各コンテンツ・ソースを分析する。
【0050】
この例では、同時音声再生コントローラ112は、テキストを音声に変換するためのテキスト音声化コンバータ310を含む。この例では、トピック・インタフェース・コントローラ370は、インタフェース・コンテンツ選択374内の複数のコンテンツ・ソースを選択し、テキスト音声化コンバータ310は、各テキスト・コンテンツ・ソースを、それぞれ音声変換のオーディオ属性を調整するための1または複数の選択可能な特徴によって指定される音声に変換し、同時ストリーミングに対し異なるコンテンツ・ソースを区別して、ユーザが、複数の異なるスピーカを並列に聞き取り、他のスピーカがバックグラウンドで再生し続ける間にユーザがスピーカのうちの1つに選択的に注意を向けて聴くことをサポートする環境をシミュレートする。一実施形態においては、音声変換のオーディオ属性を調整するための複数の選択可能な特徴は、声位置(voice position)、および、限定されないが、声種別(voice type)、声量(voice volume)および声速(voice speed)などの1または複数の特徴を含む。
【0051】
この例では、声種別セレクタ312は、テキスト音声化コンバータ310による適用のための声種別を選択し、インタフェース・コンテンツ選択374からのコンテンツ・ソースの音声変換の特性を指定する。声種別は、1または複数の言語における1または複数の吹替(dub)声種別を含み得る。
【0052】
この例では、声量セレクタ314は、テキスト音声化コンバータ310による適用のための声量を選択して、インタフェース・コンテンツ選択374からのコンテンツ・ソースの音声変換の特性を指定する。声量は、限定されないが、ピッチ、持続時間、声色および大きさを含む、1または複数の種類のボリューム特性を含み得る。
【0053】
この例では、声速セレクタ316は、テキスト音声化コンバータ310による適用のための音声の速度(speed of speech)を選択して、インタフェース・コンテンツ選択374からのコンテンツ・ソースの音声変換の特性を指定する。声速は、テキストから変換された音声における1分間当たりの単語の速度を減速または増速の1または複数の増分を含み得る。
【0054】
この例では、音声源位置セレクタ318は、テキスト音声化コンバータ310による適用のための空間位置を選択して、インタフェース・コンテンツ選択374からのコンテンツ・ソースの音声変換の特性を指定する。空間位置は、ユーザからの特定の認識距離における複数の平面内の源の配置を含む、3D音響空間130内の音の認知的な配置を表し得る。
【0055】
一例では、オーディオ・ストリーム・ミキサ330は、初期に、属性選好設定320を適用して、インタフェース・コンテンツ選択374からコンテンツ・ソースの声属性を混合し、同時ストリーム116のような、変換されたコンテンツ選択の各々からの音声を同時に再生するオーディオ・ストリーム332を出力する。この例では、属性選好設定320は、声種別セレクタ312、声量セレクタ314、声速セレクタ316および音声源位置セレクタ318を指定する1または複数の選好を特定する。
【0056】
この例では、属性選好設定320は、トピック主題、トピック・テーマ、トピック優先度、および、同時にストリーミングされた場合に異なるコンテンツ・ソースから変換された音声間でユーザが区別することを容易にする他の特徴に基づき、選好を指定し得る。例えば、ユーザは、トピックにより異なる声種別、トピックにおける関心の重み付けおよびコンテンツ・アグリゲータのウェブサイト上でのコンテンツの位置またはフォントサイズにより異なる声量、トピックのテーマにより異なる音声速度、主要位置に配置された最も関心の高いコンテンツに対する関心の重み付けにより異なる音声源位置を用いて、属性選好設定320を指定してもよい。
【0057】
この例では、ユーザ姿勢インタプリタ340は、ユーザの動きを示すユーザ姿勢情報120を検出し、オーディオ・ストリーム332において出力されたオーディオ選択の音声源位置設定の位置に相対するユーザの動きに基づいて、ユーザによりなされた選択を決定する。オーディオ・ストリーム・ミキサ330は、声種別セレクタ312、声量セレクタ314、声速セレクタ316および音声源位置セレクタ318によって適用される1または複数の属性を調整するために、また、オーディオ・ストリーム332において出力されるオーディオ選択の音声源位置設定の位置に相対するユーザの動きに基づいて、ユーザによるオーディオ選択の選択を反映するために、姿勢ベース調整設定342を適用する。一例では、姿勢ベース調整設定342は、ユーザがオーディオ選択に向かって中心の右または左へ動きを行うことに応答して、オーディオ・ストリーム・ミキサ330は、音声源位置セレクタ318によって適用される位置を、音声へコンテンツ変換の各々にシフトし、ユーザにより合図されたオーディオ選択を3D音響空間230内の中心に再配置することを指定する。加えて、姿勢ベース調整設定342は、3D音響空間230の中心位置に配置されるオーディオ選択に選択的にさらに焦点付けるユーザの能力をサポートするやり方で、選択されたオーディオ選択を目立たせるためのオーディオ・ストリーム332に混合されたオーディオにおけるオーディオ選択の声種別、声量および声速を調整するための設定を含んでもよい。さらに、姿勢ベース調整設定342は、すべてのオーディオ選択が並列にオーディオ・ストリーム332内で再生し続けながら、時間と共に中心に配置されたオーディオ選択の音量を増加し、かつ、時間と共に他の配置されたオーディオ選択の音量を減少させることによってなど、時間と共に中心に配置されたオーディオ選択への焦点付けを増加するためのオーディオ・ストリーム332に混合されたオーディオの声種別、声量および声速を調整するための設定を含んでもよい。
【0058】
一例では、属性設定コントローラ322は、属性選好設定320、姿勢ベース調整設定342および出力インタフェース設定372の各々において、ユーザが1または複数の選好を選択するためのユーザ・インタフェースを管理する。一例では、ユーザが選好を設定することに加えて、属性設定コントローラ322は、属性選好設定320、姿勢ベース調整設定342および出力インタフェース設定372の適用がユーザにより期待される出力をもたらすか否かを示すようにユーザを促してもよいし、あるいは、属性選好設定320、姿勢ベース調整設定342および出力インタフェース設定372の適用がユーザにより期待される出力をもたらすか否かを示すユーザ入力を監視してもよい。一実施形態においては、属性設定コントローラ322は、ユーザ応答を評価し、機械学習を適用して、属性選好設定320、姿勢ベース調整設定342および出力インタフェース設定372のうちの1または複数を管理するモデルを訓練してもよい。有利なことに、ユーザに対する設定選好を指定するためのインタフェースをサポートすることによって、また、ユーザ応答に基づいて選好を訓練し続けることによって、属性設定コントローラ322は、選択的聴取をとる特定のユーザ選好を効率的にサポートするやり方で、複数の声により空間が満たされるやり方で、3D音響空間130内での複数のコンテンツ・ソースの並列出力を仕立てるために同時ストリームにおける出力されたオーディオ選択の位置およびオーディオ属性の特性に対する調整をサポートする。
【0059】
図4は、テキストから音声化に変換され、並列に再生される複数のコンテンツ・ソースの中から、主要位置に配置されたオーディオ選択に注意を向けて聴くことができるように、視覚モニタにより検出されるユーザ姿勢情報によって案内される同時音声再生コントローラを実装するコンピューティング・デバイスの一例のブロック図を示す。
【0060】
一例では、リスニング・サービス110は、コンピューティング・デバイス400上で稼働し、オーディオ選択432、オーディオ選択434、オーディオ選択436およびオーディオ選択438などオーディオ選択にテキストから変換された複数のコンテンツ選択を同時にストリーム化するオーディオ・ストリームを生成する。この例では、I/Oインタフェース422は、リスニング・サービス110によって生成される同時ストリーム416をステレオ・スピーカ・システム410に出力する。ステレオ・スピーカ・システム410は、空間内に存在するユーザによって聴覚的に検出可能である3D音響空間430内の同時ストリーム416におけるオーディオ・トラックを出力するように制御された複数のスピーカ・ユニットを含む。
【0061】
一実施形態においては、ユーザがステレオ・スピーカ・システム410を介して同時ストリーム416を聴く場合、視覚モニタ412は、ユーザの頭部444の動きを検出する。この例において、視覚モニタ412は、符番442で描かれるようにユーザの頭部444を左に回転するユーザの動きなど、ユーザの頭部444の動きまたは選択を示す動きである他の姿勢情報を検出するためにユーザの頭部444の近傍に配置される。例えば、視覚モニタ412は、記録領域内の特定の種類の動きを検出するための1または複数の種類のカメラまたはモーション検出器を表す。この例では、視覚モニタ412は、ステレオ・スピーカ・システム410のコンポーネントの近傍に配置され、リスニング・サービス110による適用のために、ユーザ姿勢情報414をコンピューティング・デバイス400のI/Oインタフェース422に出力する。代替的に、視覚モニタ412は、ステレオ・スピーカ・システム410のコンポーネントとは独立して配置され、コンピューティング・デバイス400のコンポーネント、リスニング・サービス110による適用のためのユーザ姿勢情報414を出力するためのものであってもよい。
【0062】
図5は、3D音響空間内で出力される特定のオーディオ選択の選択を示すユーザ姿勢情報を検出することに応答して、複数のテキスト・コンテンツ・ソースから変換されたオーディオ選択の同時ストリームにおけるオーディオ選択の位置に対する調整の一例のブロック図を示す。
【0063】
一例では、3D音響空間530は、リスニング・サービス110が、「オーディオ選択#1」、「オーディオ選択#2」、「オーディオ選択#3」および「オーディオ選択#4」を含んでいる同時ストリーム116を出力する音響空間を表す。この例では、符番532で示すように、「オーディオ選択#3」が、初期に、3D音響空間530内の「位置#1」に配置される。符番534に示すように、「オーディオ選択#2」は、初期に、3D音響空間530内の「位置#2」に配置される。符番536に示すように、「オーディオ選択#1」は、初期に、3D音響空間530内の「位置#3」に配置される。符番538に示すように、「オーディオ選択#4」は、初期に、3D音響空間530内の「位置#4」に配置される。オーディオ選択の各々が3D音響空間530内の異なる位置に分散されることに加えて、オーディオ選択の各々は、それぞれのオーディオ選択の1または複数の特性を聴覚的に区別するオーディオ属性で出力されてもよい。
【0064】
この例では、リスニング・サービス110は、符番510に示すように、右に回転されるユーザの頭部の動きを反映したユーザ姿勢情報120を検出する。有利なことに、符番538で「オーディオ選択#4」に向けて右に向けて回転されたユーザの頭部の動きに応答して、リスニング・サービス110は、符番540に示すように、「オーディオ選択#4」の位置を「位置#1」の主要位置に再配置することを選択し、「オーディオ選択#4」をユーザの前方の主要位置にポジショニングすることによってユーザが選択的聴取を適用して「オーディオ選択#4」にさらに注意を向けて聴くことをサポートする。加えて、リスニング・サービス110は、符番542に示すように、「オーディオ選択#1」を「位置#4」の空いている位置に再配置することを選択する。「オーディオ選択#1」および「オーディオ選択#4」を再配置すること加えて、有利なことに、リスニング・サービス110は、オーディオ選択の各々の1または複数の特性のオーディオ属性を調整して、主要位置における「オーディオ選択#4」を、他のオーディオ選択から聴覚的に区別し、「オーディオ選択#4」への聴覚的な焦点付けを増大する特性を増加させ、他のオーディオ選択への聴覚的な焦点付けを増大する特性を減少させることによって、ユーザが選択的聴取を適用して「オーディオ選択#4」にさらに注意を向けて聴くことをサポートする。
【0065】
図6は、音声に変換され並列に再生されるテキスト・ソース・コンテンツの同時ストリームを管理するためのリスニング・サービスによってコンテンツ・アグリゲータのインタフェースから識別されるインタフェース・コンテンツ選択のブロック図の一例を示す。
【0066】
一例では、コンテンツ・アグリゲータ・インタフェース602は、複数の種類のテキスト・コンテンツを含む。トピック・インタフェース・コントローラ370は、テキスト・パッセージ間の境界を識別する少なくとも1つのグラフィカル特性を含む出力インタフェース設定372を適用して、コンテンツ・アグリゲータ・インタフェース602内のテキスト・コンテンツのグラフィカル特性を評価し、テキストから音声への変換および同時ストリームにおける並列再生のためのインタフェース・コンテンツ選択630における1または複数のコンテンツ・ソースを識別する。
【0067】
この例では、コンテンツ・アグリゲータ・インタフェース602は、「テキスト・コンテンツ#1」612、「テキスト・コンテンツ#2」616、「テキスト・コンテンツ#3A」622および「テキスト・コンテンツ#3B」626として例示される、テキスト・コンテンツの4つの別個のパッセージを含む。この例では、トピック・インタフェース・コントローラ370は、コンテンツ・アグリゲータ・インタフェース602内で出力インタフェース設定372によって識別されるグラフィカル特性を評価する。トピック・インタフェース・コントローラ370は、見出し610が「テキスト・コンテンツ#1」612を開始する境界を反映するコード・スタイルを有し、ライン614が「テキスト・コンテンツ#2」616を開始する境界を反映するグラフィカル要素であり、見出し620が「テキスト・コンテンツ#3A」622を開始する境界を反映するコード・スタイルを有し、ad624が「テキスト・コンテンツ#3A」622と「テキスト・コンテンツ#3B」626とをグラフィカルに分離するグラフィカル要素であるが、しかし、異なるテキスト・パッセージ間の境界ではないことを識別する。
【0068】
有利なことに、トピック・インタフェース・コントローラ370が、コンテンツ・アグリゲータ602内のグラフィカル特性を評価してテキスト・パッセージ間の境界を識別することによって、トピック・インタフェース・コントローラ370は、異なるコンテンツ・アグリゲータからのテキスト・パッセージを別個のコンテンツ・ソースに分割することを可能とする。この例では、トピック・インタフェース・コントローラ370は、テキスト・パッセージ間で識別された境界に基づいて、コンテンツ・アグリゲータ・インタフェース602をインタフェース・コンテンツ選択630内の3つのコンテンツ・ソースに分割する。この例では、トピック・インタフェース・コントローラ370は、見出し610および「テキスト・コンテンツ#1」612からの第1のコンテンツ選択632と、見出し620および「テキスト・コンテンツ#2」616からの第2のコンテンツ選択634と、「テキスト・コンテンツ#3A」および「テキスト・コンテンツ#3B」からの第3コンテンツ選択636とを分割する。
【0069】
図7は、本発明の一実施形態が実施され得るコンピュータ・システムの一例のブロック図を示す。本発明は、コンピュータ・システム700を参照して説明される機能コンポーネントなどの機能コンポーネントから構成される種々のシステムおよびシステムの組み合わせにおいて実行されてもよく、ネットワーク702などのネットワークに通信可能に接続されてもよい。
【0070】
コンピュータ・システム700は、コンピュータ・システム700内で情報を通信するためのバス722または他の通信デバイスと、情報を処理するためにバス722に結合された、プロセッサ712などの少なくとも1つのハードウェア処理デバイスとを含む。バス722は、好ましくは、ブリッジおよびアダプタによって接続され、複数のバスコントローラによってコンピュータ・システム700内で制御される低レイテンシおよび高レイテンシのパスを含む。サーバまたはノードとして実装される場合、コンピュータ・システム700は、ネットワークサービス・パワーを改善するように設計された複数のプロセッサを含んでもよい。
【0071】
プロセッサ712は、通常の動作中に、ランダム・アクセス・メモリ(RAM)714などの動的ストレージ・デバイス、リード・オンリー・メモリ(ROM)716などの静的ストレージ・デバイス、マス・ストレージ・デバイス718などのデータ・ストレージ・デバイス、または他のデータ・ストレージ媒体からアクセス可能な、アプリケーション・ソフトウェア、オペレーティング・システム、ミドルウェアおよび他のコードおよびコンピュータ実行可能プログラムの少なくとも1つを含み得るソフトウェア750の制御の下、データを処理する少なくとも1つの汎用プロセッサであってもよい。ソフトウェア750は、限定されないがアダプタ、スイッチ、サーバ、クラスタシステムおよびグリッド環境を含むネットワーク内の1または複数のシステムを制御するためのコード、アプリケーション、プロトコル、インタフェースおよびプロセスを含み得るが、これらに限定されない。
【0072】
コンピュータ・システム700は、サーバ740などのリモート・コンピュータまたはリモート・クライアントと通信してもよい。一例では、サーバ740は、ネットワーク702などの任意のタイプのネットワークを介して、ネットワーク・インタフェース732などの通信インタフェースを介して、または例えばネットワーク702に接続され得るネットワーク・リンクを介して、コンピュータ・システム700に接続されてもよい。
【0073】
この例では、ネットワーク環境内の複数のシステムは、ネットワーク702を介して通信可能に接続されてもよく、ネットワークは、通信可能に接続された種々のデバイスおよびコンピュータ・システム間の通信リンクを提供するために使用される媒体である。ネットワーク702は、例えば、有線または光ファイバケーブルのような永続的な接続と、電話接続および無線伝送接続を介してなされた一時的な接続とを含んでもよく、例えば、ルータ、スイッチ、ゲートウェイおよびネットワーク702を介して接続されるシステム間の通信チャネルを可能にするための他のハードウェアを含んでもよい。ネットワーク702は、パケット交換ベースのネットワーク、電話ベースのネットワーク、放送テレビネットワーク、ローカル・エリアおよび有線エリア・ネットワーク、公衆ネットワークおよび制限されたネットワークのうちの1または複数を表してもよい。
【0074】
ネットワーク702、および、ネットワーク702を介してコンピュータ700に通信可能に接続されたシステムは、物理層、リンク層、ネットワーク層、トランスポート層、プレゼンテーション層およびアプリケーション層のうちの1または複数を含み得る1または複数の種類のネットワーク・プロトコル・スタックの1または複数の層を実装してもよい。例えば、ネットワーク702は、トランスミッション・コントロール・プロトコル・インターネット・プロトコル(TCP/IP)プロトコル・スタックまたはオープン・システム・インターコネクト(OSI)プロトコル・スタックのうちの1または複数を実装してもよい。加えて、例えば、ネットワーク702は、互いに通信するプロトコルのTCP/IPスイートを使用する、ネットワークおよびゲートウェイの世界的なコレクションを表してもよい。ネットワーク702は、セキュアHTTPプロトコル層またはシステム間の通信を安全にするための他のセキュリティ・プロトコルを実装してもよい。
【0075】
この例では、ネットワーク・インタフェース732は、ネットワーク702にリンクを介してコンピュータ・システム700を接続し、ネットワーク702を介してコンピュータ・システム700をサーバ740または他のコンピュータ・システムに通信可能に接続するためのアダプタ734を含む。図示されていないが、ネットワーク・インタフェース732は、デバイス・ドライバなどの追加のソフトウェア、追加のハードウェアおよび通信を可能にする他のコントローラを含んでもよい。サーバとして実装される場合、コンピュータ・システム700は、例えば、入力/出力コントローラに接続される複数のペリフェラル・コンポーネント・インターコネクト(PCI)バス・ブリッジを介してアクセス可能な複数の通信インタフェースを含んでもよい。このようにして、コンピュータ・システム700は、複数の別個のポートを介して複数のクライアントへの接続することを可能にし、各ポートは、また、複数のクライアントへの複数の接続をサポートしてもよい。
【0076】
一実施形態においては、プロセッサ712によって実行される動作は、図8図11のフローチャートおよび本明細書で説明される他の動作を制御してもよい。プロセッサ712によって実行される動作は、ソフトウェア750または他のコードによって要求されてもよく、あるいは、本発明の一実施形態のステップは、ステップを実行するためのハードワイヤードされたロジックを包含する特定のハードウェア・コンポーネント、またはプログラムされたコンピュータ・コンポーネントおよびカスタム化されたハードウェア・コンポーネントの任意の組み合わせによって実行されてもよい。一実施形態においては、コンピュータ・システム700の1または複数のコンポーネント、または、コンピュータ・システム700の1または複数のコンポーネントに統合されてもよい他のコンポーネントは、図8図11のフローチャートの動作を実行するためのハードワイヤードされたロジックを含んでもよい。
【0077】
加えて、コンピュータ・システム700は、入力および出力を促進する複数の周辺コンポーネントを含んでもよい。これらの周辺コンポーネントは、複数のコントローラ、アダプタおよび複数のレベルのバス722のうちの1つに結合された入力/出力(I/O)インタフェース726などの拡張スロットに接続される。例えば、入力デバイス724は、例えば、入力を制御するI/Oインタフェース726を介してバス722上で通信可能に有効化されるマイクロフォン、ビデオ・キャプチャ・デバイス、画像読み取りシステム、キーボード、マウスまたは他の入力周辺デバイスを含んでもよい。加えて、例えば、出力を制御するためのI/Oインタフェース726を介してバス722上で通信可能に有効化される出力デバイス720は、例えば、1または複数のグラフィカル・ディスプレイ・デバイス、オーディオ・スピーカおよび触覚検出可能な出力インタフェースを含んでもよいが、しかしながら、他の出力インタフェースを含んでもよい。本発明の代替の実施形態においては、追加または代替の入力および出力の周辺コンポーネントが追加されてもよい。
【0078】
図7に関して、本発明は、システム、方法もしくはコンピュータ・プログラム製品またはその組み合わせであってもよい。コンピュータ・プログラム製品は、プロセッサに本発明の実施形態の側面を実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読ストレージ媒体(複数の媒体)を含んでもよい。
【0079】
コンピュータ可読ストレージ媒体は、命令実行デバイスによって使用するための命令を保持し格納する有形のデバイスであってよい。コンピュータ可読ストレージ媒体は、例えば、これに限定されるものではないが、電子的ストレージ・デバイス、磁気ストレージ・デバイス、光学ストレージ・デバイス、電磁気ストレージ・デバイス、半導体ストレージ・デバイスまたは上記の任意の適切な組み合わせであってよい。コンピュータ可読ストレージ媒体のより具体的な例示の非網羅的リストとしては、ポータブルなコンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、リード・オンリー・メモリ(ROM)、消去可能プログラマブル・リード・オンリー・メモリ(EPROMまたはフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブルなコンパクト・ディスク・リード・オンリー・メモリ(CD-ROM)、デジタル・バーサタイル・ディスク(DVD)、メモリースティック、フロッピー(登録商標)ディスク、パンチカードまたは記録された命令を有する溝内の隆起構造のような機械的エンコードされたデバイス、および上記の任意の適切な組み合わせが含まれる。コンピュータ可読ストレージ媒体は、本明細書で使用されるように、電波、自由伝搬する電磁波、導波路または他の伝送媒体を伝搬する電磁波(たとえば、ファイバ光ケーブルを通過する光パルス)または、ワイヤを通して伝送される電気信号のような、それ自体が一時的な信号として解釈されるものではない。
【0080】
本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体からそれぞれのコンピュータ/処理デバイスに、または、例えばインターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワークもしくは無線ネットワークまたはこれらの組み合わせといったネットワークを介して外部コンピュータまたは外部ストレージ・デバイスにダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータもしくはエッジサーバまたはこれらの組み合わせを含んでもよい。各コンピュータ/処理デバイスにおけるネットワーク・アダプタ・カードまたはネットワーク・インタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、コンピュータ可読プログラム命令を、それぞれのコンピューティング/処理デバイス内のコンピュータ可読ストレージ媒体に格納するために転送する。
【0081】
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、または、1以上のプログラミング言語の任意の組み合わせで書かれたソース・コードあるいはオブジェクト・コードであってよく、1以上のプログラミング言語は、Smalltalk(登録商標)、C++またはこれらに類するもなどのオブジェクト指向言語、Cプログラミング言語または類似のプログラミング言語などの従来型の手続型言語を含む。コンピュータ可読プログラム命令は、スタンド・アローンのソフトウェア・パッケージとして、全体としてユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、部分的にユーザのコンピュータ上かつ部分的に遠隔のコンピュータ上で、または、完全に遠隔のコンピュータまたはサーバ上で実行されてもよい。後者のシナリオでは、遠隔のコンピュータは、ユーザのコンピュータに、ローカル・エリア・ネットワーク(LAN)またはワイド・エリア・ネットワーク(WAN)を含む任意のタイプのネットワークを通じて接続されてもよく、あるいは接続は、(例えば、インターネット・サービス・プロバイダを用いてインターネットを通じて)外部コンピュータになされてもよい。いくつかの実施形態においては、電気的回路は、本発明の側面を実行するために、コンピュータ可読プログラム命令の状態情報を利用して、電気的回路を個別化することによって、コンピュータ可読プログラム命令を実行してもよく、この電気的回路は、例えば、プログラマブル・ロジック回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、またはプログラマブル・ロジック・アレイ(PLA)を含む。
【0082】
本発明の側面は、本明細書において、本発明の実施形態に従った方法、装置(システム)およびコンピュータ・プログラム製品のフローチャート図もしくはブロック図またはこれらの両方を参照しながら、説明される。フローチャート図もしくはブロック図またはこれらの両方の各ブロック、および、フローチャート図もしくはブロック図またはこれらの両方における複数のブロックの組み合わせは、コンピュータ可読プログラム命令によって実装されてもよいことが理解されよう。
【0083】
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、特定用途コンピュータのプロセッサまたは他のプログラマブル・データ処理装置に提供され、コンピュータのプロセッサまたは他のプログラマブル・データ処理装置を介して実行される命令が、フローチャート図もしくはブロック図またはこれらの両方のブロックまたは複数のブロックにおいて特定される機能/作用を実装するための手段を作成するように、マシンを生成する。これらのコンピュータ可読プログラム命令は、また、コンピュータ、プログラマブル・データ処理装置もしくは他のデバイスまたはこれらの組み合わせに特定のやり方で機能するよう指示できるコンピュータ可読ストレージ媒体に格納され、それに格納された命令を有するコンピュータ可読ストレージ媒体に、フローチャート図もしくはブロック図またはこれらの両方ブロックまたは複数のブロックで特定される機能/作用の側面を実装する命令を含む製品が含まれるようにする。
【0084】
コンピュータ可読プログラム命令は、また、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイスにロードされ、コンピュータ、他のプログラマブル・データ処理装置または他のデバイス上で一連の動作ステップを実行させて、コンピュータ、他のプログラマブル・データ処理装置または他のデバイス上で実行される命令が、フローチャート図もしくはブロック図またはこれらの両方のブロックまたは複数のブロックで特定される機能/作用の側面を実装するように、コンピュータ実装処理を生成することもできる。
【0085】
図面におけるフローチャート図およびブロック図は、本発明の種々の実施形態に従ったシステム、方法およびコンピュータ・プログラム製品の可能な実装のアーキテクチャ、機能性および動作を示す。この点に関して、フローチャート図またはブロック図の各ブロックは、特定の論理機能を実装するための1以上の実行可能な命令を含む、モジュール、セグメントまたは命令の部分を表す可能性がある。いくつかの代替の実装では、ブロックにおいて言及された機能は、図面に示された順序から外れて生じる可能性がある。例えば、連続して示される2つのブロックは、実際には、同時に、実質的に同時に実行されてもよく、あるいは、複数のブロックは、関与する機能性に応じて逆の順序で実行されてもよい。ブロック図もしくはフローチャート図またはこれらの両方の各ブロックおよびブロック図もしくはフローチャート図またはこれらの両方の複数のブロックの組み合わせが、特定の機能または作用を実行し、または、特別な目的のハードウェアおよびコンピュータ命令の組み合わせを実施する、特定目的ハードウェアベースのシステムによって実装されてもよいことに留意されたい。
【0086】
当業者は、図7に示すハードウェアが変わり得ることを理解するであろう。さらに、当業者は、図示された例が、本発明に関するアーキテクチャ上の制限を暗示することを意味するものではないことを理解するであろう。
【0087】
図8は、リスニング・サービスによる適用のためのユーザのトピック選好を追跡して、テキストから音声への変換および同時ストリームにおける並列再生についてコンテンツ・ソースを決定し優先順位付けするためのプロセスおよびコンピュータ・プログラムの高レベル論理フローチャートを示す。
【0088】
一例では、プロセスおよびコンピュータ・プログラムは、ブロック800で開始し、その後、ブロック802に進む。ブロック802は、コンテンツ選択のユーザ指示を監視することを示す。次に、ブロック804は、コンテンツ選択のユーザ指示が検出されたか否かの判定を示す。ブロック804で、コンテンツ選択のユーザ指示が検出される場合、プロセスは、ブロック806に進む。ブロック806は、コンテンツ選択ユーザ指示およびコンテンツをコンテンツ履歴ログに記録することを示す。次に、ブロック808は、ユーザのコンテンツ選択の種類および頻度についてコンテンツ履歴ログを分析することを示す。その後、ブロック810は、ユーザにより頻繁に選択されるコンテンツの種類におけるトピックに基づいて、ユーザに対するトピック選好を生成することを示す。次に、ブロック812は、トピック選好を用いてトピック選好モデルを訓練することを示し、処理を終了する。
【0089】
図9は、ユーザ姿勢情報によって案内される同時音声再生コントローラを実装するリスニング・サービスを管理するためのプロセスおよびコンピュータ・プログラムの高レベル論理フローチャートを示す。
【0090】
一例では、プロセスおよびコンピュータ・プログラムは、ブロック900で開始し、その後、ブロック902に進む。ブロック902は、ユーザが、テキスト音声化ベースのコンテンツを聴くことを選択するか否かの判定を示す。ブロック902で、ユーザがテキスト音声化ベースのコンテンツを聴くことを選択する場合、プロセスは、ブロック904に進む。ブロック904は、コンテンツ・アグリゲータから、聴くために利用可能なテキスト・パッセージの潜在的な選択のコレクションを識別することを示す。次に、ブロック906は、コンテンツ・アグリゲータからのテキスト・パッセージを、各コンテンツ・ソースがコレクションからの別個のテキスト・パッセージを反映しながら、コンテンツ・アグリゲータの出力インタフェースに適用される出力インタフェース設定において識別されるグラフィカル特性に基づく境界によって識別される、別個のコンテンツ・ソースに分割することを示す。その後、ブロック908は、コンテンツがユーザのトピック選好を満たすコンテンツ・ソースの選択を識別することを示す。次に、ブロック910は、トピック選好の各々で識別される優先度レベルに従ってコンテンツ・ソースの選択を並び替えすることを示す。その後、ブロック912は、属性選好設定を適用して、選択された3D音響空間内の聴覚的位置を並び替え済み優先度に従って選択して、コンテンツ・ソースの選択の音声変換のオーディオ属性を指定することを示す。次に、ブロック914は、コンテンツ・ソースの選択からのテキスト・パッセージの各々を並び替え済み優先度に従って3D音響空間内の異なる位置に関連してオーディオ選択として音響的に出力して、適用されたオーディオ属性に従ってコンテンツ・ソースの選択のテキスト音声化変換を同時的に単一のステレオ出力ストリームにストリーミングすることを示し、プロセスは、ブロック916に進む。
【0091】
ブロック916は、ユーザ姿勢情報の入力を監視することを示す。次に、ブロック918は、ユーザ姿勢情報の入力が受信されたる否かの判定を示す。ブロック918では、ユーザ姿勢情報入力が受信される場合、プロセスは、ブロック920に進む。ブロック920は、ユーザ姿勢情報の入力の評価をトリガすることを示し、プロセスは、ブロック922に渡される。ブロック918に戻ると、ユーザ姿勢情報の入力が受信されない場合、プロセスは、ブロック922に進む。
【0092】
ブロック922は、テキスト音声化ベースのコンテンツを聴くことを停止するためのユーザ入力があるか否かの判定を示す。ブロック922で、テキスト音声化ベースのコンテンツを聴くことを停止するためのユーザ入力が受信される場合、プロセスは、終了する。そうでなければ、ブロック922で、テキスト音声化ベースのコンテンツを聴くことを停止するためのユーザ入力が受信されない場合、プロセスは、ブロック916に戻る。
【0093】
図10は、テキストから音声に変換されて並列に再生される複数のコンテンツ・ソースの中から、主要位置に、コンテンツ・アグリゲータによって提供される複数のコンテンツ・ソースの中からの特定のコンテンツ・ソースのテキストから音声再生に変換されたオーディオ選択を配置するためにユーザ姿勢情報によって案内される同時音声再生コントローラを管理するためのプロセスおよびプログラムの高レベル論理フローチャートの一例を示す。
【0094】
一例では、プロセスおよびコンピュータ・プログラムは、ブロック1000で開始し、その後、ブロック1002に進む。ブロック1002は、ユーザ姿勢情報入力の評価がトリガされたか否かの判定を示す。ブロック1002で、ユーザ姿勢情報入力の評価がトリガされる場合、プロセスは、ブロック1004に進む。ブロック1004は、3D音響空間内のオーディオ選択のポジショニングに相対する入力されたユーザ姿勢情報の動きの方向を分析して、3D音響空間内の動きの方向に関連付けられた特定のオーディオ選択を識別することを示す。次に、ブロック1006は、コンテンツ・ソースの選択の並び替えを調整して、3D音響空間内の主要位置に特定のオーディオ選択を配置すること指示することを示す。その後、ブロック1008は、姿勢ベース調整設定を、コンテンツ・ソースの調整済みの選択に対し適用して、コンテンツ・ソースの選択の音声変換のオーディオ属性を調整して、3D音響空間内のオーディオ選択の位置を聴覚的に調整し、オーディオ選択のオーディオ特徴を調整して特定のオーディオ選択に対して選択的に焦点を合わせるユーザの能力を増大することを示す。次に、ブロック1010は、コンテンツ・ソースの選択からのテキスト・パッセージの各々をオーディオ選択として音響的に出力し、かつ、特定のオーディオ選択を3D音響空間内の主要位置で目立たせながら、調整済みオーディオ属性に従ってコンテンツ・ソースの選択のテキスト音声化変換の同時ストリームを単一のステレオ出力ストリームに調整することを示し、プロセスは終了する。
【0095】
図11は、ユーザ姿勢情報によって案内される同時音声再生コントローラによる適用のために属性選好設定、ユーザ姿勢運動および姿勢ベース調整設定に対するユーザ選好を設定するためのプロセスおよびプログラムの高レベル論理フローチャートの一例を示す。
【0096】
一例では、プロセスおよびコンピュータ・プログラムは、ブロック1100で開始し、その後、ブロック1102に進む。ブロック1102は、ユーザがテキスト音声化に基づく選好を指定することを選択するか否かの判定を示す。ブロック1102では、ユーザがテキスト音声化に基づく選好を指定することを選択する場合と、プロセスは、ブロック1104に進む。ブロック1104は、複数の位置内の主要位置を選択することを含む、3D音響空間内のオーディオ優先度位置についての順序付け選好をユーザに選択するように促すことを示す。その後、ブロック1106は、ユーザトピック選好の中からトピックの選択を識別することを示す。次に、ブロック1108は、コンテンツのトピック、テーマおよび提示特性により、1または複数の声種別、声量、声位置および声速属性をユーザに選択するように促すことを示す。その後、ブロック1110は、ユーザの属性選好設定としてユーザの選択を格納することを示し、プロセスは、ブロック1112に進む。
【0097】
ブロック1112は、3Dオーディオ空間内の異なる位置を選択するために、ユーザによる移動の選択をサンプルするための1または複数の姿勢の動きをするようにユーザに促すことを示す。次に、ブロック1114は、ユーザの姿勢の動きのサンプリングに基づいて、ユーザ姿勢の動きの解釈を実行するための認知モデルを訓練することを示す。次に、ブロック1116は、3Dオーディオ空間内の異なる位置に対するユーザ姿勢の動きに関連して、1または複数の声種別、声量、声位置および声速属性を選択するようにユーザに促すことを示す。その後、ブロック1118は、ユーザについての姿勢ベース調整設定としてユーザの選択を格納することを示し、プロセスは、終了する。
【0098】
1または複数の実施形態においては、方法、コンピュータ・システムおよびコンピュータ・プログラム製品は、それぞれがテキスト・コンテンツを含む複数のコンテンツ・ソースを識別することを対象とし、ここで、複数のコンテンツ・ソースは、ユーザにとっての関心により順序付けされる。方法、コンピュータ・システムおよびコンピュータ・プログラム製品は、複数のコンテンツ・ソースの各々を、テキスト・コンテンツから、複数のオーディオ選択の別個のオーディオ選択を含む音声に変換することを対象とする。方法、コンピュータ・システムおよびコンピュータ・プログラム製品は、各オーディオ選択に対し1または複数の音声属性を適用して、多次元音響空間内の複数の位置の中からそれぞれのオーディオ選択のそれぞれの位置を選択するオーディオ属性を指定し、複数のオーディオ選択の他のオーディオ選択からそれぞれのオーディオ選択の1または複数の特性を聴覚的に区別することを対象とし、ここで、それぞれのオーディオ選択のそれぞれの位置は、関心により順序付けされたそれぞれのオーディオ選択のランクを反映する。方法、コンピュータ・システムおよびコンピュータ・プログラム製品は、関心により順序付けられた複数のコンテンツ・ソースを反映する多次元音響空間内の複数の位置における、ユーザに対する複数のオーディオ選択のステレオ再生のために、複数のオーディオ選択の同時ストリームを音声出力装置に出力することを対象とする。1または複数の音声属性を各オーディオ選択に対して適用して、多次元音響空間内の複数の位置の中からそれぞれのオーディオ選択のそれぞれの位置を選択するオーディオ属性を指定し、複数のオーディオ選択の他のオーディオ選択からそれぞれのオーディオ選択の1または複数の特性を聴覚的に区別することの1つの利点は、オーディオ選択の同時ストリームが、ユーザが、ユーザにとって検出可能な異なる聴覚的位置に並列に提示される複数のオーディオ選択のコンテンツを通して走査し、オーディオ選択の中からユーザにとって関心のあるトピックを識別することをサポートするオーディオ出力を提供することである。ユーザにとっての関心によって順序付けられる複数のコンテンツ・ソースを識別し、オーディオ属性を指定して、関心により順序付けされたそれぞれのオーディオ選択のランクを反映したオーディオ選択のそれぞれの位置を選択することの1つの利点は、オーディオ選択の同時ストリームが、ユーザが最も関心を持ちそうなコンテンツ・ソースを、1または複数の主要位置に配置するオーディオ出力を提供することであり、ここで、この1または複数の主要位置は、聴覚的位置を走査する際に、1または複数の主要位置における可聴な選択がユーザにとって最も高い関心を有するであろうという、ユーザにとっての予測可能性を改善する。
【0099】
加えて、1または複数の実施形態においては、それぞれがテキスト・コンテンツを含む複数のコンテンツ・ソースを識別することを対象とする方法、コンピュータ・システムおよびコンピュータ・プログラム製品であって、複数のコンテンツ・ソースは、ユーザにとっての関心により順序付けされる、方法、コンピュータ・システムおよびコンピュータ・プログラム製品は、ユーザによってアクセスされるコンテンツを、ユーザによるコンテンツの選択の指示として監視することを対象としてもよい。方法、コンピュータ・システムおよびコンピュータ・プログラム製品は、さらに、ユーザによるコンテンツの選択の指示を検出することに応答して、選択の指示およびコンテンツをコンテンツ履歴ログに記録することを対象としてもよい。方法、コンピュータ・システムおよびコンピュータ・プログラム製品は、さらに、少なくとも1種類のコンテンツの頻度についてコンテンツ履歴ログを解析することを対象としてもよい。方法、コンピュータ・システムおよびコンピュータ・プログラム製品は、さらに、少なくとも1種類のコンテンツおよびそれぞれの頻度に基づいて、ユーザについての少なくとも1つのトピック選好を生成することを対象としてもよい。方法、コンピュータ・システムおよびコンピュータ・プログラム製品は、少なくとも1つのトピックを含む他のコンテンツを識別するために少なくとも1つのトピック選好およびそれぞれの頻度を用いて認知モデルを訓練することを対象としてもよい。方法、コンピュータ・システムおよびコンピュータ・プログラム製品は、ユーザが複数のテキスト・パッセージを含むウェブサイトにアクセスすることに応答して、少なくとも1つのトピックを含む複数のテキスト・パッセージの選択から、認知モデルを介して、複数のコンテンツ・ソースを識別することを対象としてもよい。方法、コンピュータ・システムおよびコンピュータ・プログラム製品は、さらに、複数のコンテンツ・ソースのそれぞれのコンテンツ・ソースに存在する少なくとも1つのトピックのそれぞれの頻度に基づいて認知モデルによって識別されるそれぞれの優先レベルに従って、複数のコンテンツ・ソースを順序付けることを対象としてもよい。コンテンツにアクセスし、応答する監視されるユーザのアクティビティに基づくトピック選好および頻度を用いて認知モデルを訓練し、次いで、訓練された認知モデルによってコンテンツ・ソースを選択的に識別し、順序付けることの1つの利点は、同時ストリームにおいて並列に再生されるコンテンツ・ソースの選択が、特定のユーザにとっての関心の尤もらしさに従って聴覚的な位置において順序付けられて、特定のユーザが、並列にストリームされた複数のオーディオ選択を通して走査し、ユーザにとって関心のある少なくとも1つのオーディオ選択を見つけ出す効率を向上することである。
【0100】
加えて、1または複数の実施形態においては、それぞれがテキスト・コンテンツを含む複数のコンテンツ・ソースを識別する方法、コンピュータ・システムおよびコンピュータ・プログラム製品であって、複数のコンテンツ・ソースは、ユーザにとっての関心により順序付けされる、方法、コンピュータ・システムおよびコンピュータ・プログラム製品は、コンテンツ・アグリゲータから利用可能な複数のテキスト・パッセージを含むインタフェースを識別することを対象としてもよい。方法、コンピュータ・システムおよびコンピュータ・プログラム製品は、さらに、コンピュータ・システムによって、インタフェースにおけるテキスト・パッセージ間の境界を識別するために少なくとも1つのグラフィカル特性を指定する出力インタフェース設定に基づいて、コンテンツ・アグリゲータからの複数のテキスト・パッセージを複数のコンテンツ・ソースの別個のコンテンツ・ソースに分割することを対象としてもよい。コンテンツ・アグリゲータから利用可能な複数のテキスト・パッセージを識別し、インタフェースにおけるテキスト・パッセージ間の境界を識別するために少なくとも1つのグラフィカル特性を指定する出力インタフェース設定に基づいて複数のテキスト・パッセージをコンテンツ・ソースに分割することの1つの利点は、コンテンツ・ソースが任意の特定のコンテンツ・アグリゲータ・インタフェースから独立に識別され、同時ストリームが、複数の種類のコンテンツ・アグリゲータからのコンテンツ・ソースについて、かつ、コンテンツ・アグリゲータが、音声に変換するために、インタフェースにおけるテキスト・パッセージを出力するか否かとは独立して生成されるようにすることである。
【0101】
加えて、1または複数の実施形態においては、各オーディオ選択に対し1または複数の音声属性を適用して、多次元音響空間内の複数の位置の中からそれぞれのオーディオ選択のそれぞれの位置を選択するオーディオ属性を指定し、複数のオーディオ選択の他のオーディオ選択からそれぞれのオーディオ選択の1または複数の特性を聴覚的に区別する方法、コンピュータ・システムおよびコンピュータ・プログラム製品であって、それぞれのオーディオ選択のそれぞれの位置は、関心により順序付けされたそれぞれのオーディオ選択のランクを反映する、方法、コンピュータ・システムおよびコンピュータ・プログラム製品は、各オーディオ選択に対し1または複数の音声属性を適用して、関心により順序付けされた最も高いランクを有する特定のコンテンツ・ソースから変換された特定のオーディオ選択に対する多次元音響空間内のユーザの前方の主要位置における複数の位置のうちの特定の位置に対するオーディオ属性を指定することを対象としてもよい。1または複数の音声属性を適用して、多次元音響空間内のユーザの前方の主要位置において、関心により順序付けされた最も高いランクを有する特定のオーディオ選択に対するオーディオ属性を指定することの1つの利点は、ユーザに、ユーザにとって最も関心がある可能性のあるオーディオ選択が、ユーザの前方の位置に予測可能に位置づけられながら、異なる位置における複数のオーディオ選択とともにオーディオ出力が提供されて、並列に再生されるオーディオ選択のそれぞれを走査して焦点を当てる順序をユーザーが決定する際の効率を向上することである。
【0102】
加えて、1または複数の実施形態においては、方法、コンピュータ・システムおよびコンピュータ・プログラム製品は、ユーザ姿勢変化を示す入力を監視することを対象としてもよい。方法、コンピュータ・システムおよびコンピュータ・プログラム製品は、また、ユーザ姿勢変化を示す入力を検出することに応答して、コンピュータ・システムによって、3D音響空間を含む多次元音響空間内の複数のオーディオ選択のポジショニングに相対するユーザ姿勢変化の動きの方向を解析することを対象としてもよい。方法、コンピュータ・システムおよびコンピュータ・プログラム製品は、また、コンピュータ・システムによって、3D音響空間における複数のオーディオ選択のポジショニングに相対するユーザ姿勢変化の動きの方向に基づいて、ユーザによって選択される、複数のオーディオ選択の中からの特定のオーディオ選択を識別することを対象としてもよい。方法、コンピュータ・システムおよびコンピュータ・プログラム製品は、また、コンピュータ・システムによって、各オーディオ選択に対し1または複数の更新された音声属性を適用して、3D音響空間内の複数の位置の中からそれぞれのオーディオ選択のそれぞれの位置を選択するオーディオ属性を指定し、複数のオーディオ選択の他のオーディオ選択からそれぞれのオーディオ選択の1または複数の特性を聴覚的に区別することであって、特定のオーディオ選択は、3D音響空間内のユーザの前方の主要位置へ移動され、特定のオーディオ選択の音量は、複数のオーディオ選択のうちの他のオーディオ選択に相対的に増加される、区別することを対象としてもよい。ユーザ姿勢変化を示す入力を監視し、多次元音響空間における複数のオーディオ選択のポジショニングに相対するユーザ姿勢変化における動きの方向を検出することの1つの利点は、ユーザが、ハンズフリーで、かつ、精確な動きを要求することなく、同時ストリーム内の複数のオーディオ選択の中から特定のオーディオ選択を選択して焦点を合わせることを可能とする最小限の動きによって特定のオーディオ選択に焦点を合わせるための入力を提供することである。
【0103】
本明細書で使用される用語は、特定の実施形態を説明することのみを目的とし、本発明を限定することを意図するものではない。本明細書で使用されるように、単数形「a」、「an」および「the」は、文脈が明確に示さない限り、複数形も含むことを意図している。さらに、用語”含む(comprise)”もしくは”含んでいる(comprising)”またはこれらの両方は、この明細書で使用される場合、記載された特徴、整数、ステップ、動作、要素もしくはコンポーネントまたはこれらの組み合わせの存在を指定し、1または複数の他の特徴、整数、ステップ、動作、要素、コンポーネントもしくはこれらのグループまたはこれらの組み合わせの存在または追加を除外するものではないことを理解されたい。
【0104】
以下の特許請求の範囲における、対応する構造、材料、動作および全てのミーンズまたはステップ・プラス・ファンクション要素の均等物は、明確に特許請求されるように他の特許請求された要素と組み合わせで実行するための任意の構造、材料または動作を含むことが意図される。本発明の1または複数の実施形態の説明は、例証および説明を目的として提示されたものであるが、網羅的であることまたは本発明を開示された形態に限定することを意図するものではない。本発明の範囲から逸脱することなく多くの変更および変形が当業者にとって明らかとなるであろう。実施形態は、本発明の原理および実際的な用途を最も良く説明するために、また、当業者が、企図した特定の使用に適した種々の変更とともに種々の実施形態について本発明を理解できるように、選択され、説明されたものである。
【0105】
特に1または複数の実施形態を参照しながら、本発明について示され、説明されたが、当業者であれば、本発明の精神および範囲から逸脱することなく、形態および詳細において、種々の変更が可能であることが理解されるであろう。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11