IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ソニー・コンピュータエンタテインメントの特許一覧

特許7602070分配された入力の感情分析によるライブイベントのクラウドノイズのシミュレーション
<>
  • 特許-分配された入力の感情分析によるライブイベントのクラウドノイズのシミュレーション 図1A
  • 特許-分配された入力の感情分析によるライブイベントのクラウドノイズのシミュレーション 図1B
  • 特許-分配された入力の感情分析によるライブイベントのクラウドノイズのシミュレーション 図2A
  • 特許-分配された入力の感情分析によるライブイベントのクラウドノイズのシミュレーション 図2B
  • 特許-分配された入力の感情分析によるライブイベントのクラウドノイズのシミュレーション 図3
  • 特許-分配された入力の感情分析によるライブイベントのクラウドノイズのシミュレーション 図4
  • 特許-分配された入力の感情分析によるライブイベントのクラウドノイズのシミュレーション 図5
  • 特許-分配された入力の感情分析によるライブイベントのクラウドノイズのシミュレーション 図6
  • 特許-分配された入力の感情分析によるライブイベントのクラウドノイズのシミュレーション 図7
  • 特許-分配された入力の感情分析によるライブイベントのクラウドノイズのシミュレーション 図8
  • 特許-分配された入力の感情分析によるライブイベントのクラウドノイズのシミュレーション 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-09
(45)【発行日】2024-12-17
(54)【発明の名称】分配された入力の感情分析によるライブイベントのクラウドノイズのシミュレーション
(51)【国際特許分類】
   G10K 15/02 20060101AFI20241210BHJP
   A63F 13/86 20140101ALI20241210BHJP
   A63F 13/54 20140101ALI20241210BHJP
   A63F 13/30 20140101ALI20241210BHJP
   G10L 25/63 20130101ALI20241210BHJP
   G10L 25/30 20130101ALI20241210BHJP
   H04N 21/233 20110101ALI20241210BHJP
   H04N 21/239 20110101ALI20241210BHJP
【FI】
G10K15/02
A63F13/86
A63F13/54
A63F13/30
G10L25/63
G10L25/30
H04N21/233
H04N21/239
【請求項の数】 20
(21)【出願番号】P 2023572905
(86)(22)【出願日】2022-05-20
(65)【公表番号】
(43)【公表日】2024-06-04
(86)【国際出願番号】 US2022030381
(87)【国際公開番号】W WO2022251077
(87)【国際公開日】2022-12-01
【審査請求日】2023-11-24
(31)【優先権主張番号】17/332,992
(32)【優先日】2021-05-27
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】310021766
【氏名又は名称】株式会社ソニー・インタラクティブエンタテインメント
(74)【代理人】
【識別番号】100105924
【弁理士】
【氏名又は名称】森下 賢樹
(72)【発明者】
【氏名】ベネデット、ウォーレン、エム.
【審査官】▲徳▼田 賢二
(56)【参考文献】
【文献】米国特許出願公開第2019/0173682(US,A1)
【文献】国際公開第2019/236556(WO,A1)
【文献】特表2009-530680(JP,A)
【文献】米国特許第10300394(US,B1)
(58)【調査した分野】(Int.Cl.,DB名)
G10K 15/02
A63F 13/86
A63F 13/54
A63F 13/30
G10L 25/63
G10L 25/30
H04N 21/233
H04N 21/239
(57)【特許請求の範囲】
【請求項1】
クラウドサービスを使用して提示されるメディアイベントに関連するクラウドノイズを生成するための方法であって、
前記メディアイベントの視聴者から取り込まれた音声データを受信することと、
前記視聴者の発話を識別するために前記音声データを処理することであって、前記発話の特徴が、前記視聴者の反応状態を識別するための反応モデルを構築するために分類される、前記処理することと、
前記クラウドノイズのためにサウンドスケープを生成することであって、前記サウンドスケープが、前記メディアイベントに関連する一般的なクラウドノイズの音声と前記視聴者の前記反応状態の1つ以上に対応する音声とを融合させる、前記生成することと
を含み、
前記サウンドスケープが、前記視聴者に対する前記メディアイベントの提示に関連付けられたスピーカに出力される、
方法。
【請求項2】
前記メディアイベントが、複数の追加の視聴者に提示されることと、
前記複数の追加の視聴者から取り込まれた音声データを受信することと、
前記追加の視聴者の発話を識別するために前記追加の視聴者の前記音声データを処理することであって、前記反応モデルが前記追加の視聴者の反応状態を識別するために使用される、前記処理することと、
前記追加の視聴者の前記反応状態に対応する追加の音声を融合させるために、前記クラウドノイズのために前記生成されたサウンドスケープを拡張することと
をさらに含む、請求項1に記載の方法。
【請求項3】
前記視聴者及び前記追加の視聴者のそれぞれが、前記メディアイベントの提示に関連付けられたそれぞれのスピーカに対する出力として、拡張された前記サウンドスケープを受信する、請求項2に記載の方法。
【請求項4】
前記視聴者の前記反応状態の1つ以上に対応する前記音声が、前記視聴者の受信された好みに基づいてカスタマイズ可能である、請求項1に記載の方法。
【請求項5】
前記メディアイベントの他の視聴者の追加の反応状態を処理することと、
前記追加の反応状態に対応する音声を識別することと、
前記生成されたサウンドスケープを拡張して、前記他の視聴者の前記追加の反応状態に対応する前記音声の融合をさらに含むことと
をさらに含む、請求項1に記載の方法。
【請求項6】
前記サウンドスケープが、前記メディアイベントを視聴するときにスピーカへの出力として、前記視聴者及び前記他の視聴者の1人以上に提示される、請求項5に記載の方法。
【請求項7】
前記メディアイベントが、前記視聴者及び他の視聴者がグループとして視聴するライブイベントまたはイベントである、請求項1に記載の方法。
【請求項8】
前記視聴者の前記反応状態が、前記視聴者の発話に関連付けられた1つ以上の感情タイプを含む、請求項1に記載の方法。
【請求項9】
前記感情タイプのそれぞれが、前記反応モデルによってスコア化され、前記スコアが前記視聴者の前記対応する発話に関連付けられた強度に対応する、請求項8に記載の方法。
【請求項10】
前記スコアが、前記視聴者の前記反応状態の1つ以上に対応する前記音声を選択するために使用される、請求項9に記載の方法。
【請求項11】
前記視聴者の前記反応状態の1つ以上に対応する前記音声が、前記視聴者の前記発話ではない、請求項1に記載の方法。
【請求項12】
前記視聴者の前記反応状態の1つ以上に対応する前記音声が、前記視聴者の前記発話に近似する音声である、請求項1に記載の方法。
【請求項13】
前記反応状態の1つ以上に対応する前記音声が、事前に録音された音声ファイルのデータベースからアクセスされ、前記事前に録音された音声ファイルが感情スコアでタグ付けされ、前記視聴者の前記反応状態の1つ以上に対応する前記音声を選択するために使用される、請求項1に記載の方法。
【請求項14】
前記反応モデルが、前記視聴者の属性を分類するために前記発話の前記特徴を識別するように構成された機械学習エンジンを実装し、前記視聴者の前記属性が、前記視聴者の前記反応状態を識別するために使用される、請求項1に記載の方法。
【請求項15】
クラウドサービスを使用して複数の視聴者に提示されるメディアイベントに関連するクラウドノイズを生成するための方法であって、
前記メディアイベントの前記複数の視聴者から取り込まれた音声データを受信することと、
前記複数の視聴者の発話を識別するために前記音声データを処理することであって、前記発話の特徴が、前記複数の視聴者の反応状態を識別するための反応モデルを構築するために分類される、前記処理することと、
前記クラウドノイズのためにサウンドスケープを生成することであって、前記サウンドスケープが、前記メディアイベントに関連する一般的なクラウドノイズの音声と前記複数の視聴者の前記反応状態の1つ以上に対応する音声とを融合させる、前記生成することと
を含む、方法。
【請求項16】
前記サウンドスケープが、前記複数の視聴者に対する前記メディアイベントの提示に関連付けられたスピーカに出力される、請求項15に記載の方法。
【請求項17】
前記サウンドスケープが、前記複数の視聴者の受信された好みに基づいてカスタマイズ可能である、請求項15に記載の方法。
【請求項18】
前記メディアイベントが、前記複数の視聴者によってグループとして、または異なる地理的場所で別々に視聴されているライブイベントまたは録画されたイベントである、請求項15に記載の方法。
【請求項19】
前記複数の視聴者の前記反応状態が、前記複数の視聴者の前記発話に関連付けられた1つ以上の感情タイプを含む、請求項15に記載の方法。
【請求項20】
前記感情タイプのそれぞれが、前記反応モデルによってスコア化され、前記スコアが前記複数の視聴者の前記対応する発話に関連付けられた強度に対応する、請求項19に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、概して、メディアイベントを視聴する視聴者のためにクラウドノイズを生成することに関し、より詳細には、クラウドサービスを使用して提示されるメディアイベントに関連するクラウドノイズを生成するための方法及びシステムに関する。
【背景技術】
【0002】
関連技術の説明
ビデオゲーム業界は、長年にわたり多くの変化を遂げてきた。特に、Eスポーツなどのメディアイベントは、ライブイベントの数、視聴者数、収益の面で大幅な成長を遂げている。しかしながら、最近では、COVID-19のパンデミックのために、Eスポーツイベント及び他のメディアイベント(例えば、スポーツイベント、コンサート、音楽祭など)は悪影響を受けている。COVID-19の広がりを最小限に抑えるために、多くの管轄区域は、Eスポーツイベント及びその他のライブメディアイベントなどの集会を限定または制限してきた。今日では、メディアイベントは限られた数の対面の参加者で開かれており、オンライン視聴者は自宅からリモートでメディアイベントを安全かつ快適に視聴することができる。この目的で、開発者は、メディアイベントのクラウドノイズが視聴者にとってより現実的かつ本物に聞こえるようにクラウドノイズを改善するであろう高度な操作を開発する方法を模索してきた。
【0003】
ビデオゲーム産業で増加している傾向は、リモート位置からメディアコンテンツを見ているオンライン視聴者の体験を強化する、独自の方法を開発することである。容量の制限及びメディアイベントのライブショーに参加できる対面の参加者数の制限により、メディアイベントに参加している生の観客の音をシミュレートするために、一般のクラウド音声ノイズが人工的に生成され、メディアコンテンツに組み込まれる。残念なことに、多くのリモート視聴者は、一般的なクラウドノイズが現実的ではなく、活気がなく、退屈に聞こえ、生の観客からの応援の音を損なっていることに気づく場合がある。結果的に、人工的にシミュレートされた一般的なクラウドノイズを用いてメディアイベントでのクラウドノイズの音を表現する現行のプロセスは、本物ではなさすぎて聞こえる場合があり、視聴者がメディアイベントへの関心を失う結果につながる場合がある。
【0004】
本開示の実施態様が生じるのはこのような状況においてである。
【発明の概要】
【0005】
本開示のこれのための実施態様は、クラウドサービスによって実行されるメディアイベントに関連するクラウドノイズを生成することに関連する方法、システム、及びデバイスを含む。いくつかの実施形態では、クラウドノイズのためにサウンドスケープを生成するために、視聴者の言葉による表現及びその対応する反応を使用することを可能にするための方法が開示されており、サウンドスケープは、メディアイベントに関連する一般的なクラウドノイズの音声と視聴者の1つ以上の反応状態に対応する音声とを融合させる。例えば、視聴者は、プレーヤが、イベントが物理的に存在する生の参加者がいない(または限られた数の参加者)空のスタジアムで開かれているEスポーツイベント(例えば、メディアイベント)で競っているゲームプレイをリモートで見ている場合がある。スタジアムに物理的に存在している参加者の数は限られているため、本明細書に開示される方法は、お気に入りのチームとプレーヤを応援する生の観客の音を再現するために一般的なクラウドノイズのみを使用する代わりに、多数の観客が参加して、プレーヤがイベントで競っているのを見ているように、クラウドノイズが現実的に聞こえるように、クラウドノイズのためにサウンドスケープを生成する方法を概略している。
【0006】
したがって、リモート視聴者が反応し、イベント中にお気に入りのチームとプレーヤを応援すると、視聴者の発話は取り込まれ、反応モデルを構築するために処理される。いくつかの実施形態では、反応モデルは、クラウドノイズのためにサウンドスケープを生成するために使用できる視聴者の反応状態を識別するために使用できる。このようにして、視聴者がメディアイベントを見ていると、サウンドスケープは視聴者のスピーカに出力され、これによって視聴者は、メディアイベントで起こっていることに反応する生の観客の正確な表現を含むサウンドスケープを受信することができる。
【0007】
一実施形態では、クラウドサービスを使用して提示されるメディアイベントに関連するクラウドノイズを生成するための方法が提供される。方法は、メディアイベントの視聴者から取り込まれた音声データを受信することを含む。方法は、視聴者の発話を識別するために音声データを処理することを含む。一実施形態では、発話の特徴は、視聴者の反応状態を識別するための反応モデルを構築するために分類される。方法は、クラウドノイズのためにサウンドスケープを生成することを含んでおり、サウンドスケープは、メディアイベントに関連する一般的なクラウドノイズの音声と視聴者の該反応状態の1つ以上に対応する音声とを融合させる。一実施形態では、サウンドスケープは、視聴者に対するメディアイベントの提示に関連付けられたスピーカに出力される。
【0008】
別の実施形態では、クラウドサービスを使用して複数の視聴者に提示されるメディアイベントに関連するクラウドノイズを生成するための方法が提供される。方法は、メディアイベントの複数の視聴者から取り込まれた音声データを受信することを含む。方法は、複数の視聴者の発話を識別するために音声データを処理することを含む。一実施形態では、発話の特徴は、複数の視聴者の反応状態を識別するための反応モデルを構築するために分類される。方法は、クラウドノイズのためにサウンドスケープを生成することを含む。一実施形態では、サウンドスケープは、メディアイベントに関連する一般的なクラウドノイズの音声と複数の視聴者の該反応状態の1つ以上に対応する音声とを融合させる。
【0009】
本開示の他の態様及び利点は、添付の図面と併せて、本開示の原理を例として示す下記の詳細な説明から明らかになるであろう。
【0010】
本開示は、添付の図面と併せて以下の説明を参照することによって、一層よく理解することができる。
【図面の簡単な説明】
【0011】
図1A】本開示の実施態様に従って、メディアイベントに関連するクラウドノイズを生成し、メディアイベントを見ている複数の視聴者にクラウドノイズを出力するように構成されたシステムの一実施形態を示す。
【0012】
図1B】本開示の一実施態様に従って、クラウドサービスが、メディアイベントの視聴者から取り込まれた音声データを受信し、音声データを処理して、メディアイベントに関連するクラウドノイズのためにサウンドスケープを生成する一実施形態を示す。
【0013】
図2A】本開示の一実施態様による、メディアイベントの視聴者102の声の出力に関連付けられた様々な音声信号波形を示す例示的な図である。
【0014】
図2B】本開示の一実施態様による、メディアイベントを視聴している間の視聴者の声の出力に対応する音声信号波形を示す例示的な図である。
【0015】
図3】本開示の一実施態様に従って、視聴者の視聴者反応状態を識別するために使用される反応モデルを構築するための処理のために視聴者の発話を受信する音声データ機械学習プロセッサの一実施形態を示す。
【0016】
図4】本開示の一実施態様に従って、メディアイベントに関連するクラウドノイズのためのサウンドスケープ出力を生成するための処理のために視聴者反応状態を受信するクラウドシミュレータの一実施形態を示す。
【0017】
図5】本開示の一実施態様に従って、視聴者の視聴者反応状態を識別するための反応モデルを構築するために視聴者の発話を処理するように構成されたクラウドサービスの一実施形態を示す。
【0018】
図6】本開示の一実施態様による、出力されたサウンドスケープに関連付けられた様々な音声信号波形を示す例示的な図である。
【0019】
図7】本開示の一実施態様による、視聴者の好みに基づいて出力された視聴者によってカスタマイズされたサウンドスケープを示す例示的な図である。
【0020】
図8】本開示の一実施態様に従って、クラウドサービスを使用して提示されるメディアイベントに関連するクラウドノイズを生成するための方法を示す。
【0021】
図9】本開示の様々な実施形態の態様を実行するために使用することができる例示的なデバイスの構成要素を示す。
【発明を実施するための形態】
【0022】
本開示の以下の実施態様は、クラウドサービスを使用して提示されるメディアイベントに関連するカスタマイズされたクラウドノイズを生成するための方法、システム、及びデバイスを提供する。一実施形態では、メディアイベントは、Eスポーツイベント、スポーツイベント、コンサート、音楽祭、演劇パフォーマンス、コメディーショーなどのライブイベントまたは録画イベントである場合がある。例えば、ライブのEスポーツイベントで対戦しているプレーヤのゲームプレイを含むメディアイベントをリモート位置から視聴している間、視聴者は、ゲームプレイで起こっていることにコメントし、応援し、言葉で反応し得る。視聴者によって生成される声の出力及び発話(例えば、発話された言葉、発言、声色など)は、メディアイベントに関連するカスタム生成されたクラウドノイズのサウンドスケープを生成するために取り込み、処理し、使用することができる。一実施形態では、視聴者向けのクラウドノイズのサウンドスケープを生成すると、例えば1人以上の視聴者からの声の入力を使用してカスタム生成されたより現実的なクラウドノイズを提供することによって、視聴者の視聴体験が強化され得る。いくつかの実施形態では、クラウドノイズのためのサウンドスケープは、メディアイベントの他の視聴者と生で直接メディアイベントを見るシミュレートされた経験を視聴者に提供し得る。
【0023】
例えば、アメリカンフットボールゲームに関わるスポーツイベントを見ている間、フットボールゲームを自宅から見ている視聴者は、お気に入りのプレーヤとチームにコメントし、言葉で応援することができる。視聴者の反応状態を識別するために使用できる反応モデルを構築するために、イベントを視聴している間に、視聴者の発話は連続的に取り込まれ、処理される。一実施形態では、視聴者の反応状態は、クラウドノイズのためにサウンドスケープを生成するためにフットボールゲームに関連する一般的なクラウドノイズと融合することができる。いくつかの実施形態では、サウンドスケープは、フットボールゲームを見ている間に、視聴者に関連付けられたスピーカに出力できる。一般に、本明細書に説明される方法は、クラウドノイズが、メディアイベントを直接見ている生の観客の音を正確に反映するように、メディアイベントに関連するクラウドノイズを生成するための方法を提供する。同様に、リモートでメディアイベントを見ている視聴者の視聴体験を改善することができ、その結果、視聴者は、メディアイベント、及びメディアイベントに関連する他のコンテンツを見続けることを望むようになる。
【0024】
本明細書で使用される場合、用語「サウンドスケープ」は、没入型環境を形成するか、または没入型環境から生じる音または音の組み合わせを指すと広義に理解されたい。明確にするために、一般的な広義では、「サウンドスケープ」に対する参照は、例えば、ファンが応援する、ブーイングする、手をたたく、身振りで知らせる、叫ぶなどのライブメディアイベントまたは録音されたメディアイベントの会場で発生する一般的なクラウドノイズの音と、視聴者もしくは視聴者の特定のグループの取り込まれた声、発話、及び/または感情に対応する付加的なシミュレートされたノイズとの融合を含むと解釈されるべきである。
【0025】
一実施形態では、サウンドスケープは、カスタマイズされた方法で生成され、これによって一般的なクラウドノイズは、1人以上の視聴者の取り込まれた発話、感情、反応に対応する付加的なシミュレートされたノイズと、結合または融合できる。一実施形態では、追加されたシミュレートされたノイズは、取り込まれた声、発話、または反応からの生の音ではなく、代わりに、視聴から取り込まれた声で検出された強度及び/または感情を最もよく表すように、またはそれに対応するように生成される。一実施形態では、これらの付加的なシミュレートされたノイズは、ノイズデータベースからアクセスすることができる。ノイズデータベースは、特定のタイプのイベントに関連する数百または数千の音を有する場合があり、システムは、データベースからそれらの音またはファイルの組み合わせを選択して(例えば、データベースからの音の複合ブレンドを生成する)、(次に一般的なクラウドノイズと融合される)追加されたシミュレートされたノイズを生成する。視聴者にとって、サウンドスケープ内で送達される追加されたシミュレートされたノイズは、視聴者の取り込まれた声及び感情によって影響されるが、他者から取り込まれた声及び感情(例えば、イベントをオンラインで一緒に見ている自分の友人の声、発話及び感情)によっても影響される。一例として、サウンドスケープは、ユーザーがスタジアム内で体験するであろう実際の生の音に似ている場合があり、ユーザーが聞く音及び感情は、部分的には、視聴者だけではなく、視聴者の周辺またはスタジアムの異なる部分にいる人によって生成される場合もある。ただし、付加的なシミュレートされたノイズはまた、例えば視聴者の友人または友人以外など、イベントをリモートで視聴している他者によっても影響される場合がある。
【0026】
一例として、一実施形態では、クラウドサービスを使用して提示されるメディアイベントに関連するクラウドノイズを生成することを可能にする方法が開示される。方法は、メディアイベントの視聴者から取り込まれた音声データを受信することを含む。一実施形態では、方法は、視聴者の発話を識別するために音声データを処理することをさらに含み得る。一例では、発話の特徴は、視聴者の反応状態を識別するための反応モデルを構築するために分類される。別の実施形態では、方法は、クラウドノイズのためにサウンドスケープを生成することを含み得る。一例では、サウンドスケープは、メディアイベントに関連する一般的なクラウドノイズの音声と視聴者の反応状態の1つ以上に対応する音声とを融合させる。一般的なクラウドノイズと融合される音声は、データベースからアクセスし得、視聴者から検出された音、声、発話、及び感情のタイプを表すであろう。別の実施形態では、サウンドスケープは、視聴者に対するメディアイベントの提示に関連付けられたスピーカに出力される。ただし、本開示は、現在説明されている具体的詳細の一部または全部なしでも実施され得ることは、当業者には明らかであろう。他の例では、周知のプロセス動作は、本開示を不必要に不明瞭にしないために、詳細に説明されていない。
【0027】
実施形態によれば、クラウドサービスを使用して視聴者に提示されるメディアイベントに関連するクラウドノイズを生成するためのシステムが開示される。例えば、複数の視聴者は、ライブEスポーツイベントなどのメディアイベントを視聴するために接続され得る。一実施形態では、システムはネットワークへの接続を含む。いくつかの実施形態では、複数の視聴者は、ライブEスポーツイベントでプレーヤが対戦しているのを視聴するためにネットワークを介して接続される場合がある。いくつかの実施形態では、複数の視聴者は、ネットワークを介してクラウドサービスに接続され得、クラウドサービスは、ライブEスポーツイベントまたは他のメディアイベントをホストするときに、ゲームを実行し、複数の視聴者への接続を可能にするように構成される。クラウドサービスは、視聴者によって制御される複数のデバイスからデータを受信し、処理し、実行するように構成され得る。
【0028】
いくつかの実施形態では、複数の視聴者がライブEスポーツイベントを見ているとき、クラウドサービスは、ライブEスポーツイベントに関連するクラウドノイズのためにサウンドスケープを生成するために複数の視聴者からの音声データを受信及び処理するように構成される。いくつかの実施形態では、サウンドスケープは、会場がファンでいっぱいであるとしたらライブEスポーツイベントの会場で発生するであろうシミュレートされたクラウドノイズを視聴者に提供するために、ライブEスポーツイベントの提示に関連付けられたスピーカに出力される。一実施形態では、クラウドサービスは、視聴者の音声データを処理し、反応モデルを構築するために発話を識別するように構成された音声データ機械学習プロセッサを含み得る。いくつかの実施形態では、反応モデルは、メディアイベントに関連するクラウドノイズのためにサウンドスケープを生成するために使用できる視聴者の反応状態を識別するために使用できる。
【0029】
上記の概要を念頭に置いて、以下では、例示的実施形態の理解を容易にするために、いくつかの例示的な図を提供する。
【0030】
図1Aは、メディアイベントに関連するクラウドノイズを生成し、メディアイベントを見ている複数の視聴者にクラウドノイズを出力するように構成されたシステムの一実施形態を示す。一実施形態では、図1は、複数の視聴者102a~102n、ネットワーク105、及びクラウドサービス116を示す。図1に示されるように、各視聴者102は、視聴者の表示画面108でメディアイベントを見ていると示されている。一実施形態では、メディアイベントは、視聴者のモバイルデバイス、またはパーソナルコンピュータ、ラップトップ、タブレットコンピュータ、モニタとコンソール/PCセットアップ、テレビとコンソールのセットアップ、周辺機器、タブレット、シンクライアント、セットトップボックス、ネットワークデバイス/アプライアンスなどの任意の他のデバイスに表示できる。いくつかの実施形態では、複数の視聴者102a~102nは、任意選択で、異なる地理的位置101a~101nに分散している場合がある。例えば、視聴者102a~102bは、日本からのメディアイベントを視聴している場合があり、一方視聴者102c~102nは、世界の異なる領域に分散している場合がある。
【0031】
いくつかの実施形態では、視聴者に提示されるメディアイベントは、Eスポーツイベント、ビデオゲーム、映画、スポーツイベント、コンサート、音楽祭、演劇パフォーマンス、コメディーショーなどであってよい。一実施形態では、メディアイベントはライブイベントまたはイベントの録画である。一例では、メディアイベントは、生で直接、任意の地理的位置からリモートで、またはグループとして他の視聴者とともに任意のリモートの地理的位置から見ることができる。いくつかの実施形態では、メディアイベントは、例えば、ESPNTM、NBCTM、CBSTM、ABCTM、FoxTM、MLBTM Network、NBA TV、NFL Networkなどのメディアイベントをホストしているテレビネットワークによって提供される。いくつかの実施形態では、テレビネットワークによって提供されるように、メディアイベントは、メディアイベントに関連する一般的なクラウドノイズを含み得る。いくつかの実施形態では、一般的なクラウドノイズは様々であってよく、テレビネットワークによって選択される特定のタイプのメディアイベントに依存する場合がある。例えば、一般的なクラウドノイズは、あらかじめ録音されたクラウドノイズ、観客のおしゃべり、またはメディアイベントでの特定のアクションに応えて反応する観客の一般的な音を含み得る。一般的なクラウドノイズは、視聴体験をクラウドノイズがなく静音にしておくことに比べて、より良い視聴体験を提供するが、一般的なクラウドノイズは繰り返しが多すぎ、かつ本物らしくなくなり、その結果、視聴者はメディアコンテンツに関与しない結果となる。例えば、チームがチャンピオンシップゲームでゲームのウィニングポイントを得点したゲームアクションに対して一般的なクラウドノイズを使用すると、イベントは現実的に見えなくなる場合があり、チャンピオンシップゲームに参加している生の観客がいるのならば聞こえるであろうものの真の表現ではない場合がある。
【0032】
いくつかの実施形態では、クラウドサービス116は、メディアイベントを複数の視聴者102a~102nに提示するように構成される。一例では、クラウドサービス116は、テレビネットワークによって提供されるメディアイベントのテレビ放送を見るために使用できるPlayStation Networkなどのメディアエンターテインメントのサービスプロバイダであってよい。一実施形態では、クラウドサービス116は、ネットワーク105を介して複数の視聴者102a~102nに接続される。いくつかの実施形態では、クラウドサービス116は、視聴者102が選択したメディアイベントまたはビデオゲームを維持及び実行するように構成される。一実施形態では、クラウドサービス116は、メディアイベントを見ている視聴者102から入力を受信するように構成される。例えば、一実施形態では、視聴者102はメディアイベントを見ているとき、視聴者は、メディアイベントで起きていることを言葉で表し、それに反応する。一実施形態では、視聴者の言葉による表現及び反応(例えば、発話)は、マイクによって取り込まれ、クラウドサービス116によって処理される。他の実施形態では、クラウドサービス116は、視聴者の顔の表情のビデオ録画、キーボードもしくはデバイスを介して視聴者によって提供されるテキストメッセージ、またはメニューを介して視聴者が選択可能であるフレーズ及び詠唱などの入力を受信するように構成される。例えば、視聴者のデバイスにメニューを提供することができる。メニューは、例えば、ディフェンス、行け、あと少しなど、視聴者が選択できる様々な励ましのフレーズまたは言葉を含み得る。一実施形態では、選択されたフレーズは、入力としてクラウドサービス116によって受信され、クラウドノイズのサウンドスケープを生成するために使用できる。
【0033】
一実施形態では、クラウドサービス116は、メディアイベントの視聴者102から音声データを取り込み、受信するように構成される。視聴者の取り込まれた発話を含む音声データは、メディアイベントに関連するクラウドノイズのためにサウンドスケープを生成するためにクラウドサービス116によって処理することができる。一実施形態では、生成されたサウンドスケープは、メディアイベントに関連する一般的なクラウドノイズの音声と、メディアイベントを見ている視聴者の反応状態の1つ以上に対応する音声とのブレンドを含み得る。いくつかの実施形態では、クラウドサービス116は、生成されたサウンドスケープを出力し、それをメディアイベントを見ている視聴者に送信するように構成される。一実施形態では、サウンドスケープは、メディアイベントの提示に関連付けられたスピーカに出力される。このようにして、メディアイベントに関連付けられた音声は、テレビネットワークが提供する一般的なクラウドノイズだけではなく、視聴者の反応状態に対応する音声を含むので、視聴者102の視聴体験は強化される。
【0034】
図1Bは、クラウドサービス116が、メディアイベントの視聴者102から取り込まれた音声データを受信し、音声データを処理して、メディアイベントに関連するクラウドノイズのためにサウンドスケープ出力124を生成する一実施形態を示す。一実施形態では、視聴者102は、ネットワークを介してクラウドサービス116に接続される場合がある。いくつかの実施形態では、視聴者102は、任意の地理的位置からメディアイベントを見ている場合がある。一例では、図2に示されるように、ライブのサッカーの試合で競っているプレーヤ110a~110nを含む表示画面108上でメディアイベントを見ている視聴者102aが示されている。視聴者102がサッカーの試合を見ているとき、マイク104a~104nは、視聴者102によって生成される声の出力106(例えば、音声データ)、または視聴者102が位置する環境からの音を取り込むように構成される。いくつかの実施形態では、マイク104は、テレビ、コントローラ、携帯電話、パーソナルコンピュータ、ラップトップ、スマートスピーカなどの視聴者のデバイス、または視聴者の環境に存在する可能性がある任意の他のデバイスと統合され得る。
【0035】
例えば、視聴者102がサッカーの試合を見ているとき、視聴者102は、サッカーの試合で起こっていることにコメントし、応援し、大声を出し、叫び、反応し得る。サッカーの試合を見ている間に視聴者102によって行われる発話(例えば、話された言葉、発言、声色など)は、マイク104によって取り込まれ、サッカーの試合に関連するクラウドノイズのサウンドスケープを生成するためにクラウドサービス116によって処理することができる。図1Bにさらに示されるように、サウンドスケープは、視聴者102に対するメディアイベントの提示に関連付けられた1つ以上のスピーカ112に出力される。他の実施形態では、スピーカ112は、メディアイベントを提示しているデバイスに統合される場合もあれば、サウンドスケープを視聴者に配信するように構成されたサラウンドサウンドスピーカシステムの一部である場合もある。別の実施形態では、カメラ114は、視聴者がメディアイベントを見ているときに視聴者の顔の表情を取り込むために使用できる。一実施形態では、視聴者の顔の表情は、メディアイベントを見ている間の視聴者の気分及び感情を決定するために、分析及び処理することができる。
【0036】
いくつかの実施形態では、表示画面108上にメディアイベントを表示することに加えて、クラウドサービス116は、表示画面108上での表示のために騒音計(図示せず)を生成するように構成される。いくつかの実施形態では、騒音計は、視聴者を盛り上げ、視聴者がより多くのノイズを出し、より言葉で表すように促すために使用できる。例えば、騒音計は、メディアイベントとともに表示画面108に表示することができる。騒音計は、メディアイベントを見ている視聴者のすべてからどれほど多くのノイズが取り込まれているのかの表示を視聴者に提供することができる。システムが、処理のためにより多くの音声データを必要とすると判断すると、騒音計は、例えば、より大きな声で応援する、怒鳴る、叫ぶなど、より多くのノイズを生成し、より言葉で表すように視聴者に促すための指示を視聴者に提供し得る。
【0037】
図1Bにさらに示されるように、クラウドサービス116は、視聴者がメディアイベントを見るときに視聴者の発話(例えば、音声データ)を受信するように構成される。一実施形態では、クラウドサービス116は、音声データプロセッサ118と、音声データ機械学習プロセッサ120と、視聴者102のスピーカ112への出力のためにサウンドスケープ出力124を受信し、処理し、生成するように構成されたクラウドシミュレータ122とを含む。
【0038】
一実施形態では、音声データプロセッサ118は、視聴者の発話を識別するための処理のために、視聴者の音声データを受信するように構成される。上述のように、視聴者の発話は、話された言葉、発言、視聴者によって表現される声色の任意の組み合わせであってよい。他の実施形態では、音声データプロセッサ118は、視聴者の各発話に関連付けられた音響強度を識別するように構成される。いくつかの実施形態では、各発話は、対応する音響強度レベル、感情、ムード、または発話に関連付けられた任意の他の発話の特徴を有し得る。音響強度レベルは、人間が知覚する音の大きさに関連付けられる。例えば、視聴者は、チャンピオンシップゲームのサッカーの試合を含むメディアイベントを見ている。視聴者が応援しているチームがゲームのウィニングゴールを得点すると、視聴者は「そうだ!勝ったぞ!」と言葉で表し、これは、ユーザーの言葉による表現に関連付けられた音響強度レベルを識別するために音声データプロセッサ118によって処理される。いくつかの実施形態では、視聴者の発話に関連付けられた音響強度レベルは、メディアイベントで起こっていることの状況、及び視聴者が表す言葉の意味に基づく場合がある。
【0039】
音声データプロセッサ118が視聴者102の発話を識別するために音声データを処理した後、音声データ機械学習プロセッサ120は、音声データプロセッサ118からの出力を処理するように構成される。一実施形態では、音声データ機械学習プロセッサは、発話に関連付けられた特徴を識別するように構成された特徴抽出動作と、1つ以上の分類器を使用して特徴を分類するように構成された分類器動作とを含み得る。いくつかの実施形態では、音声データ機械学習プロセッサ120は反応モデルを含み、反応モデルは分類された特徴を受信するように構成される。一実施形態では、反応モデルは、視聴者の反応状態を識別するために使用できる。
【0040】
いくつかの実施形態では、クラウドシミュレータ122は、メディアイベントに関連するクラウドノイズのためにサウンドスケープを生成するように構成される。一実施形態では、視聴者の反応状態を識別するために反応モデルを使用し、クラウドシミュレータ122は、メディアイベントに関連する一般的なノイズの音声と視聴者の1つ以上の反応状態に対応する音声とを融合させるように構成される。サウンドスケープ出力124を生成した後、メディアイベントを見ている間にサウンドスケープ出力124を視聴者102に送信できる。一実施形態では、サウンドスケープ出力124は、視聴者102に対するメディアイベントの提示に関連付けられた1つ以上のスピーカ112に配信される。このようにして、サウンドスケープは、一般的なクラウドノイズと、視聴者の反応状態に対応する音声の両方を含み、これによって視聴者の視聴体験は強化され得る。
【0041】
いくつかの実施形態では、音声データプロセッサ118の動作及び音声データ機械学習プロセッサ120の動作は、視聴者のモバイルデバイス、またはパーソナルコンピュータ、ラップトップ、タブレットコンピュータ、テレビなどの任意の他のデバイスにとってローカルであってよい。一実施形態では、視聴者の音声データは、視聴者の反応状態を識別するために視聴者のデバイス上でローカルに処理されるので、待ち時間を最小限に抑えることができ、これにより視聴者がサウンドスケープ出力124を受信する際の遅延を防ぐことができる。他の実施形態では、音声データの処理、及び視聴者のデバイス上で視聴者の反応状態をローカルに識別することは、視聴者の音声データがデバイスでローカルに処理され、通信チャネルを介して送信されないため、データのプライバシーを促進するのに役立ち得る。また、いくつかの実施形態では、視聴者の反応状態のみがネットワークを介してクラウドサービス116に送信されるので、これにより、ネットワークを介して音声データを送信することに関連するコストを削減し得る。
【0042】
音声データ機械学習プロセッサ120の動作が視聴者の反応状態を識別した後、視聴者反応状態は、クラウドシミュレータ122による処理のためにクラウドサービス116によって受信される。例えば、NFLフットボールゲームを見ている視聴者102は、クォーターバックがボールを転がしてしまったことに応えて、「このバカ!」と大声で叫ぶ。声の出力(例えば、このバカ!)は、マイク104によって取り込まれ、視聴者のデバイスでローカルに処理される。ローカルデバイスは、埋め込み音声データプロセッサ118動作と、声の出力(例えば、このバカ!)に対応する反応状態を識別するように構成された音声データ機械学習プロセッサ120とを含み得る。反応状態が識別され、例えば、感情状態、怒り、スコア7など対応するスコアが反応状態に対して生成されると、反応状態及び対応するスコアは、クラウドシミュレータ122によるさらなる処理のためにクラウドサービス116によって受信される。
【0043】
図2Aは、メディアイベントの視聴者102の声の出力(例えば、音声データ)に関連付けられた様々な音声信号波形を示す例示的な図である。図に示されるように、視聴者に関連付けられたそれぞれの声の出力は、例えば、t1~tnなどの期間にわたって音声信号波形204a~204nによって表される。メディアイベントを視聴している間、各視聴者102は、メディアイベントで起こっている様々なアクションに言葉でコメントし、応援し、反応し得る。いくつかの実施形態では、各音声信号波形は、異なる振幅、周波数、及び大きさを有する場合がある。
【0044】
例えば、音声信号波形204bは、視聴者102の声の出力に関連付けられる。音声信号波形204bは、波形が一定(例えば、期間にわたって最小の変化)であることを示し、これは、視聴者102bが言葉による表現を行っていないこと、または視聴者102bが静かにささやいていることを示す場合がある。別の例では、視聴者102aの声の出力に関連付けられた音声信号波形204aは、音声信号波形204aが経時的に変動していることを示す。視聴者の声の出力に関連付けられた音声信号波形は、視聴者が言葉による表現を行っていない休止期間を有する複数の発話を含む場合がある。例えば、期間t1~t2で、視聴者102aは、フレーズ「ディフェンス、ディフェンス」と言葉にしている場合がある。期間t3~t4で、視聴者102aは、フレーズ「そいつをブロックしろ」と言葉にしている場合がある。期間t5~tnで、視聴者102aは、フレーズ「そうだ、いいぞ」と言葉にしている場合がある。逆に、期間t2~t3及びt4~t5で、視聴者102aは無言である場合があり、視聴者のマイクは視聴者の背景のノイズを取り込んでいるだけである。したがって、視聴者102の各声の出力は受信され、反応モデルを構築するための処理のために視聴者の発話及び沈黙の期間を識別するためにクラウドサービス116によって調べられる。
【0045】
図2Bは、メディアイベントを視聴している間の視聴者102aの声の出力(例えば、音声データ)に対応する音声信号波形204aを示す例示的な図である。一実施形態では、視聴者102aの声の出力は、クラウドサービス116の音声データプロセッサ118によって受信及び処理される。いくつかの実施形態では、音声データプロセッサ118は、視聴者の発話を識別するように構成される。例えば、図2Bに示されるように、期間t0~tnにわたって、発話202a~202nが音声データプロセッサ118によって識別される。上述のように、発話は、メディアイベントを見て いる間の視聴者102が行う話された言葉、発言、声色などである場合がある。示されるように、発話202aは期間t1~t2の間で起こり、発話202bは期間t3~t2の間で起こり、発話202nは期間t5~tnの間で起こった。例えば、t2~t3及びt4~t5など、発話が識別されていない期間の間では、視聴者102aは無言であり、メディアイベントに言葉で反応していない。
【0046】
いくつかの実施形態では、各発話202a~202nは、異なるタイムスライスに分割され得る。例えば、発話202aは、40の別々のタイムスライスに分割され得る。一実施形態では、異なる別々のタイムスライスのそれぞれは異なる反応状態を有し得る。例えば、アメリカンフットボールゲームのメディアイベントを見ている間、発話202aは言葉による反応「そうだ!ダメだ!」に関連付けられ得る。視聴者102の言葉による反応は、視聴者102が応援しているプレーヤがボールをインターセプトしたが、すぐにボールを落とすフットボールゲーム中のゲームアクションに反応する場合がある。したがって、視聴者の言葉による反応及び例えば、そうだ!、ダメだ!などの発話は、異なる感情反応状態の混成物を含む場合がある。したがって、発話202aは、例えば、そうだ!、ダメだ!などの両方の言葉による反応を含み得、発話202aは異なる反応状態を有する場合がある。一例では、言葉による反応「そうだ!」は、興奮、幸福、驚愕などの感情タイプを含む反応状態に対応する場合がある。一方、言葉による反応「ダメだ!」は、種類、怒り、悲しみ、嫌悪感、恐怖などの感情を含む反応状態に対応する場合がある。
【0047】
図3は、視聴者102の視聴者反応状態308を識別するために使用される反応モデル306を構築するための処理のために視聴者102の発話202を受信する音声データ機械学習プロセッサ120の一実施形態を示す。図3に示されるように、視聴者102の発話202がシステムによって識別された後、音声データ機械学習プロセッサ120は、入力として発話を受信し得る。一実施形態では、音声データ機械学習プロセッサ120は、発話202から特徴を抽出及び識別するように構成された発話特徴抽出302動作を含み得る。特徴が発話特徴抽出302動作によって識別された後、発話分類器304動作は、視聴者の発話に関連付けられた抽出された特徴を分類するように構成される。いくつかの実施形態では、特徴は、反応モデル306によってさらに絞り込むための分類アルゴリズムを使用してラベル付けされる。
【0048】
いくつかの実施形態では、反応モデル306は、発話分類器304動作から分類された特徴を入力として受信するように構成することができる。分類された特徴を入力として使用すると、反応モデル306は、クラウドノイズのためにサウンドスケープを生成するために使用できる視聴者102の反応状態を識別するために使用できる。いくつかの実施形態では、視聴者102の反応状態は、喜び、悲しみ、恐れ、怒り、驚き、嫌悪感、軽蔑、パニックなどの視聴者の発話に対応する様々な情動特性及び感情タイプを含み得る。例えば、視聴者は、視聴者が応援しているチームがゲームの残りが90秒の状態で1点ビハインドであるサッカーの試合を含むメディアイベントを見ている場合がある。視聴者がフレーズ「行け、チーム」を言葉で表すとき、視聴者のチームは試合に負ける瀬戸際であるため「恐れ」の感情タイプを含む、明示されたフレーズに対応する反応状態を識別するために反応モデル306を使用することができる。したがって、一実施形態では、反応モデル306は、視聴者102の反応状態を識別するとき、メディアイベントの状況(例えば、視聴者がどのチームを応援しているのか、視聴者のお気に入りのプレーヤ、ゲームアクション、得点されたポイントなど)を考慮に入れ得る。
【0049】
いくつかの実施形態では、反応モデル306は、最初に、視聴者102に類似した他の視聴者のグローバル特徴を使用して訓練できるグローバルモデルに基づく場合がある。経時的に、視聴者102の発話202に基づいて、反応モデル306は、視聴者の反応状態を理解するように訓練される。したがって、反応モデル306は、経時的に構築され、視聴者102により固有になる。反応モデル306がより多くのデータセットを受信すると、反応モデル306は改善され、予測された視聴者反応状態308の精度は向上し、視聴者102にとってより有効かつ適用可能になる。
【0050】
一実施形態では、反応モデル306は、機械学習モデルを使用して、視聴者102の発話202に対してスコアを生成するように構成される。いくつかの実施形態では、各発話202a~202nは、異なるタイムスライスにセグメント化され、様々な感情状態を有する感情プロファイルを含み得る。例えば、視聴者の発話202のセグメントは、幸福、悲しみ、怒り、及び失望などの様々な感情状態を含む感情プロファイルを有する場合がある。特定のセグメントについて、反応モデル306は、0~10の範囲となる場合がある各感情状態のスコアを提供し得る。感情状態の「10」の値は、対応する感情が、最大値である強度を有することを示す場合がある。逆に、感情状態の「0」の値は、対応する感情が有意ではない強度を有することを示す場合がある。例えば、視聴者の発話202のセグメントは、視聴者が、視聴者のお気に入りのプレーヤが野球のゲームでゲームに勝利するホームランを打ってホームインしたときに言葉「そうだ!」を言葉で表すことに対応する場合がある。視聴者のお気に入りのプレーヤがゲームに勝利するホームランを打ったので、反応モデル306は、「幸福」に相当する感情状態に「10」の値を割り当て得る。逆に、「悲しみ」に対応する感情状態の場合、視聴者が悲しんでいることの表示を示さないので、反応モデル306は「0」の値を割り当て得る。したがって、各発話202及び発話のセグメントのそれぞれは、サウンドスケープを生成するために使用できるスコアを与えられ得る。
【0051】
いくつかの実施形態では、視聴者反応状態308は、メディアイベントに反応している間の視聴者の発話に関連付けられた1つ以上の感情状態を含み得る。一実施形態では、1つ以上の感情状態は、反応モデル306によって採点(スコア化)することができる。いくつかの実施形態では、反応モデル306は、0~10の範囲となる場合がある各感情状態にスコアを提供し得る。感情状態の「10」の値は、対応する感情が最大値である強度を有することを示す場合がある。逆に、感情状態の値「0」は、対応する感情が、有意ではない強度を有することを示す場合がある。例えば、メディアイベントを視聴している間、ある特定の期間、視聴者102は、怒り、興奮、及び悲しみなどの感情状態を含む反応状態を有する場合があり、対応する強度値はそれぞれ「1」、「8」、及び「2」である。いくつかの実施形態では、視聴者反応状態308は、視聴者が視聴しているメディアイベントに関連するクラウドノイズのためにサウンドスケープを生成するために使用できる。一実施形態では、感情状態に関連付けられたスコアは、ノイズデータベースから対応する音声を選択するために使用できる。
【0052】
図4は、メディアイベントに関連するクラウドノイズのためのサウンドスケープ出力124を生成するための処理のために視聴者反応状態308a~308nを受信するクラウドシミュレータ122の一実施形態を示す。図4に示されるように、システムは、音声データ機械学習プロセッサ120によって識別された視聴者反応状態308a~308nを受信するように構成されたクラウドシミュレータ122を含む。一実施形態では、複数の視聴者102がメディアイベントを視聴すると、各視聴者102が生成する声の出力106(例えば、音声データ)が取り込まれ、処理されて、視聴者のそれぞれの声の出力に対応する視聴者反応状態308a~308nを識別する。上述のように、各視聴者の視聴者反応状態は、喜び、悲しみ、恐れ、怒り、嫌悪感、軽蔑、パニックなどの視聴者の発話に対応する様々な情動特性及び情動状態を含み得る。各視聴者がメディアイベントを見るとき、各視聴者は、視聴しているコンテンツに対して異なる視点及び意見をもつ場合があるので、各視聴者は異なる反応状態を有する場合がある。
【0053】
図4にさらに示されるように、一実施形態では、クラウドシミュレータ122は、各視聴者の視聴者反応状態を処理及び合成するように構成された反応合成402動作を含む。反応合成402動作が各ユーザーの様々な反応状態を合成した後、反応成分混合器404動作がサウンドスケープ出力124を生成するように構成される。反応成分混合器404によって生成されたサウンドスケープ出力124を使用して、システムは視聴者102a~102nのそれぞれに、視聴者が見ているメディアイベントに関連するクラウドノイズのためのサウンドスケープを提供し得る。いくつかの実施形態では、サウンドスケープは、視聴者ごとに、視聴者の好みに基づいてカスタマイズすることができる。
【0054】
一実施形態では、視聴者反応状態308が音声データ機械学習プロセッサ120によって識別されると、反応合成402動作は、各視聴者に関連付けられた視聴者反応状態308a~308bを入力として受信するように構成される。各視聴者は、異なる反応状態の様々なフレーズを言葉で明示する場合があるので、一実施形態では、反応合成402動作は、反応成分混合器404動作によるさらなる処理のために各視聴者に関連付けられた様々な視聴者反応状態308a~308bを組み合わせるように構成される。
【0055】
一実施形態では、反応成分混合器404は、クラウドノイズのためにサウンドスケープ出力124を生成するように構成される。いくつかの実施形態では、反応成分混合器404は、一般的なクラウドノイズ406の音声と視聴者102の1つ以上の視聴者反応状態308a~308nに対応する音声とを融合させて、クラウドノイズのためにサウンドスケープ出力124を生成するように構成される。一般的なクラウドノイズ406と融合される音声は、ノイズデータベース408からアクセスされ得、視聴者から検出された音、声、発話、及び感情のタイプを表すであろう。いくつかの実施形態では、一般的なクラウドノイズ406の音声は、スポーツイベントなどのメディアイベントの間に観客の音をシミュレートする、事前に録音された人工的なクラウドノイズ及びサウンドエフェクトを含むライブラリであってよい。例えば、一般的なクラウドノイズ406は、観客が手をたたく、喝采する、詠唱する、応援する、怒鳴る、笑う、うめくなどの音を含む様々な音声ファイルを含み得る。いくつかの実施形態では、一般的なクラウドノイズ406は、対応するメディアイベントとともに含まれ、メディアイベントをホストしているテレビネットワークによって生成され得る。例えば、NBCTMが、NBAバスケットボールゲームを放映している場合がある。メディアイベント(例えば、NBAバスケットボールゲーム)は、バスケットボールのゲーム中の生の観客の音をシミュレートするためにNBCTMによって生成される一般的なクラウドノイズを含み得る。
【0056】
いくつかの実施形態では、一般的なクラウドノイズ406と融合される音声は、ノイズデータベース408からアクセスできる。一般的なクラウドノイズ406と融合される音声は、視聴者または視聴者の特定のグループの取り込まれた声、発話、反応、及び/または感情に対応するシミュレートされたノイズを含み得る。一実施形態では、ノイズデータベース408が、視聴者の視聴者反応状態308a~308nに対応する事前に録音された音声ファイルを含み得る。他の実施形態では、ノイズデータベース408は、特定のタイプのイベントに関連する数百または数千の音を有し得、システムは、(次に一般的なクラウドノイズ406と融合される)視聴者反応状態308a~308nに対応する音声を生成するためにデータベースからそれらの音または音声ファイルの組み合わせを選択する。
【0057】
視聴者反応状態308a~308nを含む反応合成402動作の出力を使用して、反応成分混合器404は、ノイズデータベース408から音声を識別し、音声を対応する視聴者反応状態と相関させて、全体的な観客反応のサウンドスケープを構築するように構成される。例えば、一実施形態では、視聴者の視聴者反応状態308a~308nに対応する音声は、視聴者102の実際の発話ではなく、代わりに、視聴者の視聴者反応状態308a~308nに対応する音声は、視聴者102の実際の発話に類似する、匹敵する、模倣する、または近似する音声である。他の実施形態では、ノイズデータベース408の音声は、対応する感情状態でタグ付けされ得る。一実施形態では、感情スコアは、1~10の範囲となる場合があり、音声に関連付けられた強度を示し得る。一実施形態では、ノイズデータベース408内の音声の感情スコアは、視聴者反応状態に対応する適切な音声を選択するために使用できる。
【0058】
例えば、バスケットボールのゲームを見ている間、視聴者は、プレーヤがフィールドゴールしようとして失敗したことに応えて、フレーズ「くず」などの下品な用語を明示する場合がある。フレーズ「くず」に対応する視聴者反応状態は、ユーザーが「失望」していることを示す場合があり、プレーヤがバスケットボールゲームでリードを奪うことができたであろうために、対応するスコアは「7」の値となる場合がある。したがって、サウンドスケープ出力124を生成するためにフレーズ「くず」を使用する代わりに、反応成分混合器404はノイズデータベース408を使用して、くそ、ばかな、やだな、ごみなどの視聴者が「失望している」視聴者反応状態に対応する音声を選択し得る。一実施形態では、視聴者反応は「7」のスコア値を有するので、視聴者反応状態に対応する音声を選択するとき、反応成分混合器404は、約「7」のスコア値を有する音声をノイズデータベース408から選択し得る。他の実施形態では、反応成分混合器404は、視聴者の実際の発話を使用して、一般的なクラウドノイズの音声と融合してクラウドノイズのためにサウンドスケープ出力410を生成するように構成される。
【0059】
いくつかの実施形態では、反応成分混合器404は、反応合成402から集約された視聴者反応状態308a~308n、一般的なクラウドノイズ406の音声、及びノイズデータベース408からの音声を入力として使用して、メディアイベントの特定の時間セグメントごとに、クラウドノイズのために正確なサウンドスケープを統計的に分配及び構築するように構成される。例えば、合計100,000人の視聴者が、視聴者の65%がホームチームのファンであり、視聴者の35%がアウェイチームのファンであるNFLフットボールゲームのメディアイベントを見ている場合がある。ホームチームがタッチダウンで得点すると、複数の視聴者から取り込まれた音声データに基づいて、システムは、視聴者の50%が「興奮している」の感情状態で反応しており、視聴者の15%が「安堵」の感情状態で反応しており、視聴者の25%が「失望」の感情状態で反応しており、視聴者の10%が「怒り」の感情状態で反応していると判断し得る。視聴者102の様々な視聴者反応状態は、一般的なクラウドノイズ406からの対応する音声、及びノイズデータベース408からの対応する音声を選択して、融合させて、観客の反応のためのサウンドスケープを構築するために反応成分混合器404によって使用することができる。したがって、生成されたサウンドスケープ出力124は、クラウドノイズの現実的かつ正確な表現を生じさせる、メディアコンテンツを視聴している視聴者の感情状態の分布を考慮に入れる。このようにして、サウンドスケープ出力124がメディアイベントの視聴者102に提供されると、サウンドスケープは、スタジアムで参加している数多くの観客がメディアイベントで起きていることに反応している現実的な体験を視聴者に提供する。
【0060】
いくつかの実施形態では、サウンドスケープ出力124は、メディアイベントが起きているスタジアム会場の三次元空間のどこかに音源を出現させるために、三次元(3D)音声エフェクトを含み得る。例えば、視聴者に提供されるサウンドスケープ出力124は、視聴者が、フィールドに近接する位置またはスタジアム会場の上部デッキに向かう位置などスタジアム会場の特定の部分に座っているように見えるようにカスタマイズすることができる。別の例では、視聴者に提供されるサウンドスケープ出力124は、あたかも視聴者が、同じチームを応援している他のファンの近くにあるスタジアム会場の部分に座っているかのように見えるようにカスタマイズすることができる。別の実施形態では、サウンドスケープ出力124は、視聴者の左スピーカに分配されるホームチームを応援しているファンのクラウドノイズ、及び視聴者の右スピーカに分配されるアウェイチームを応援しているファンのクラウドノイズを含み得る。
【0061】
いくつかの実施形態では、クラウドシミュレータ122は、視聴者反応状態308a~308nを使用してメディアイベントを拡張するように構成される。一実施形態では、メディアイベントは、メディアイベントの視聴者102を表現するアバターで拡張され得る。例えば、ホームチームを応援しているスポーツイベントを見ている視聴者は、審判がホームチームに反対の間違った判定を行ったために、「怒り」の感情状態を含む視聴者反応状態を有し得る。クラウドシミュレータ122は、例えば、握りしめたこぶし、歯ぎしり、攻撃的な姿勢など、「怒り」の感情を表す視聴者を表現するためにアバターを生成し得る。逆に、アウェイチームを応援しているスポーツイベントを見ている視聴者は、審判がアウェイチームにとって有利な判定を行ったため、「幸福」の感情状態を有する場合がある。クラウドシミュレータ122は、例えば笑う、応援する、他のファンにハイタッチをするなど、「幸福」の感情を表す視聴者を表現するアバターを生成し得る。
【0062】
図5は、視聴者102の視聴者反応状態308を識別するための反応モデル306を構築するために視聴者102の発話202を処理するように構成されたクラウドサービス116の一実施形態を示す。図5に示されるように、発話特徴抽出302動作は、発話202から特徴を抽出及び識別して、反応特徴マトリクス504を生成するように構成される。一実施形態では、視聴者の発話202は、異なるタイムスライス502a~502nに分割及びセグメント化され得る。例えば、発話202aは、40の別々のタイムスライスに分割され得る。一実施形態では、様々な別々のタイムスライス502a~502nのそれぞれは、特定の期間中に発生する場合がある異なる反応状態を有し得る。いくつかの実施形態では、反応特徴マトリクス504は、発話202のタイムスライス502a~502nに対応する複数の感情プロファイル506a~506nを含み得る。一実施形態では、各感情プロファイル506は、様々な感情状態を含み得る。例えば、図5に示されるように、感情プロファイル506aは、幸せ、悲しい、怒っている、嫌悪感、驚いている、興奮しているなどの感情状態を含むタイムスライス502aに対応する。
【0063】
特徴が発話特徴抽出302動作によって識別され、反応特徴マトリクス504が生成された後、発話分類器304動作は、視聴者の発話に関連付けられた、抽出された特徴を分類するように構成される。いくつかの実施形態では、特徴は、反応モデル306によってさらに絞り込むための分類アルゴリズムを使用してラベル付けされる。
【0064】
いくつかの実施形態では、反応モデル306は、発話分類器304動作から分類された特徴を入力として受信するように構成することができる。この入力を使用すると、反応モデル306は、視聴者クラウドノイズのためにサウンドスケープを生成するために使用できる視聴者102の反応状態308を識別するために使用できる。上述のように、視聴者反応状態308は、喜び、悲しみ、恐れ、怒り、驚き、嫌悪感、軽蔑、パニックなどの視聴者の発話に対応する様々な情動特性を含み得る。ある期間にわたって、視聴者反応状態は変化し、メディアイベントの状況に左右される場合がある。一例では、図5に示されるように、期間t2~t3で、視聴者の発話に対応する情動特性は、「興奮」の感情状態を含む場合がある。別の例では、期間t2~t3で、視聴者の発話に対応する情動特性は、「興奮している」及び「怒っている」などの異なる感情状態の組み合わせを含み得る。さらに別の例では、視聴者の発話に対応する情動特性は、「怒っている」、「幸せである」、及び「悲しい」などの異なる感情の混成物を含み得る。したがって、メディアイベントの状況は連続的に変化し、それによって視聴者は異なる感情応答を有する場合があるため、視聴者反応状態308は、1つ以上の感情状態を有する場合がある。
【0065】
いくつかの実施形態では、反応モデル306は、視聴者102に関連付けられたプロファイルを入力として受信するように構成され得る。視聴者プロファイルは、視聴者のお気に入りのチーム、プレーヤ、興味、好み、好きなもの、嫌いなもの、年齢、性別などの視聴者に関連付けられた様々な属性を含み得る。一実施形態では、反応モデル306は、視聴者の発話に関連付けられた視聴者反応状態308を識別するための視聴者のプロファイル及び発話を使用するように構成される。直接入力ではない、または入力/フィードバックの欠如である他の入力はまた、視聴者反応状態308を識別するための反応モデル306への入力として解釈されてもよい。
【0066】
他の実施形態では、クラウドサービス116は、視聴者のカメラ114によって取り込まれた顔取り込みデータを処理するように構成される。一実施形態では、顔取り込みデータは、メディアイベントを言葉で表し、メディアイベントに反応するとき、視聴者の顔の表情に関連付けられた感情を決定するためにクラウドサービス116によって処理できる。これらの感情は、制限なく、恐れ、悲しみ、幸福、怒りなどを含む場合がある。一実施形態では、顔取り込みデータは、視聴者の顔の表情に関連付けられた特徴を識別するために特徴処理動作によって処理することができる。特徴が識別されると、分類器動作は、視聴者反応状態308を識別するための反応モデル306を構築するために入力として使用できる特徴を分類するように構成される。
【0067】
図6は、出力されたサウンドスケープ410に関連付けられた様々な音声信号波形を示す例示的な図である。示されるように、出力されたサウンドスケープ124は、例えばクラウドノイズ410及びノイズデータベース408など、視聴者反応状態に対応する音声と融合された一般的なクラウドノイズの音声を含む。
【0068】
図7は、視聴者の好みに基づいて出力された視聴者によってカスタマイズされたサウンドスケープを示す例示的な図である。示されるように、表702は、ある特定の時点706でのメディアイベントの各視聴者のための視聴者識別704及びカスタマイズされたサウンドスケープ出力708を含む。一実施形態では、カスタマイズされたサウンドスケープ出力708は、一般的なクラウドノイズ406及び視聴者反応状態120に対応する音声の組み合わせである場合がある。いくつかの実施形態では、表は、視聴者が、視聴者の個人的な好みに基づいて出力されたサウンドスケープに対してさらなるカスタマイズを行うことを可能にできる視聴者個人設定710を含み得る。
【0069】
図7に示されるように、各視聴者102は、自分の対応するサウンドスケープ出力をどのように分配させたいのかをカスタマイズすることができる。例えば、示されるように、視聴者1の場合、時間tnで、カスタマイズされたサウンドスケープ出力708は、25%の一般的なクラウドノイズ、20%の幸せ、10%の怒り、10%の悲しさ、10%のストレス、及び25%の興奮を含む。視聴者1の視聴者個人設定710はまた、視聴者がホームチームを応援していること、及び視聴者が、「1」の値に対応する特徴に対応する音声設定値を選択したことも示す。一実施形態では、音声設定特徴は変化し、視聴者によって選択可能である複数の異なるタイプのカスタマイズ可能な特徴を含む場合がある。
【0070】
いくつかの実施形態では、サウンドスケープ出力は、視聴者が、ホームチームのファンであるのか、それともアウェイチームのファンであるのかを指定する視聴者の選択に基づいてカスタマイズすることができる。例えば、ホームチームの選択は、サウンドスケープ出力が、アウェイチームではなくホームチームに関連付けられたクラウドノイズを強調するように、サウンドスケープ出力を調整し得る。一実施形態では、これによって、ホームチームの他のファンの近くの会場の部分に座っている視聴者の音をシミュレートすることになり得る。
【0071】
一実施形態では、音声設定特徴は、ピッチ、速度、音色、大きさなどの音声のサウンドエフェクトの特徴を調整することを含み得る。例えば、視聴者が観客の中の女性及び子供の音を強調することを好む場合、視聴者は、女性及び子供の発話を強調するために音声のピッチを調整するための選択を行うことができる。
【0072】
いくつかの実施形態では、サウンドスケープ出力は、メディアイベントでの特定のプレーヤ、チーム、またはゲームアクションに反応する観客の音を強調または強調解除するようにカスタマイズすることができる。例えば、視聴者は、スポーツイベントに参加している特定のプレーヤを、特定のプレーヤに関連付けられた否定的な反応を強調解除しながら、応援し、特定のプレーヤに対する応援を示す観客の音を強調する選択を行うことができる。
【0073】
他の実施形態では、サウンドスケープ出力は、視聴者の同じ反応、好み、及び興味と一致するクラウドノイズを強調するようにカスタマイズすることができる。一実施形態では、サウンドスケープ出力は、視聴者が、視聴者が応援し、声援を送っているチームとプレーヤに対する応援を示すクラウドノイズのみを聞くようにカスタマイズすることができる。例えば、視聴者が、メディアイベントでのアクションに応えて言葉「ナイスパス!」を言葉で表す場合、サウンドスケープ出力は、同じゲームアクションに肯定的に積極的に反応する観客の音を含み得る。
【0074】
他の実施形態では、サウンドスケープ出力は、メディアイベントを視聴する友人またはメディアイベントの他の個々の視聴者の視聴者反応を強調するようにカスタマイズすることができる。例えば、視聴者の友人がメディアイベントを見ている場合、メディアイベントの他の視聴者の反応を強調解除する一方で友人の反応を強調するようにサウンドスケープ出力をカスタマイズすることができる。一実施形態では、サウンドスケープ出力は、視聴者の友人またはメディアイベントを見ている他の特定の視聴者の実際の発話を含むようにカスタマイズすることができる。例えば、視聴者の友人がフレーズ「やったー!」を言葉で表す場合、この言葉の表現は、視聴者が友人がフレーズ「やったー!」を言葉で表すのを聞くことができるようにサウンドスケープに組み込むことができる。
【0075】
他の実施形態では、サウンドスケープ出力の大きさは、メディアイベントを生で直接見ている特定数の参加者を表現するようにカスタマイズすることができる。一例では、1000人の参加者だけがメディアイベントを生で直接見ている場合、メディアイベントを生で直接見ている100,000人の参加者の観客の音をシミュレートするように、サウンドスケープ出力の大きさを調整することができる。
【0076】
図8は、クラウドサービス116を使用して提示されるメディアイベントに関連するクラウドノイズを生成するための方法を示す。一実施形態では、方法は、メディアイベントの視聴者102から取り込まれた音声データを受信するように構成された動作802を含む。例えば、複数の視聴者102が、リモート位置からEスポーツイベントなどのメディアイベントを見ている場合がある。Eスポーツイベントで競っているプレーヤのゲームプレイを視聴している間、複数の視聴者102はゲームプレイに言葉で反応し得、これは、Eスポーツイベントでのゲームアクションに応えて、視聴者が応援する、怒鳴っている、大声を出している、話している、身振りで知らせている、笑っている、泣いている、叫んでいる、または他の発話を行っていることを含む場合がある。他の実施形態では、動作802は、複数の視聴者102から出力された声を同時に取り込むことができ、各視聴者の声の出力を区別することができる。他の実施形態では、動作802は、メニューからの選択を介してまたは視聴者のデバイスを使用したコメント及びテキストのタイプ入力を介して視聴者によって提供される、視聴者のコメントを取り込むように構成される。他の実施形態では、動作802は、視聴者がメディアイベントを見ている間にカメラによって取り込まれる顔取り込みデータを受信するように構成される。
【0077】
図8に示される方法は次に、動作が視聴者の発話を識別するために音声データを処理するように構成された動作804に流れる。いくつかの実施形態では、動作804は、ユーザーの発話202から特徴を抽出及び識別するように構成された発話特徴抽出302動作を含み得る。他の実施形態では、動作804は、視聴者の発話に関連付けられた抽出された特徴を分類するように構成された発話分類器304動作を含み得る。いくつかの実施形態では、動作804は、視聴者102の反応状態を識別するための反応モデル306を構築するために分類された特徴を使用するように構成される。
【0078】
方法は、メディアイベントに関連するクラウドノイズのためにサウンドスケープ出力124を生成するように構成された動作806に流れる。いくつかの実施形態では、動作806は、メディアイベントに関連する一般的なクラウドノイズの音声と視聴者の反応状態に対応する音声とを融合させてサウンドスケープ出力124を生成するように構成される。いくつかの実施形態では、サウンドスケープ出力124を生成した後、動作806は、メディアイベントの視聴者102にサウンドスケープ出力124を送信するように構成される。一実施形態では、サウンドスケープ出力124は、視聴者に対するメディアイベントの提示に関連付けられたスピーカに出力される。
【0079】
図9は、本開示の様々な実施形態の態様を実行するために使用することができる例示的なデバイス900の構成要素を示す。このブロック図は、本開示の実施形態を実施するのに好適なパーソナルコンピュータ、ビデオゲームコンソール、パーソナルデジタルアシスタント、サーバ、または他のデジタルデバイスを組み込むことができる、またはこれらであり得る、デバイス900を示す。デバイス900は、ソフトウェアアプリケーション及び任意選択でオペレーティングシステムを実行するための中央処理装置(CPU)902を含む。CPU902は、1つ以上の同種または異種の処理コアで構成されてよい。例えば、CPU902は、1つ以上の処理コアを有する1つ以上の汎用マイクロプロセッサである。さらなる実施形態は、クエリの解釈、文脈的に関連するリソースの識別、及び文脈的に関連するリソースのビデオゲーム内での即時実施及びレンダリングなどの処理操作を、高並列及び計算集約的なアプリケーションに特に適合したマイクロプロセッサアーキテクチャを有する1つ以上のCPUを使用して、実施することができる。デバイス900は、ゲームセグメントをプレイするプレーヤにローカライズされたもの(例えば、ゲームコンソール)、またはプレーヤからリモートであるもの(例えば、バックエンドサーバプロセッサ)、またはクライアントへのゲームプレイのリモートストリーミングのためにゲームクラウドシステムで仮想化を使用する多くのサーバの1つであってもよい。
【0080】
メモリ904は、CPU902が使用するアプリケーション及びデータを記憶する。ストレージ906は、アプリケーション及びデータ用の不揮発性ストレージ及び他のコンピュータ可読媒体を提供し、かつ、固定ディスクドライブ、取り外し可能ディスクドライブ、フラッシュメモリデバイス、及びCD-ROM、DVD-ROM、Blu-ray(登録商標)、HD-DVD、または他の光学記憶デバイス、ならびに信号伝送及び記憶媒体を含み得る。ユーザー入力デバイス908は、1人以上のユーザーからのユーザー入力をデバイス900へ通信し、その例は、キーボード、マウス、ジョイスティック、タッチパッド、タッチスクリーン、スチルレコーダ/カメラもしくはビデオレコーダ/カメラ、ジェスチャを認識する追跡デバイス、及び/またはマイクロフォンを含み得る。ネットワークインターフェース914は、デバイス900が電子通信ネットワークを介して他のコンピュータシステムと通信することを可能にし、ローカルエリアネットワーク、及びインターネットなどの広域ネットワークを介した有線または無線通信を含み得る。音声プロセッサ912は、CPU902、メモリ904、及び/またはストレージ906により提供される命令及び/またはデータから、アナログまたはデジタルの音声出力を生成するように適合される。CPU902、メモリ904、データストレージ906、ユーザー入力デバイス908、ネットワークインターフェース910、及び音声プロセッサ912を含むデバイス900の構成要素は、1つ以上のデータバス922を介して接続されている。
【0081】
グラフィックスサブシステム920は、データバス922及びデバイス900の構成要素とさらに接続されている。グラフィックスサブシステム920は、グラフィック処理装置(GPU)916とグラフィックスメモリ918とを含む。グラフィックスメモリ918は、出力画像の各画素の画素データを記憶するために使用される表示メモリ(例えばフレームバッファ)を含む。グラフィックスメモリ918は、CPU908と同じデバイスに統合する、GPU916と別個のデバイスとして接続する、及び/またはメモリ904内に実装することができる。画素データは、CPU902から直接、グラフィックスメモリ918に提供することができる。あるいは、CPU902は、所望の出力画像を定義するデータ及び/または命令をGPU916に提供し、これに基づいて、GPU916は、1つまたは複数の出力画像の画素データを生成する。所望の出力画像を定義するデータ及び/または命令は、メモリ904及び/またはグラフィックスメモリ918に記憶することができる。ある実施形態では、GPU916は、シーンの幾何学的形状、ライティング、シェーディング、テクスチャリング、モーション、及び/またはカメラパラメータを定義する命令及びデータから、出力画像の画素データを生成する3Dレンダリング機能を含む。GPU916はさらに、シェーダプログラムを実行することができる1つ以上のプログラム可能実行ユニットを含み得る。
【0082】
グラフィックスサブシステム914は、グラフィックスメモリ918から画像の画素データを定期的に出力して、ディスプレイデバイス910に表示させる。ディスプレイデバイス910は、デバイス900からの信号に応えて、視覚情報を表示することができる、CRT、LCD、プラズマ、及びOLEDディスプレイを含む任意のデバイスであってよい。デバイス900は、ディスプレイデバイス910に、例えばアナログ信号またはデジタル信号を提供することができる。
【0083】
現在の実施形態のゲームへのアクセス提供など、広範囲な地域にわたり配信されるアクセスサービスは、多くの場合、クラウドコンピューティングを使用することに留意されたい。クラウドコンピューティングとは、動的にスケーラブルで多くの場合仮想化されたリソースがインターネットを介したサービスとして提供されるコンピューティング様式である。ユーザーは、ユーザーをサポートする「クラウド」の技術的インフラストラクチャのエキスパートである必要はない。クラウドコンピューティングは、サービスとしてのインフラストラクチャ(IaaS)、サービスとしてのプラットフォーム(PaaS)、サービスとしてのソフトウェア(SaaS)などの異なるサービスに分類することができる。クラウドコンピューティングサービスは、多くの場合、ビデオゲームなどの共通のアプリケーションを、ウェブブラウザからアクセスするオンラインで提供するが、ソフトウェア及びデータは、クラウド内のサーバに記憶される。クラウドという用語は、コンピュータネットワーク図におけるインターネットの描かれ方に基づいたインターネットの隠喩として使用され、複雑なインフラストラクチャを隠し持つことの抽象的概念である。
【0084】
ゲームサーバは、いくつかの実施形態では、ビデオゲームプレーヤのための持続的情報プラットフォームの動作を実行するために使用され得る。インターネット上でプレイされる大抵のビデオゲームは、ゲームサーバへの接続を介して動作する。通常、ゲームは、プレーヤからデータを収集し、収集したデータを他のプレーヤに配信する専用サーバアプリケーションを使用する。他の実施形態では、ビデオゲームは、分散型ゲームエンジンによって実行されてよい。これらの実施形態では、分散型ゲームエンジンは、複数の処理エンティティ(PE)上で実行されてよく、その結果、各PEは、ビデオゲームが実行される所与のゲームエンジンの機能セグメントを実行する。各処理エンティティは、ゲームエンジンからは単なる計算ノードと見なされる。ゲームエンジンは通常、機能的に多様な一連の操作を行って、ユーザーが体験する追加のサービスとともにビデオゲームアプリケーションを実行する。例えば、ゲームエンジンは、ゲームロジックを実装し、ゲーム計算、物理的過程、ジオメトリ変換、レンダリング、ライティング、シェーディング、音声、及び追加のゲーム内またはゲーム関連サービスを実行する。追加のサービスは、例えば、メッセージング、ソーシャルユーティリティ、音声通信、ゲームプレイ再生機能、ヘルプ機能などを含み得る。ゲームエンジンは、特定のサーバのハイパーバイザによって仮想化されたオペレーティングシステム上で実行されてよいが、他の実施形態では、ゲームエンジン自体が複数の処理エンティティに分散され、各エンティティはデータセンタの異なるサーバユニットに常駐してよい。
【0085】
この実施形態によると、実行のために各処理エンティティは、各ゲームエンジンセグメントのニーズに応じて、サーバユニット、仮想マシン、またはコンテナであってよい。例えば、ゲームエンジンセグメントがカメラの変換を担当する場合、比較的単純な数学演算(例えば、行列変換)を多数行うことになるので、その特定のゲームエンジンセグメントは、グラフィック処理装置(GPU)に関連付けられた仮想マシンとともにプロビジョニングされてよい。より少ないがより複雑な操作を必要とする他のゲームエンジンセグメントは、1つ以上のより高出力の中央処理装置(CPU)に関連付けられた処理エンティティとともにプロビジョニングされてよい。
【0086】
ゲームエンジンを分散することにより、ゲームエンジンは、物理サーバユニットの能力に拘束されない弾力性のある計算特性を備える。代わりに、ゲームエンジンは、必要に応じて、ビデオゲームの要求を満たすためにより多いまたは少ない計算ノードとともにプロビジョニングされる。ビデオゲーム及びビデオゲームプレーヤの観点からは、複数の計算ノードに分散されているゲームエンジンは、ゲームエンジンマネージャまたはスーパーバイザがワークロードを分散し、結果をシームレスに統合して、エンドユーザーにビデオゲーム出力構成要素を提供するので、単一の処理エンティティで実行される非分散ゲームエンジンと区別できない。
【0087】
ユーザーは、少なくともCPU、ディスプレイ、及びI/Oを含むクライアントデバイスにより遠隔サービスにアクセスする。クライアントデバイスは、PC、携帯電話、ネットブック、PDAなどであってよい。一実施形態では、ゲームサーバ上で実行するネットワークは、クライアントが使用するデバイスの種類を認識し、採用される通信方法を調整する。別の事例では、クライアントデバイスは、HTMLなどの標準的な通信方法を使用して、インターネットを介してゲームサーバ上のアプリケーションにアクセスする。
【0088】
所与のビデオゲームまたはゲームアプリケーションは、特定のプラットフォーム及び特定の関連コントローラデバイス用に開発され得ることを、理解されたい。しかしながら、本明細書に提示されるようなゲームクラウドシステムを介してこのようなゲームを利用可能にするときに、ユーザーは、異なるコントローラデバイスによってビデオゲームにアクセスすることができる。例えば、ゲームは、ゲームコンソール及びその関連したコントローラのために開発されている可能性があるが、ユーザーは、キーボード及びマウスを利用してパーソナルコンピュータからゲームのクラウドベースのバージョンにアクセスしている可能性がある。このようなシナリオにおいて、入力パラメータ構成は、ユーザーの利用可能なコントローラデバイス(この事例において、キーボード及びマウス)により生成されることが可能である入力から、ビデオゲームの実行のために許容可能である入力へのマッピングを定義することが可能である。
【0089】
別の実施例では、ユーザーは、タブレットコンピューティングデバイス、タッチスクリーンスマートフォン、または他のタッチスクリーン駆動デバイスを介して、クラウドゲームシステムにアクセスし得る。この場合、クライアントデバイス及びコントローラデバイスは、同じデバイス内に一緒に統合され、検出されたタッチスクリーン入力/ジェスチャにより入力が提供される。このようなデバイスについて、入力パラメータ構成は、ビデオゲームについてのゲーム入力に対応する特定のタッチスクリーン入力を定義することができる。例えば、ボタン、指向性パッド、または他のタイプの入力要素は、ビデオゲームの実行中に表示またはオーバレイされて、ユーザーがゲーム入力を生成するためにタッチできるタッチスクリーン上の位置を示す可能性がある。特定の向きにおけるスワイプなどのジェスチャ、または特定のタッチモーションもゲーム入力として検出され得る。一実施形態では、タッチスクリーン上での制御操作にユーザーを慣れさせるために、例えばビデオゲームのゲームプレイを始める前に、タッチスクリーンを介してゲームプレイに入力する方法を示すチュートリアルが、ユーザーに提供できる。
【0090】
いくつかの実施形態では、クライアントデバイスは、コントローラデバイスについての接続ポイントとして機能する。すなわち、コントローラデバイスは、無線接続または有線接続を介してクライアントデバイスと通信し、コントローラデバイスからクライアントデバイスへ入力を送信する。次に、クライアントデバイスは、これらの入力を処理して、その後入力データを、ネットワーク(例えばルータなどのローカルネットワークデバイスを介してアクセスされるネットワーク)を介して、クラウドゲームサーバへ送信し得る。しかしながら、他の実施形態において、コントローラ自体は、ネットワークを介してクラウドゲームサーバへ直接に入力を通信する能力を有し、これらのような入力を最初にクライアントデバイスを通して通信する必要がなく、ネットワーク化されたデバイスであることが可能である。例えば、コントローラは、ローカルネットワークデバイス(上述のルータなど)に接続し、クラウドゲームサーバへデータを送信し、このクラウドゲームサーバからデータを受信する可能性がある。したがって、クライアントデバイスは、クラウドベースのビデオゲームからビデオ出力を受信し、それをローカルディスプレイにレンダリングすることを必要とされたままであることができながら、入力レイテンシは、コントローラがクラウドゲームサーバへネットワーク経由で直接に入力を送信することを可能にし、クライアントデバイスをバイパスすることにより減少することが可能である。
【0091】
一実施形態では、ネットワーク化されたコントローラ及びクライアントデバイスは、特定のタイプの入力をコントローラからクラウドゲームサーバへ直接的に、また他のタイプの入力をクライアントデバイスを介して送信するように構成できる。例えば、コントローラ自体は別として、任意の追加のハードウェアまたは処理に依存しない検出による入力は、クライアントデバイスを迂回して、ネットワークを介して直接コントローラからクラウドゲームサーバへ送信することができる。このような入力は、ボタン入力、ジョイスティック入力、埋め込み型動き検出入力(例えば、加速度計、磁力計、ジャイロスコープ)などを含み得る。しかしながら、追加のハードウェアを利用する、またはクライアントデバイスによる処理を必要とする入力は、クライアントデバイスによりクラウドゲームサーバへ送信できる。これらは、クラウドゲームサーバへ送信する前に、クライアントデバイスにより処理されることができるゲーム環境から捕捉されたビデオまたは音声を含むことができる。加えて、コントローラの動き検出ハードウェアからの入力は、捕捉されたビデオと併せてクライアントデバイスにより処理され、コントローラの位置及び動きを検出することができ、その後、クライアントデバイスによりクラウドゲームサーバへ通信される。様々な実施形態によるコントローラデバイスはまた、クライアントデバイスから、または直接クラウドゲームサーバから、データ(例えばフィードバックデータ)を受信し得ることを理解されたい。
【0092】
本明細書で定義される様々な実施形態は、本明細書で開示される様々な特徴を使用する特定の実施態様に組み合わされてもよい、または組み立てられ得ることを、理解されたい。したがって、提供される例は、可能な例の一部にすぎず、様々な要素を組み合わせることでより多くの実施態様を規定することが可能な様々な実施態様に制限を加えるものではない。ある例では、ある実施態様は、開示されたまたは同等の実施態様の趣旨から逸脱することなく、より少ない要素を含んでもよい。
【0093】
本開示の実施形態は、ハンドヘルドデバイス、マイクロプロセッサシステム、マイクロプロセッサベースまたはプログラマブル民生用エレクトロニクス、ミニコンピュータ、メインフレームコンピュータなどを含む種々のコンピュータシステム構成によって実施してもよい。本開示の実施形態はまた、有線ベースネットワークまたは無線ネットワークを介してリンクされる遠隔処理デバイスによりタスクが行われる分散コンピューティング環境においても、実施することができる。
【0094】
方法の操作は特定の順序で記載したが、修正されたゲーム状態を生成するためのテレメトリ及びゲーム状態データの処理が所望の方法で実行される限り、操作間に他のハウスキーピング操作が実行されてもよく、または操作がわずかに異なる時間に起こるように調整されてもよく、またはシステム内に操作を分散することで、処理に関連する様々な間隔で処理操作が起こることを可能にしてもよいことを、理解されたい。
【0095】
1つ以上の実施形態は、コンピュータ可読媒体上のコンピュータ可読コードとして作ることもできる。コンピュータ可読媒体は、データを記憶することができる任意のデータ記憶装置とすることができる。データはその後にコンピュータシステムによって読み取ることができる。コンピュータ可読媒体の例は、ハードドライブ、ネットワーク接続ストレージ(NAS)、読み出し専用メモリ、ランダムアクセスメモリ、CD-ROM、CD-R、CD-RW、磁気テープ、並びに他の光学及び非光学データストレージデバイスを含む。コンピュータ可読媒体には、コンピュータ可読コードが分散方式で記憶され実行されるように、ネットワーク接続されたコンピュータシステムにわたり分散されたコンピュータ可読有形媒体が含まれ得る。
【0096】
一実施形態では、ビデオゲームは、ゲーム機、パーソナルコンピュータ、またはサーバ上でローカルに実行される。いくつかの場合、ビデオゲームは、データセンタの1つ以上のサーバによって実行される。ビデオゲームが実行されるとき、ビデオゲームのいくつかのインスタンスは、ビデオゲームのシミュレーションであり得る。例えば、ビデオゲームは、ビデオゲームのシミュレーションを生成する環境またはサーバによって実行され得る。シミュレーションは、いくつかの実施形態では、ビデオゲームのインスタンスである。他の実施形態では、シミュレーションはエミュレータによって生成されてもよい。いずれの場合でも、ビデオゲームがシミュレーションとして表現されている場合、そのシミュレーションは、ユーザー入力によってインタラクティブにストリーミング、実行、及び/または制御できるインタラクティブコンテンツをレンダリングするために実行することができる。
【0097】
前述の実施形態は、理解を明確にするためにある程度詳細に説明されたが、添付の特許請求の範囲内で特定の変更及び修正を実施できることは明らかであろう。したがって、本実施形態は、限定ではなく例示としてみなされるべきであり、本実施形態は、本明細書に記載される詳細に限定されるべきではなく、添付の特許請求の範囲及び均等物の中で変更されてもよい。
図1A
図1B
図2A
図2B
図3
図4
図5
図6
図7
図8
図9