IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ソニー・コンピュータエンタテインメントの特許一覧

<>
  • 特許-マルチモーダルゲームビデオの要約 図1
  • 特許-マルチモーダルゲームビデオの要約 図2
  • 特許-マルチモーダルゲームビデオの要約 図3
  • 特許-マルチモーダルゲームビデオの要約 図4
  • 特許-マルチモーダルゲームビデオの要約 図5
  • 特許-マルチモーダルゲームビデオの要約 図6
  • 特許-マルチモーダルゲームビデオの要約 図7
  • 特許-マルチモーダルゲームビデオの要約 図8
  • 特許-マルチモーダルゲームビデオの要約 図9
  • 特許-マルチモーダルゲームビデオの要約 図10
  • 特許-マルチモーダルゲームビデオの要約 図11
  • 特許-マルチモーダルゲームビデオの要約 図12
  • 特許-マルチモーダルゲームビデオの要約 図13
  • 特許-マルチモーダルゲームビデオの要約 図14
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-20
(45)【発行日】2024-08-28
(54)【発明の名称】マルチモーダルゲームビデオの要約
(51)【国際特許分類】
   H04N 21/8549 20110101AFI20240821BHJP
   H04N 21/466 20110101ALI20240821BHJP
【FI】
H04N21/8549
H04N21/466
【請求項の数】 7
(21)【出願番号】P 2023514904
(86)(22)【出願日】2021-09-03
(65)【公表番号】
(43)【公表日】2023-09-25
(86)【国際出願番号】 US2021049063
(87)【国際公開番号】W WO2022051620
(87)【国際公開日】2022-03-10
【審査請求日】2023-04-27
(31)【優先権主張番号】63/074,333
(32)【優先日】2020-09-03
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】17/105,375
(32)【優先日】2020-11-25
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】310021766
【氏名又は名称】株式会社ソニー・インタラクティブエンタテインメント
(74)【代理人】
【識別番号】100105924
【弁理士】
【氏名又は名称】森下 賢樹
(72)【発明者】
【氏名】カウシィク、ラクシュミシュ
(72)【発明者】
【氏名】クマール、サケット
(72)【発明者】
【氏名】ユー、ジェクウォン
(72)【発明者】
【氏名】チャン、ケビン
(72)【発明者】
【氏名】ホラム、ソヘル
(72)【発明者】
【氏名】ラオ、シャラス
(72)【発明者】
【氏名】サンダラム、チョカリンガム ラヴィ
【審査官】醍醐 一貴
(56)【参考文献】
【文献】特開2020-121102(JP,A)
【文献】特開2008-022103(JP,A)
【文献】特表2018-520772(JP,A)
【文献】特開2017-229060(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
A63F 13/00-13/98
G06F 18/00-18/40
G06N 3/00-99/00
H04N 5/76-5/775
H04N 5/80-5/956
H04N 7/18
H04N 21/00-21/858
(57)【特許請求の範囲】
【請求項1】
装置であって、
オーディオビデオ(AV)データを受信することと、
前記AVデータのビデオサマリーを供給することであって、
機械学習(ML)エンジンに第1のモダリティデータを入力することと、
前記MLエンジンに第2のモダリティデータを入力することと、
前記第1及び前記第2のモダリティデータの入力に応答して前記MLエンジンから前記AVデータの前記ビデオサマリーを受信することであって、前記モダリティデータの少なくとも1つは前記AVデータに関連するコンピュータシミュレーションチャットテキストを含む、受信することと、
によって少なくとも部分的に前記AVデータよりも短い前記AVデータのビデオサマリーを供給することと、
を含む命令でプログラムされる少なくとも1つのプロセッサを備える、
前記装置。
【請求項2】
前記第1のモダリティデータが前記AVデータからのオーディオを含む、請求項1に記載の装置。
【請求項3】
前記第2のモダリティデータが前記AVデータからのコンピュータシミュレーションビデオを含む、請求項1に記載の装置。
【請求項4】
前記第2のモダリティデータが前記AVデータからのコンピュータシミュレーションビデオを含む、請求項2に記載の装置。
【請求項5】
前記命令が、前記MLエンジンを実行して前記第2のモダリティデータから少なくとも第1のパラメータを抽出し、前記第1のパラメータをイベント関連性検出器(ERD)に供給するように実行可能である、請求項1に記載の装置。
【請求項6】
前記命令が、前記MLエンジンを実行して前記第1のモダリティデータから少なくとも第2のパラメータを抽出し、前記第2のパラメータを前記ERDに供給するように実行可能である、請求項に記載の装置。
【請求項7】
前記命令が、前記ERDを実行して、前記第1及び前記第2のパラメータに少なくとも部分的に基づいて前記ビデオサマリーを出力するように実行可能である、請求項に記載の装置。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、概して、コンピュータシミュレーション及び他のアプリケーションでのマルチモーダルゲームビデオの要約に関する。
【背景技術】
【0002】
コンピュータシミュレーションビデオまたは他のビデオのビデオサマリーは、例えば、観戦プラットフォームまたはオンラインゲームプラットフォームのハイライトを素早く見るための簡略的なビデオを生成し、観戦体験を向上させる。本明細書で理解されるように、効果的なサマリービデオを自動的に生成することは困難であり、サマリーを手動で生成することは時間を要する。
【発明の概要】
【0003】
装置は、オーディオビデオ(AV)データを受信し、機械学習(ML)エンジンに第1のモダリティデータ及び第2のモダリティデータを入力することにより、受信したAVデータよりも少なくとも部分的に短いAVデータのビデオサマリーを供給する命令がプログラムされた少なくとも1つのプロセッサを含む。命令は、第1及び第2のモダリティデータの入力に応答してMLエンジンからAVデータのビデオサマリーを受信するように実行可能である。
【0004】
例示的な実施形態では、第1のモダリティデータはAVデータからのオーディオを含み、第2のモダリティデータはAVデータからのコンピュータシミュレーションビデオを含む。他の実施態様では、第2のモダリティデータは、AVデータに関係するコンピュータシミュレーションチャットテキストを含むことができる。
【0005】
非限定的な実施例では、命令は、MLエンジンを実行して、第2のモダリティデータから少なくとも第1のパラメータを抽出し、第1のパラメータをイベント関連性検出器(ERD)に供給するように実行可能である。これらの実施例では、命令は、MLエンジンを実行して、第1のモダリティデータから少なくとも第2のパラメータを抽出し、第2のパラメータをERDに供給するように実行可能であり得る。命令はさらに、ERDを実行して、第1及び第2のパラメータに少なくとも部分的に基づいてビデオサマリーを出力するように実行可能であり得る。
【0006】
別の態様では、方法は、コンピュータゲームのオーディオビデオストリームなどのオーディオビデオ(AV)エンティティを識別することを含む。本方法は、AVエンティティからのオーディオを使用して、エンティティのサマリーを確立するためにAVエンティティの複数の第1の候補セグメントを識別すること、同様に、AVエンティティからのビデオを使用して、エンティティのサマリーを確立するためにAVエンティティの複数の第2の候補セグメントを識別することを含む。本方法はさらに、AVエンティティに関係するチャットに関連する少なくとも1つのパラメータを識別すること、及びパラメータに少なくとも部分的に基づいて、複数の第1及び第2の候補セグメントの少なくともいくつかを選択することを含む。本方法は、複数の第1及び第2の候補セグメントの少なくともいくつかを使用して、AVエンティティよりも短い、AVエンティティのビデオサマリーを生成する。
【0007】
本方法の例示的な実施態様では、本方法は、ディスプレイにビデオサマリーを提示することを含み得る。非限定的な実施形態では、AVエンティティの複数の第2の候補セグメントを識別するためにAVエンティティからのビデオを使用することは、AVエンティティにおけるシーン変化を識別することを含む。追加または代替として、AVエンティティの複数の第2の候補セグメントを識別するためにAVエンティティからのビデオを使用することは、AVエンティティのビデオのテキストを識別することを含むことができる。
【0008】
いくつかの実施形態では、AVエンティティの複数の第1の候補セグメントを識別するためにAVエンティティからのオーディオを使用することは、オーディオの音響イベントを識別することを含むことができる。追加または代替として、AVエンティティの複数の第1の候補セグメントを識別するためにAVエンティティからのオーディオを使用することは、オーディオにおける少なくとも1つの声のピッチ及び/または振幅を識別することを含むことができる。追加または代替として、AVエンティティの複数の第1の候補セグメントを識別するためにAVエンティティからのオーディオを使用することは、オーディオの感情を識別することを含むことができる。追加または代替として、AVエンティティの複数の第1の候補セグメントを識別するためにAVエンティティからのオーディオを使用することは、オーディオの音声の言葉を識別することを含むことができる。
【0009】
例示的な実施態様では、AVエンティティに関係するチャットに関連するパラメータを識別することは、チャットの情緒を識別することを含むことができる。追加または代替として、AVエンティティに関係するチャットに関連するパラメータを識別することは、チャットの感情を識別することを含み得る。追加または代替として、AVエンティティに関係するチャットに関連するパラメータを識別することは、チャットのトピックを識別することを含むことができる。追加または代替として、AVエンティティに関係するチャットに関連するパラメータを識別することは、チャットの少なくとも1つの言葉の少なくとも1つの文法的なカテゴリを識別することを含むことができる。追加または代替として、AVエンティティに関係するチャットに関連するパラメータを識別することは、チャットのサマリーを識別することを含むことができる。
【0010】
別の態様では、アセンブリは、オーディオビデオ(AV)コンピュータゲームを提示するように構成された少なくとも1つのディスプレイ装置を含む。少なくとも1つのプロセッサは、ディスプレイ装置に関連付けられ、機械学習(ML)エンジンを実行して、コンピュータゲームよりも短い、コンピュータゲームのビデオサマリーを生成する命令で構成される。MLエンジンは、コンピュータゲームのオーディオのイベントを識別するようにトレーニングされた音響イベントMLモデル、オーディオの音声のピッチとパワーを識別するようにトレーニングされた音声ピッチ・パワーMLモデル、オーディオの感情を識別するようにトレーニングされた音声感情MLモデルを含む。MLエンジンはまた、コンピュータゲームのビデオのシーン変化を識別するようにトレーニングされたシーン変化検出器MLモデルを含む。さらに、MLエンジンは、コンピュータゲームに関係するチャットに関連するテキストの情緒を識別するようにトレーニングされたテキスト情緒検出器モデル、チャットに関連するテキストの感情を識別するようにトレーニングされたテキスト感情検出器モデル、及びチャットに関連するテキストの少なくとも1つのトピックを識別するようにトレーニングされたテキストトピック検出器モデルを含む。イベント関連性検出器(ERD)モジュールは、音響イベントMLモデル、音声ピッチ・パワーMLモデル、音声感情MLモデル、及びシーン変化検出器MLモデルから入力を受信し、コンピュータゲームの複数の候補セグメントを識別し、複数の候補セグメントのサブセットを選択して、テキスト情緒検出器モデル、テキスト感情検出器モデル、及びテキストトピック検出器モデルのうちの1つ以上からの入力に少なくとも部分的に基づいてビデオサマリーを確立するように構成される。
【0011】
本願の詳細は、その構造と動作との両方について、添付の図面を参照すると最もよく理解でき、図面において、類似の参照符号は、類似の部分を指す。
【図面の簡単な説明】
【0012】
図1】一部またはすべてがさまざまな実施形態で使用できるコンピュータコンポーネントを示す例示的なシステムのブロック図である。
図2】機械学習(ML)エンジンを使用してビデオ全体のビデオサマリーを生成することを示している。
図3】例示的なフローチャート形式で全体的なロジックを示す。
図4】マルチモーダル要約の例示的なアーキテクチャを示す。
図5】音響イベント検出のための例示的なフローチャート形式の例示的なロジックを示す。
図6】音響イベント検出のための例示的なフローチャート形式のさらなる例示的なロジックを示す。
図7】音響イベントを示す。
図8】音響入力をグラフで示す。
図9】音響入力をグラフで示す。
図10】音声特徴を出力するための例示的なMLエンジンまたは深層学習モデルを示す。
図11】感情検出を処理するための例示的なシステムのブロック図である。
図12】要約のためのゲームオーディオの処理を示す。
図13】要約のためのテキスト情緒とトピック抽出を示す。
図14】メタデータの使用の態様を示す。
【発明を実施するための形態】
【0013】
本開示は、概して、限定されることなく、コンピュータゲームネットワークなどの家電(CE)デバイスネットワークの態様を含むコンピュータエコシステムに関する。本明細書のシステムは、クライアントコンポーネントとサーバコンポーネントとの間でデータが交換され得るように、ネットワークを通じて接続され得るサーバコンポーネント及びクライアントコンポーネントを含み得る。クライアントコンポーネントは、Sony PlayStation(登録商標)などのゲームコンソールまたはMicrosoft(登録商標)もしくはNintendo(登録商標)もしくは他の製造者によって作成されたゲームコンソール、仮想現実(VR)ヘッドセット、拡張現実(AR)ヘッドセット、ポータブルテレビ(例えば、スマートテレビ、インターネット対応テレビ)、ラップトップ及びタブレットコンピュータなどのポータブルコンピュータ、ならびにスマートフォン及び以下で議論される追加の実施例を含む他のモバイルデバイスを含む、1つ以上のコンピューティングデバイスを含み得る。これらのクライアントデバイスは、様々な動作環境で動作し得る。例えば、クライアントコンピュータのいくつかは、実施例として、Linux(登録商標)オペレーティングシステム、Microsoft(登録商標)のオペレーティングシステム、またはUnix(登録商標)オペレーティングシステム、またはApple,Inc.(登録商標)もしくはGoogle(登録商標)によって制作されたオペレーティングシステムを採用し得る。これらの動作環境は、Microsoft(登録商標)もしくはGoogle(登録商標)もしくはMozilla(登録商標)によって作成されたブラウザ、または以下で議論されるインターネットサーバによってホストされるウェブサイトにアクセスできる他のブラウザプログラムなど、1つ以上の閲覧プログラムを実行するために使用され得る。また、本原理による動作環境を使用して、1つ以上のコンピュータゲームプログラムを実行し得る。
【0014】
サーバ及び/またはゲートウェイは、インターネットなどのネットワークを通じてデータを受信及び送信するようにサーバを構成する命令を実行する1つ以上のプロセッサを含み得る。あるいは、クライアント及びサーバは、ローカルイントラネットまたは仮想プライベートネットワークを通じて接続することができる。サーバまたはコントローラは、Sony PlayStation(登録商標)などのゲームコンソール、パーソナルコンピュータなどによってインスタンス化され得る。
【0015】
クライアントとサーバとの間でネットワークを通じて情報を交換し得る。この目的及びセキュリティのために、サーバ及び/またはクライアントは、ファイアウォール、ロードバランサ、テンポラリストレージ、及びプロキシ、ならびに信頼性及びセキュリティのための他のネットワークインフラストラクチャを含むことができる。1つ以上のサーバは、ネットワークメンバーにオンラインソーシャルウェブサイトなどの安全なコミュニティを提供する方法を実装する装置を形成し得る。
【0016】
プロセッサは、アドレスライン、データライン及び制御ラインなどの様々なライン、並びにレジスタ及びシフトレジスタによって論理を実行することができる、シングルチッププロセッサまたはマルチチッププロセッサであってよい。
【0017】
一実施形態に含まれるコンポーネントは、他の実施形態では、任意の適切な組み合わせで使用することができる。例えば、本明細書に記載される、及び/または図で示される様々なコンポーネントのいずれもは、組み合わされ、交換され、または他の実施形態から除外されてもよい。
【0018】
「A、B及びCのうちの少なくとも1つを有するシステム」(同様に「A、BまたはCのうちの少なくとも1つを有するシステム」及び「A、B、Cのうちの少なくとも1つを有するシステム」)は、A単独、B単独、C単独、A及びBを一緒に、A及びCを一緒に、B及びCを一緒に、ならびに/またはA、B及びCを一緒に有するシステムなどを含む。
【0019】
ここで、具体的に図1を参照すると、本原理よる、上述され、以下でさらに説明される例示的なデバイスのうちの1つ以上を含み得る例示的なシステム10が示されている。システム10に含まれる例示的なデバイスのうちの第1のデバイスは、限定されることなく、テレビチューナ(同等に、テレビを制御するセットトップボックス)を備えたインターネット対応テレビなどのオーディオビデオデバイス(AVD)12などの家電(CE)デバイスである。代替として、AVD12は、また、コンピュータ制御型インターネット対応(「スマート」)電話、タブレットコンピュータ、ノートブックコンピュータ、HMD、ウェアラブルコンピュータ制御デバイス、コンピュータ制御型インターネット対応ミュージックプレイヤ、コンピュータ制御型インターネット対応ヘッドフォン、インプラント可能な皮膚用デバイスなどのコンピュータ制御型インターネット対応インプラント可能デバイス、などであってもよい。それにも関わらず、AVD12は、本原理を実施する(例えば、本原理を実施するように他のCEデバイスと通信し、本明細書に記載される論理を実行し、本明細書に記載されるいずれかの他の機能及び/または動作を行う)ように構成されることを理解されたい。
【0020】
したがって、このような原理を実施するために、AVD12は、図1に示されているコンポーネントの一部または全てによって確立することができる。例えば、AVD12は、1つ以上のディスプレイ14を備えることができ、このディスプレイは、高解像度もしくは超高解像度「4K」またはそれ以上の解像度のフラットスクリーンによって実装されてもよく、ディスプレイのタッチを介したユーザ入力信号を受信するためにタッチ対応であってもよい。AVD12は、本原理に従ってオーディオを出力するための1つ以上のスピーカ16、及び可聴コマンドをAVD12に入力してAVD12を制御するためのオーディオ受信機/マイクロホンなどの、少なくとも1つの追加入力デバイス18を含み得る。例示的なAVD12は、また、1つ以上のプロセッサ24の制御の下、インターネット、WAN、LANなどの少なくとも1つのネットワーク22を通じて通信するための1つ以上のネットワークインタフェース20を含み得る。また、グラフィックプロセッサ24Aが含まれていてもよい。したがって、インタフェース20は、限定されることなく、Wi-Fi(登録商標)送受信機であり得て、このWi-Fi(登録商標)送受信機は、限定されることなく、メッシュネットワーク送受信機などの無線コンピュータネットワークインタフェースの実施例である。プロセッサ24は、その上に画像を提示するようにディスプレイ14を制御すること及びそこから入力を受信することなど、本明細書に記載されるAVD12の他の要素を含むAVD12が本原理を実施するように、制御することを理解されたい。さらに、ネットワークインタフェース20は、有線もしくは無線のモデムもしくはルータ、または、例えば、無線テレフォニ送受信機もしくは上述したWi-Fi(登録商標)送受信機などの他の適切なインタフェースであってよいことに留意されたい。
【0021】
上記のものに加えて、AVD12はまた、例えば、別のCEデバイスに物理的に接続する高解像度マルチメディアインタフェース(HDMI(登録商標))ポートもしくはUSBポート、及び/またはヘッドフォンを通してAVD12からユーザにオーディオを提供するためにAVD12にヘッドフォンを接続するヘッドフォンポートなどの1つ以上の入力ポート26を含んでもよい。例えば、入力ポート26は、オーディオビデオコンテンツのケーブルまたは衛星ソース26aに有線でまたは無線で接続されてもよい。したがって、ソース26aは、別個のもしくは統合されたセットトップボックス、または衛星受信機であってよい。あるいは、ソース26aは、コンテンツを含むゲームコンソールまたはディスクプレイヤであってもよい。ソース26aは、ゲームコンソールとして実装されるとき、CEデバイス44に関連して以下で説明されるコンポーネントの一部または全てを含んでよい。
【0022】
AVD12は、さらに、一時的信号ではない、ディスクベースストレージまたはソリッドステートストレージなどの1つ以上のコンピュータメモリ28を含んでもよく、これらのストレージは、場合によっては、スタンドアロンデバイスとしてAVDのシャーシ内で、またはAVプログラムを再生するためにAVDのシャーシの内部もしくは外部のいずれかでパーソナルビデオ録画デバイス(PVR)もしくはビデオディスクプレイヤとして、または取り外し可能メモリ媒体として具現化されてもよい。また、ある実施形態では、AVD12は、限定されることなく、携帯電話受信機、GPS受信機、及び/または高度計30などの位置または場所の受信機を含むことができ、位置または場所の受信機は、衛星もしくは携帯電話基地局から地理的位置情報を受信し、その情報をプロセッサ24に供給し、及び/またはAVD12がプロセッサ24と併せて配置されている高度を決定するように構成される。コンポーネント30はまた、通常、加速度計、ジャイロスコープ、及び磁力計の組み合わせを含み、AVD12の位置及び方向を3次元で決定する慣性測定ユニット(IMU)によって実装されてもよい。
【0023】
AVD12の説明を続けると、いくつかの実施形態では、AVD12は、1つ以上のカメラ32を含んでよく、1つ以上のカメラは、サーマルイメージングカメラ、ウェブカメラなどのデジタルカメラ、及び/またはAVD12に統合され、本原理に従って写真/画像及び/またはビデオを収集するようプロセッサ24によって制御可能なカメラであってよい。また、AVD12に含まれるのは、Bluetooth(登録商標)及び/または近距離無線通信(NFC)技術を各々使用して、他のデバイスと通信するためのBluetooth(登録商標)送受信機34及び他のNFC要素36であってよい。例示的なNFC素子は、無線周波数識別(RFID)素子であってもよい。
【0024】
さらにまた、AVD12は、プロセッサ24に入力を供給する1つ以上の補助センサ37(例えば、加速度計、ジャイロスコープ、サイクロメータなどの運動センサ、または磁気センサ、赤外線(IR)センサ、光学センサ、速度センサ及び/またはケイデンスセンサ、ジェスチャセンサ(例えば、ジェスチャコマンドを検知するための))を含み得る。AVD12は、プロセッサ24への入力をもたらすOTA(無線)TV放送を受信するための無線TV放送ポート38を含み得る。上記に加えて、AVD12はまた、赤外線データアソシエーション(IRDA)デバイスなどの赤外線(IR)送信機及び/またはIR受信機及び/またはIR送受信機42を含み得ることに留意されたい。電池(図示せず)は、電池を充電するために及び/またはAVD12に電力を供給するために運動エネルギーを電力に変えることができる運動エネルギーハーベスタのように、AVD12に電力を供給するために提供され得る。
【0025】
さらに図1を参照すると、AVD12に加えて、システム10は、1つ以上の他のCEデバイスタイプを含み得る。一実施例では、第1のCEデバイス44は、AVD12に直接送信されるコマンドを介して及び/または後述のサーバを通して、コンピュータゲームの音声及びビデオをAVD12に送信するために使用することができるコンピュータゲームコンソールであり得る一方で、第2のCEデバイス46は第1のCEデバイス44と同様のコンポーネントを含み得る。図示の実施例では、第2のCEデバイス46は、プレイヤによって操作されるコンピュータゲームのコントローラとして、またはプレイヤ47によって装着されるヘッドマウントディスプレイ(HMD)として構成され得る。図示の実施例では、2つのCEデバイス44、46のみが示されているが、より少ないまたはより多くのデバイスが使用されてよいことは理解されよう。本明細書のデバイスは、AVD12について示されているコンポーネントの一部またはすべてを実装し得る。次の図に示されているコンポーネントのいずれかに、AVD12の場合に示されているコンポーネントの一部またはすべてが組み込まれることがある。
【0026】
ここで、上述の少なくとも1つのサーバ50を参照すると、サーバは、少なくとも1つのサーバプロセッサ52と、ディスクベースストレージまたはソリッドステートストレージなどの少なくとも1つの有形コンピュータ可読記憶媒体54と、サーバプロセッサ52の制御下で、ネットワーク22を通じて図1の他のデバイスとの通信を可能にし、実際に、本原理に従ってサーバとクライアントデバイスとの間の通信を容易にし得る少なくとも1つのネットワークインタフェース56とを含む。ネットワークインタフェース56は、例えば、有線もしくは無線モデムもしくはルータ、Wi-Fi送受信機、または、例えば、無線テレフォニ送受信機などの他の適切なインタフェースであってよいことに留意されたい。
【0027】
したがって、いくつかの実施形態では、サーバ50は、インターネットサーバまたはサーバ「ファーム」全体であってよく、「クラウド」機能を含んでもよく、「クラウド」機能を実行してもよく、システム10のデバイスが、例えば、ネットワークゲームアプリケーションの例示的な実施形態においてサーバ50を介して「クラウド」環境にアクセスし得るようにする。あるいは、サーバ50は、図1に示されている他のデバイスと同じ部屋にある、またはその近くにある、1つ以上のゲームコンソール、または他のコンピュータによって実装されてもよい。
【0028】
図2は、本明細書に記載の任意の適切なプロセッサによって実行し得る全体的なロジックを示している。ブロック200で開始し、完全なコンピュータシミュレーションまたはコンピュータゲームの記録もしくはストリームなどのオーディオビデオ(AV)エンティティが識別され、機械学習(ML)エンジン202に入力される。MLエンジン202は、ブロック200で受信されたAVエンティティのビデオサマリーを204で出力するために、以下でさらに説明されるように、1つ以上の個別のMLモデルを含むことができ、ビデオサマリー204は、AVエンティティ200よりも短く、MLエンジン202が関心のあるハイライトとして識別したAVエンティティからの一連のセグメントを含んでいる。
【0029】
オーディオは最初にAVエンティティのビデオから取り除かれ、オーディオとビデオは(例えば、タイムスタンプを使用して)時間的に整列され、例えば、5秒または他の長さの期間であり得るセグメントでそれぞれのMLモデルによって処理されることを理解されたい。セグメントは互いに隣接しており、一緒になってAVエンティティを構成する。各MLモデルは、関心のあるセグメントの可能性を出力し、オーディオ処理かあるいはビデオ処理からの可能性が閾値を満たすセグメントはビデオサマリー204に含める候補であり、それは選択されたセグメントのオーディオ及びビデオに加えて、所望であれば、選択したセグメントの両側にあるX秒間のAVコンテンツを含む。以下でさらに議論されるように、オーディオとビデオの両方がビデオサマリーの候補セグメントを識別するために使用されるが、過剰に包含すること(したがって長すぎるビデオサマリー)を避けるために、AVエンティティに関連するチャットからのテキストを、識別されたセグメントを補強するのに使用することができる。これは基本的に、チャットからの関連テキストが他の候補セグメントよりも関心が低いことを示す候補セグメントを削除することにより、ビデオサマリーに含まれるセグメントの全長を、完全なAVエンティティの事前に定義された割合を超えないように制限する。
【0030】
MLモデルは、図3に示されているように、AVエンティティで受信される可能性のあるデータの種類に関連するデータのトレーニングセットを、そのデータに関する望ましい決定に入力することによって、トレーニングすることができる。実施例では、オンラインサービスからのゲームプレイビデオを使用し、その中のデータにエキスパートによって注釈を付け、どのデータが関心のあるイベントの優れた指標であるかをMLモデルが学習できるようにして、MLモデルがサマリー「ハイライト」のビデオへ組み込むために適したAVエンティティのセグメントを表示できるようにする。
【0031】
ブロック300で開始し、AVエンティティのそれぞれのタイプのデータを処理するための様々なMLモデルにトレーニングセットを入力するなどによって、データのトレーニングセットをMLエンジンに入力する。以下でさらに議論されるように、ブロック302で、MLエンジンは2つ以上のデータタイプモードの特徴ベクトルを組み合わせて、304でAVエンティティのビデオサマリーを出力し、その予測の有効性に注釈を付けて、MLエンジンにフィードバックしてその処理を洗練させることが可能である。
【0032】
図4は、MLモデルのアーキテクチャを示している。イベント関連性検出器(ERD)400は、音響イベント検出器402、ピッチ・パワー検出器404、及び音声感情認識器406から入力を受信する。ピッチ・パワー検出器は、オーディオにおける声のピッチと声のパワーを識別する。ERD400は、検出器402、404及び認識器406から受信した入力可能性に適用するヒューリスティック規則のセットを含むことができ、それはビデオサマリーを生成するために、1つ以上のMLモデルにより実装することができる。また、ERD400は、その入力に基づいてビデオサマリーを生成するようにトレーニングされるMLモデルを含むことができる。
【0033】
音響イベント検出器402は、AVエンティティのオーディオのセグメント内の、関心のあるコンテンツを示し、したがって、特定のセグメントがビデオサマリーに含める候補であることを示すイベントを識別するようにトレーニングされる。音響イベント検出器402は、以下でさらに説明され、「関心のある」ものとして事前に定義されたイベントのトレーニングセットに基づいて音響イベントを関心のあるものとして識別するために、畳み込みニューラルネットワーク(CNN)の1つ以上の層を含み得る。
【0034】
同様に、ピッチ・パワー検出器404は、関心のあるコンテンツを示すオーディオの音声においてピッチとパワーを識別するようにトレーニングされるMLモデルである。実施例では、より高い声のピッチがより低いピッチよりもより多くの関心を示し、また、ピッチのより広い変動がより狭い変動よりもより多くの関心を示し、そして、より大きな声がより静かな音声よりもより多くの関心を示している。ピッチの変動は、心躍る場所や関心のある出来事の発生時に大幅に変化し、これは当人の声/音声で検出することができる。したがって、音声でのパワーが強く突然の変動を伴う音の領域は、ハイライト生成の候補領域の1つとして分類することができる。
【0035】
音声感情MLモデル406は、オーディオにおける感情を識別して関心のある感情を識別するようにトレーニングされる。カテゴリ的感情検出及び次元的感情検出の一方または両方を使用し得る。カテゴリ的感情検出は、限定されることなく、幸福、悲しみ、怒り、期待、恐怖、孤独、嫉妬、及び嫌悪などの複数(例えば、10個)の異なるカテゴリの感情を検出し得る。次元的感情検出には、覚醒度と感情価という2つの変数がある。
【0036】
図4はまた、ERD400が、コンピュータゲームチャットなどのAVエンティティに関係するチャットに関連するテキストのトピックを識別するようにトレーニングされたテキストトピック抽出器モデル408からの入力を受信することを示している。視聴者がゲームのチャットで顔文字を使用するのは一般的である。したがって、顔文字には、トピックを検出する上で重要な情報も含まれている。これは、顔文字を対応するテキストに変換する方法論で取り組むことができる。これは、トピック検出モジュールへの追加情報として役立つことができる。トピックは、所与のAVトピックドメインの事前に定義された用語集または注釈から識別し得る。例えば、戦争ゲームの場合、関心のあるトピックを識別する第1の用語集または一連の注釈を使用し得て、一方、eスポーツの場合、関心のあるトピックを識別する第2の用語集または一連の注釈を使用し得て、そのテキストトピック抽出器はテキストトピックを識別するように、さらに、用語集または注釈に基づいてどのトピックが関心のあるセグメントを示しているかを識別するようにトレーニングされている。トピック検出は、チャット内のテキストを特定のトピックに分類する潜在的ディリクレ配分法(LDA)などの統計的手法を使用して実現できる。チャットは個別になされるか、またはこれらをグループ化してパフォーマンスを向上させることもできる。自然言語処理(NLP)の最新のディープラーニングベースの手法は、トピックモデリングにも使用できる。Transformerによる双方向エンコーダ表現(BERT)は、トピック検出、情緒分類などのNLPのダウンストリームタスクを実行するために使用できる。これらに加えて、BERT、LDA、及びクラスタリングを使用するハイブリッドモデルを使用して、候補イベントと見なすことができるテキストのセグメントを検出することもできる。
【0037】
ERD400はまた、AVエンティティに関係するチャット412に関連するテキストにおける、情緒と感情を含むがこれらに限定されることなくパラメータを識別するようにトレーニングされるテキスト情緒分析器または検出器モデル410から入力を受信してもよい。情緒は感情とは異なる。情緒は一般的に肯定的または否定的であるが、感情は以下でさらに議論されるように、より具体的である。例えば、肯定的な情緒は関心のあるセグメントに関連付けられ、否定的な情緒はあまり関心のないセグメントに関連付けられることがある。
【0038】
ERD400は、本明細書に記載のMLモデルから可能性を受信し、閾値を満たすセグメントのオーディオベースまたはビデオベースの可能性に基づいて、AVエンティティの複数の候補セグメントを識別する。ERD400は、ビデオサマリーを確立するためにチャットのテキストに基づく可能性に基づいて複数の候補セグメントのサブセットを選択する。
【0039】
図4は、要約されているAVエンティティのビデオ416から分離されたオーディオ414が音響イベント検出器402に入力されることを示している。オーディオはまた、例えば、声及び/または音声の認識原理を使用してオーディオ内の声を異なるチャネルに分離する音声源分離モデル418に入力され、分析されているセグメント内の各々の個々の声トラックを音声ピッチ・パワー検出器404に出力する。同様に、各々の声トラックは、音声感情検出器406に送られ、各々の声の感情が個別に分析される。
【0040】
さらに、各々の声トラックは自動音声認識(ASR)モデル420に入力することができ、このモデルは各トラックの音声を言葉に変換し、モデルのトレーニングセットによって定義された、関心のある用語を表す言葉である可能性を、ERD400に送信する。自動音声認識モデル420はまた、長い無音声期間に基づいて、セグメントを関心のないものとして識別することができる。
【0041】
図4に示されているように、MLエンジンはまた、各セグメントのAVエンティティビデオ416を受信し、ビデオのシーンの変化を識別するようにトレーニングされるシーン変化検出器MLモデル422を含む。ビデオはまた、ビデオのクローズドキャプションなどの何らかのテキストを検出するテキスト検出器424に入力される。ビデオベースのMLモデルは、関心のあるシーンの変化/ビデオテキストの可能性をそれぞれERD400に送信する。
【0042】
ここで、MLエンジンのチャットテキスト部分を参照する。チャットを使用して、ビデオとオーディオに基づいてサマリー予測を補強することが可能である。図4に示されているように、チャットユーザクラスタリング426は、テキスト情緒検出器410及びトピック抽出モデル408を含む、様々なチャットベースのMLモデルへの入力として、チャットトランスクリプト412と共に使用することができる。さらに、テキスト感情検出器モデル428は、チャットテキストの感情を検出するようにトレーニングされてもよく、事前に定義された関心のある感情のトレーニングセット及びそれらが関連する用語に基づいて、関心のある感情の可能性をERD400に出力してもよい
【0043】
固有表現認識(NER)及びアスペクト検出(NERAD)モデル430を使用して、単語を関心のある文法のタイプ及び関心のない文法のタイプに関連付けるトレーニングセットに基づいて、入力テキスト内で検出された関心のある文法のタイプの可能性を出力してもよい。例えば、NERADモデル430は、用語が固有名詞である可能性を出力してもよく、それは形容詞よりも関心があると事前に定義されてもよい。NERADモデル430はまた、セグメント内のテキストの簡単なサマリーが関心のあるセグメントまたは関心のないセグメントを示す可能性を出力してもよい。
【0044】
チャットテキストは、場合によっては使用するためにユーザが購入する必要があり得る「ステッカー」または顔文字を含んでもよい、つまり、このようなステッカーをチャットに添付すると、対応するセグメントへのより高い関心を示し、他のモダリティから派生した学習が強化され得ることに留意されたい。
【0045】
チャット412からテキストを受信することに加えて、チャットテキストベースのモデルは、自動音声認識モデル420から用語を受信して、チャットテキスト内の用語とともに処理することもできることに、さらに留意されたい。
【0046】
図4はまた、ゲームコンソールエンジン434からのゲームイベントデータ432がERD400に送信され得ることを示している。このデータには、ゲーム状態、オーディオキュー、ビデオキュー、及びテキストキューなどのメタデータが含まれてもよい。すなわち、エンジン434がゲーム状態及び他のメタデータにアクセスできる場合、それはERDに供給されてもよい。このようなメタデータについては、図14を参照して以下でさらに議論される。
【0047】
図5は、音響イベント検出器402に付随する追加のロジックを示している。ブロック500で開始し、入力オーディオ信号はトレーニングセット/テストセットに分割され、ブロック502でオーディオ信号は特徴ベクトルに圧縮される。音響イベント検出器402のNNは、ブロック502からの特徴を使用して、ブロック504でトレーニングされる。音響イベント検出器402の精度は、トレーニングプロセスにおけるフィードバックに関してブロック506で決定される。
【0048】
図6は、トレーニングに続いて、音響イベント検出器402が、ブロック600で、要約されるAVエンティティについて分析する各セグメントのサウンドイベントの可能性スコアを予測することを示している。ブロック602で、無音領域が検出される。604に示されているように、これらの結果は、可能性をERD400に配信するためにオーディオが音響イベント検出器402に連続的に供給されるとき、継続的に生成される。前に示し、図6にも示されているように、「N」秒の直前及び直後のセグメントを、ビデオサマリーの関心のあるセグメントの候補に追加し得る。
【0049】
図7は、オーディオ信号700が音響イベント検出器402によって分析されて、笑い、ため息、歌、咳、歓声、拍手、ブーイング、及び叫び声などの様々なタイプ702のイベントを識別することが可能であることを示している。トレーニングセットに基づいて、イベントの一部は関心のあるセグメントを示し、一部は関心のないセグメントを示すことができる。同様に、顔文字704は、さらなる分類のために、識別されたイベントに付随してもよい。
【0050】
図8~11は、音声感情検出器モデル406のさらなる態様を示している。図8及び9に示されているように、AVエンティティの複数のセグメント800からのオーディオは、熱い怒り、冷たい怒り、中庸、驚き、軽蔑、悲しみ、幸福などを含むカテゴリ及び次元902に分解することができる。これらのカテゴリは、図9のグラフにこれらが表示されているところに基づいており、x軸は感情価を表し、y軸は覚醒度を表す。
【0051】
図10は、3つの並列処理経路、感情価(受動的または否定的のいずれか)のための第1の経路1000、覚醒度(能動的または非活動的のいずれか)のための第2の経路1002、及びカテゴリ的感情分類のための第3の経路1004を有する例示的なモデルアーキテクチャを示している。各経路は、音声特徴1006を入力として受信し、順に、共通の双方向長短期記憶(BLSTM)1008、次いでそれぞれの経路BLSTM1010、及びアテンション層1012、及び深層ニューラルネットワーク(DNN)1014を通してその入力を処理する。本明細書の他のモデルは、同様のニューラルネットワーキングコンポーネントを採用し得る。
【0052】
図11は、オーディオ信号セグメント1102に具現化された音声1100が声アクティビティ検出(VAD)ブロック1104に入力され、音声の有無を検出し、音声と非音声を区別することを示している。VAD1104の出力は、図10の感情検出アーキテクチャに送られ、感情カテゴリ、感情価、及び覚醒度の可能性を判定パイプライン1106に出力する。本明細書の他の箇所で議論されるように、判定パイプライン1106は、任意の所与の感情の可能性が閾値を満たすかどうかを判定し、もしそうであれば、その感情がトレーニングセットによって関心があると定義されている場合、テスト中のセグメントが取得されたAVコンテンツの対応するセグメントは、ビデオサマリーに含める候補として、フラグが立てられる。
【0053】
図12は、音声ピッチ・パワー検出器404のさらなる態様を示している。要約されるAVエンティティのセグメントから導出されたオーディオのセグメント1200を使用して信号電力(すなわち、振幅)を計算1202し、モデルのトレーニングセットで定義されたセグメントの関心のある領域を識別する。これらの領域は、x軸が時間を表し、y軸が振幅を表す、パワーのグラフの1204で、示されている。
【0054】
また、1206に示されているように、信号1200の基本周波数変動(ピッチ変動)が識別される。これらの変動は、1208に示されている。モデルは、変動の形状から関心のあるセグメントを識別するようにトレーニングされる。図4に関連して上述したように、ASR及びNERが、このトレーニングで使用されてもよい。
【0055】
図13は、2つの例示的なオーディオパラメータの判定パイプラインフローを示しており、図示の実施例では、テキストトピック抽出器408によるチャットテキスト出力のトピック1300の可能性と、テキスト情緒分析器410によるチャットテキスト出力の情緒1302の可能性であり、類似している判定パイプラインは、他のパラメータ及び他のモードの可能性の出力に使用し得ることが理解される。状態1304で、テキストトピック抽出器408からトピックが「関心のあるもの」として識別される可能性が第1の閾値αを満たす場合、トピックが抽出されたセグメントは、ビデオサマリーの候補セグメントとして状態1306に送られる。それ以外の場合、そのセグメントは候補としてフラグが立てられない。同様に、テキスト情緒分析器410から「関心のあるもの」として識別された情緒の可能性が、状態1308で第2の潜在的に異なる閾値βを満たす場合、その情緒が抽出されたセグメントは、ビデオサマリーの候補セグメントとして状態1306に送信される。それ以外の場合、そのセグメントは候補としてフラグが立てられない。前述したように、同じセグメントがオーディオまたはビデオモダリティモデルによって関心があると識別されたと仮定すると、追加的にチャットテキストモダリティによって関心のあるものとして識別されたときは、ビデオサマリーに確実に含まれるようにでき、一方、チャットテキストモダリティによって関心のあるものとして識別されないときは、サマリーの長さを最大限許容された長さに維持する必要がある場合、そのセグメントはそれでもビデオサマリーから除外されることがある。
【0056】
ERD400がMLモデルによって実装される実施形態では、ERDモデルは、オーディオ、ビデオ、及びチャットテキストの可能性のセットと、人の注釈者によって生成された、それらから導出される対応するビデオサマリーとを使用してトレーニングされ得ることに留意されたい。
【0057】
図14は、上記の原則に関連して使用するための、上で参照したメタデータの態様を示している。メタデータは、図4で記述したように、テキスト及び/またはビデオ及び/またはオーディオから、さらにゲームメタデータから導出し得る。メタデータを使用しない実施態様では、ビデオサマリーMLエンジンはプラットフォームに依存せず、単純に入力AVエンティティのビデオサマリーを供給することを理解されたい。図14は、メタデータが供給される場合に使用できる追加の機能を示している。メタデータは、オーディオ、ビデオ、及びビデオサマリーのチャットテキストと、時間的に整合される。
【0058】
それぞれ1400及び1402で示されているように、メタデータは、図4のゲームイベントデータ434及び本明細書に記載のMLエンジンの両方から受信され得る。例えば、NERトピック及びアスペクト検出トピックに関係するメタデータは、ゲームイベントデータとともに、本明細書に記載されているように抽出された感情、オーディオ、及びビデオの特徴とともに、ブロック1404で使用されて、ビデオサマリーを確立するAVセグメントのオーディオにオーバーレイされる特別なオーディオを生成し得る。オーディオには、メタデータの特徴によって示されるように、例えば、群衆の歓声やブーイングが含まれることがある。オーディオは、そのようなイベントを示すゲームメタデータに応答して、「獣がここで殺された」という発話メッセージなどのゲームメタデータによって駆動されるオーディオメッセージを含み得る。言い換えると、オーディオメタデータは、メタデータのイベントと情報が到着したときに通知し得る。
【0059】
ブロック1406は、現在の時間で整合されたメタデータの対象であるビデオの部分が、例えば、その部分の輝度を上げたり、その部分の周りに線を表示したりすることによって、視覚的に強調表示され得ることを示す。例えば、メタデータが適切な名詞(キャラクターの名前)を含む場合、そのキャラクターは、メタデータが関連する時間にビデオサマリーで強調表示され得る。言い換えると、ビデオサマリーの関連部分を強調表示することによって、メタデータの一部またはすべてを視覚的に示し得る。
【0060】
メタデータはまた、ブロック1408で、ビデオサマリーにオーバーレイすることができるテキストを生成するために使用し得る。したがって、メタデータの一部またはすべてを、ビデオサマリーの一部にテキストで表示し得る。このメタデータには、ビデオサマリーに要約されたAVエンティティの特定の部分に対して好感を表明した者、例えば、アスペクト検出ブロックから派生したビデオサマリーに存在するテーマ、メタデータに示されている感情を表す顔文字などを含めることができる。
【0061】
いくつかの例示的な実施形態を参照して本原理を説明したが、これらは限定することを意図しておらず、各種の代替的な構成が本明細書で特許請求される主題を実施するために使用されてよいことは理解されよう。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14