(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024100874
(43)【公開日】2024-07-26
(54)【発明の名称】ニューラル・ネットワークを訓練する方法、記録媒体、コンピュータ・プログラムおよびシステム
(51)【国際特許分類】
G06F 3/01 20060101AFI20240719BHJP
【FI】
G06F3/01 510
【審査請求】有
【請求項の数】12
【出願形態】OL
(21)【出願番号】P 2024081537
(22)【出願日】2024-05-20
(62)【分割の表示】P 2022502547の分割
【原出願日】2020-08-14
(31)【優先権主張番号】16/548,804
(32)【優先日】2019-08-22
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】390009531
【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MACHINES CORPORATION
【住所又は居所原語表記】New Orchard Road, Armonk, New York 10504, United States of America
(74)【代理人】
【識別番号】100112690
【弁理士】
【氏名又は名称】太佐 種一
(74)【代理人】
【識別番号】100120710
【弁理士】
【氏名又は名称】片岡 忠彦
(74)【復代理人】
【識別番号】110000420
【氏名又は名称】弁理士法人MIP
(72)【発明者】
【氏名】ビュッセル,ベアート
(72)【発明者】
【氏名】ボテア,アディ
(72)【発明者】
【氏名】チェン,ベイ
(72)【発明者】
【氏名】岸本 章宏
(57)【要約】
【課題】制御システムを提供すること。
【解決手段】 ニューラル・ネットワークは、入力層、1以上の隠れ層および出力層を有する。入力層は、状況コンテキスト入力副層、(いくつかの実施形態においては)背景コンテキスト入力副層および環境入力副層に分割される。出力層は、選択または順序付け出力副層および環境出力副層を有する。層(副層を含む。)の各々は、複数のニューロンを有し、複数のニューロンの各々は、活性値を有する。状況コンテキスト、環境情報および背景コンテキストは、ニューラル・ネットワークに入力されてもよく、ニューラル・ネットワークは、視聴者のセンチメント、環境もしくは背景またはこれらの組み合わせに基づいて、ストーリーを変更するために用いられる、選択されたストーリーラインを動的に選択および順序付けするために用いる出力を生成する。
【選択図】
図4
【特許請求の範囲】
【請求項1】
メディア・ストリームを適合させるための制御システムであって、
入力層、1以上の隠れ層および出力層を有するニューラル・ネットワークであって、前記入力層は、状況コンテキスト入力副層および環境入力副層を有し、前記出力層は、選択または順序付け出力副層および環境出力副層を有し、前記層の各々は、複数のニューロンを有し、前記複数のニューロンの各々は、活性値を有する、前記ニューラル・ネットワークと、
それぞれ、視聴者をモニタする1以上のセンサからの1以上のコンテキスト入力と、前記状況コンテキスト入力副層に接続された1以上のセンチメント出力とを有する1以上の状況コンテキスト・モジュールと、
1以上の環境センサ入力と、前記環境入力副層に接続された環境出力とを有する1以上の環境情報モジュールと、
前記選択または順序付け出力副層に接続された1以上の選択モジュールと、
前記選択または順序付け出力副層に接続された1以上の順序付けモジュールと
を含み、前記選択モジュールは、1以上の選択されたストーリーラインを選択するために動作可能であり、前記順序付けモジュールは、選択された前記ストーリーラインを、再生されるストーリーに順序付けするために動作可能である、制御システム。
【請求項2】
前記コンテキスト入力は、顔画像、赤外線画像、音声入力、音声ボリューム・レベル検出器、テキスト、話し言葉、携帯電話入力、心拍、血圧および呼吸数のうちの1以上を含む、請求項1に記載の制御システム。
【請求項3】
前記状況コンテキスト・モジュールは、
顔認識、位置認識、自然言語処理(NLP)、キーフレーズの認識および音声認識
の機能のうちの1以上を実行するように動作可能である、請求項1または2に記載の制御システム。
【請求項4】
前記センチメント出力は、
気持ち、感情、笑い、悲しみ、期待、恐れ、興奮、環境に対する反応、1以上のストーリーラインに対する反応
のうちの1以上の視聴者センチメントを表す、請求項1~3のいずれか1項に記載の制御システム。
【請求項5】
前記環境センサ入力は、
オーディオ・キャプチャ・デバイス、マイクロフォン、ビデオ・キャプチャ・デバイス、カメラ、赤外線カメラ、ネットワーク接続、気象入力、位置センサ、携帯電話、温度計、湿度検出器、気流検出器、光強度検出器、光検出器およびモーション・センサ
のうちの1以上を含む、請求項1~4のいずれか1項に記載の制御システム。
【請求項6】
前記環境出力は、ボリューム・コントロール、照明コントロール、温度コントロール、湿度コントロール、加熱システム・コントロール、冷却システム・コントロールおよび気流コントロールのうちの1以上を含む、請求項1~5のいずれか1項に記載の制御システム。
【請求項7】
前記選択モジュールは、前記ニューラル・ネットワークにより処理された、前記センチメント出力の動的パターンおよび前記環境出力の動的パターンに基づいて、選択された前記ストーリーラインの1以上を選択するために動作可能である、請求項1~6のいずれか1項に記載の制御システム。
【請求項8】
前記順序付けモジュールは、前記ニューラル・ネットワークにより処理された、前記センチメント出力の動的パターンおよび前記環境出力の動的パターンに基づいて、選択された前記ストーリーラインの1以上を順序付けするために動作可能である、請求項1~7のいずれか1項に記載の制御システム。
【請求項9】
前記ニューラル・ネットワークは、畳み込みニューラル・ネットワーク(CNN)である、請求項1~8のいずれか1項に記載の制御システム。
【請求項10】
選択された前記ストーリーラインの1以上は、分岐点で始まり、分岐点で終わる、請求項1~9のいずれか1項に記載の制御システム。
【請求項11】
前記ニューラル・ネットワークは、さらに、背景コンテキスト入力副層を含む、請求項1~10のいずれか1項に記載の制御システム。
【請求項12】
前記背景コンテキスト入力副層の1以上のニューロンの活性値は、
視聴者層、年齢、教育水準、社会経済的ステータス、収入水準、社会的および政治的な観点、ユーザ・プロファイル、好き、嫌い、時刻、視聴者のユーザ数、天候、視聴者の位置
のうちの1以上の表現を含む、請求項11に記載の制御システム。
【請求項13】
1以上のユーザの背景コンテキスト情報が
ソーシャル・メディアの投稿、ソーシャル・メディアの使用量、携帯電話の使用量、視聴者調査、検索履歴、カレンダー、システム時計、画像分析および位置情報のソースのうち
の1以上のソースから生まれている、請求項11または12に記載の制御システム。
【請求項14】
前記選択モジュールは、選択された前記ストーリーラインの1以上を選択するために動作可能であり、前記順序付けモジュールは、前記ニューラル・ネットワークにより処理された、センチメント出力の動的パターン、背景コンテキストおよび環境出力に基づいて、選択された前記ストーリーラインの1以上を順序付けする、請求項11~13のいずれか1項に記載の制御システム。
【請求項15】
ニューラル・ネットワークを訓練する方法であって、
複数のセンチメント活性値およびセンチメント・ニューロンについて、それぞれ、状況コンテキスト入力副層におけるセンチメント・ニューロンにセンチメント活性値を入力するステップであって、前記状況コンテキスト入力副層は、前記ニューラル・ネットワークの入力層の一部であり、前記センチメント活性値は、センチメント入力パターンを形成する、入力するステップと、
複数の環境活性値および環境ニューロンについて、それぞれ、環境入力副層における環境ニューロンに環境活性値を入力するステップであって、前記環境入力副層は、前記ニューラル・ネットワークの前記入力層の一部であり、前記環境活性値は、環境入力パターンを形成する、入力するステップと、
前記センチメント入力パターンおよび前記環境入力パターンを、前記ニューラル・ネットワークを通して伝播させるステップと、
前記ニューラル・ネットワークの出力層に適用される損失関数を最小化することによって、1以上の重みおよび1以上のバイアスをどれだけ変化するかを決定するステップであって、前記出力層は、それぞれ出力活性値を有する、選択または順序付け出力副層および環境出力副層を有する、決定するステップと、
前記重みおよび前記バイアスを変化させるために後方伝搬するステップと、
前記出力活性値が所望の結果に達するまで前2ステップを繰り返し、訓練を終了させるステップと
を含む、方法。
【請求項16】
前記方法は、前記訓練が終了した後、
1以上の選択されたストーリーラインを選択するステップと、
初期ストーリー内で選択された前記ストーリーラインを挿入するステップであって、選択された前記ストーリーラインの開始点は、前記初期ストーリーの開始分岐点で開始され、選択された前記ストーリーラインの終了点は、前記初期ストーリーの終了分岐点で終了される、挿入するステップと、
を含む、請求項15に記載の方法。
【請求項17】
前記環境出力層は、選択された前記ストーリーラインに関連付けられた1以上の環境出力を制御する出力活性値の動的パターンを有する、請求項16に記載の方法。
【請求項18】
選択された前記ストーリーラインを選択するステップおよび選択された前記ストーリーラインを順序付けするステップは、動的センチメント入力パターンによって決定される、請求項16または17に記載の方法。
【請求項19】
請求項1~14のいずれか1項に記載の制御システムを制御するための制御実装方法であって、前記方法は、
視聴者と、状況コンテキスト入力副層に接続された1以上のセンチメント出力とをモニタするステップと、
1以上の選択されたストーリーラインを選択するステップと、
選択された前記ストーリーラインを、再生されるストーリーに順序付けするステップと
を含む、方法。
【請求項20】
システムを管理するためのコンピュータ・プログラム製品であって、
処理回路によって可読であり、かつ、前記処理回路によって、請求項15~19のいずれか1項に記載の方法を実行するための実行命令を格納するコンピュータ可読ストレージ媒体
を含む、コンピュータ・プログラム製品。
【請求項21】
コンピュータ可読媒体に格納され、デジタル・コンピュータの内部メモリに読み込み可能なコンピュータ・プログラムであって、前記プログラムがコンピュータ上で実行された場合、請求項15~19のいずれか1項に記載の方法を実行するためのソフトウェア・コード部分を含む、プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、人工知能および人工現実(アーティフィシャル・リアリティ)に関する。より詳細には、本発明は、ユーザまたは視聴者のコンテキストもしくは環境またはこれらの両方に基づいて、1以上のメディア(ビデオもしくは音声またはこれらの両方)ストリームを動的に変更し、もしくは適応し、またはこれらの両方を行い、拡張された視聴者経験をもたらし、もしくはメディア・プロバイダの目的をより効果的に達成し、またはこれらの両方をすることに関する。
【背景技術】
【0002】
人工知能およびコンシューマ・エレクトロニクスの分野は、映画およびエンターテイメント産業に集り、複数の現場におけるビデオおよび音声コンテンツを、複数の経路を介してユーザにもたらしている。映画、コンサートおよびイベントは、現場(劇場、コンサートホールおよびスタジアムなど)やテレビジョン上のみならず、コンピュータやiPhone(登録商標)上のメディアとしても経験されており、ここでは、コンテンツは、オンデマンドで、連続的にまたは間欠的に、そして種々の時間、位置およびユーザの状況において消費されることができる。しかしながら、典型的には、これらのメディアは、一定不変のコンテンツで、イベント、画像、音声もしくはスピーチまたはこれらの組み合わせが固定的な順序のもののみで利用可能である。そのようなメディアは静的である傾向があり、一定不変で、メディアが提示される環境もしくはユーザまたは視聴者がメディアを消費するコンテキストまたはこれらの両方における変化に反応できない傾向がある。多くの場合、一度コンテンツが作成されると、例えば、ユーザまたは視聴者の構成(視聴者層)、数、気持ち、感情、ユーザまたは視聴者の背景、もしくはメディアが提示される環境のパラメータまたはこれらの組み合わせなど、ユーザまたは視聴者のセンチメント、コンテキストまたは環境に基づいて、コンテンツを変更する方法がない。
【0003】
ユーザまたは視聴者のセンチメント、コンテキストおよび環境に適応可能にメディア・コンテンツおよび順序付けを変更することを可能とすることが求められている。このため、当該技術分野において上記課題を解決することが必要である。
【発明の概要】
【0004】
第1の側面から観るとは、本発明は、メディア・ストリームを適合させるための制御システムを提供し、本制御システムは、入力層、1以上の隠れ層および出力層を有するニューラル・ネットワークであって、入力層は、状況コンテキスト入力副層および環境入力副層を有し、出力層は、選択または順序付け出力副層および環境出力副層を有し、層の各々は、複数のニューロンを有し、複数のニューロンの各々は、活性値を有する、ニューラル・ネットワークと;それぞれ、視聴者をモニタする1以上のセンサからの1以上のコンテキスト入力と、状況コンテキスト入力副層に接続された1以上のセンチメント出力とを有する1以上の状況コンテキスト・モジュールと;1以上の環境センサ入力と、環境入力副層に接続された環境出力とを有する1以上の環境情報モジュールと、選択または順序付け出力副層に接続された1以上の選択モジュールと;選択または順序付け出力副層に接続された1以上の順序付けモジュールとを含み、選択モジュールは、1以上の選択されたストーリーラインを選択するために動作可能であり、順序付けモジュールは、選択されたストーリーラインを、再生されるストーリーに順序付けするために動作可能である。
【0005】
さらなる側面から観るとは、本発明は、ニューラル・ネットワークを訓練する方法を提供し、本方法は、複数のセンチメント活性値およびセンチメント・ニューロンについて、それぞれ、状況コンテキスト入力副層におけるセンチメント・ニューロンにセンチメント活性値を入力するステップであって、状況コンテキスト入力副層は、ニューラル・ネットワークの入力層の一部であり、センチメント活性値は、センチメント入力パターンを形成する、入力するステップと;複数の環境活性値および環境ニューロンについて、それぞれ、環境入力副層における環境ニューロンに環境活性値を入力するステップであって、環境入力副層は、ニューラル・ネットワークの入力層の一部であり、環境活性値は、環境入力パターンを形成する、入力するステップと;センチメント入力パターンおよび環境入力パターンを、ニューラル・ネットワークを通して伝播させるステップと;ニューラル・ネットワークの出力層に適用される損失関数を最小化することによって、1以上の重みおよび1以上のバイアスをどれだけ変化するかを決定するステップであって、出力層は、それぞれ出力活性値を有する、選択または順序付け出力副層および環境出力副層を有する、決定するステップと;重みおよびバイアスを変化させるために後方伝搬するステップと;出力活性値が所望の結果に達するまで前2ステップを繰り返し、訓練を終了させるステップと;を含む。
【0006】
さらなる側面から観るとは、本発明は、請求項1~14のいずれか1項に記載の制御システムを制御するための制御実装方法を提供し、本方法は、視聴者と、状況コンテキスト入力副層に接続された1以上のセンチメント出力とをモニタするステップと;1以上の選択されたストーリーラインを選択するステップと;選択されたストーリーラインを、再生されるストーリーに順序付けするステップとを含む。
【0007】
さらなる側面から観るとは、本発明は、システムを管理するためのコンピュータ・プログラム製品を提供し、本コンピュータ・プログラム製品は、処理回路によって可読であり、かつ、処理回路によって、本発明の方法を実行するための実行命令を格納するコンピュータ可読ストレージ媒体を含む。
【0008】
さらなる側面から観るとは、本発明は、コンピュータ可読媒体に格納され、デジタル・コンピュータの内部メモリに読み込み可能なコンピュータ・プログラムを提供し、コンピュータ・プログラムは、プログラムがコンピュータ上で実行された場合、本発明の方法を実行するためのソフトウェア・コード部分を含む。
【0009】
さらなる側面から観るとは、本発明は、ストーリーライン制御システムを提供し、本ストーリーライン制御システムは、入力層、1以上の隠れ層および出力層を有するニューラル・ネットワークであって、入力層は、状況コンテキスト入力副層、背景コンテキスト入力副層および環境入力副層を有し、出力層は、選択または順序付け出力副層および環境出力副層を有し、層の各々は、複数のニューロンを有し、複数のニューロンの各々は、活性値を有する、ニューラル・ネットワークと;それぞれ、視聴者をモニタする1以上のセンサからの1以上のコンテキスト入力と、状況コンテキスト入力副層に接続された1以上のセンチメント出力とを有する1以上の状況コンテキスト・モジュールと;1以上の環境センサ入力および環境入力副層に接続された環境出力を有する1以上の環境情報モジュールと、選択または順序付け出力副層に接続された1以上の選択モジュールと;選択または順序付け出力副層に接続された1以上の順序付けモジュールとを含み、選択モジュールは、1以上の選択されたストーリーラインを選択し、順序付けモジュールは、選択されたストーリーラインを、再生されるストーリーに順序付けする。
【0010】
本発明は、訓練するための方法およびシステムを稼働させる方法を含むストーリーライン制御システムである。
【0011】
システムにおいてニューラル・ネットワークが用いられる。いくつかの実施形態においては、ニューラル・ネットワークは、畳み込みニューラル・ネットワーク(CNN)である。ニューラル・ネットワークは、入力層、1以上の隠れ層および出力層を有する。入力層は、状況コンテキスト入力副層、(いくつかの実施形態においては)背景コンテキスト入力副層および環境入力副層に分割される。出力層は、選択または順序付け出力副層および環境出力副層を有する。層(副層を含む。)の各々は、複数のニューロンを有し、複数のニューロンの各々は、活性値を有する。
【0012】
1以上の状況コンテキスト・モジュールは、それぞれ、視聴者をモニタする1以上のセンサからの1以上のコンテキスト入力と、状況コンテキスト入力副層に接続された1以上のセンチメント出力とを有する。
【0013】
1以上の環境情報モジュールは、視聴者環境をモニタする1以上の環境センサ入力と、環境入力副層に接続された環境出力とを有する。
【0014】
いくつかの実施形態においては、1以上の背景コンテキスト・モジュールは、視聴者の特性を含む1以上の背景入力と、環境入力副層に接続される背景出力とを有する。
【0015】
1以上の選択モジュールは、選択または順序付け出力副層に接続され、1以上の選択されたストーリーラインの選択を制御する。
【0016】
1以上の順序付けモジュールは、選択または順序付け出力副層に接続され、選択されたストーリーラインを順序付けし、例えば、ストーリーライン制御システムによって、ストーリーが再生される前またはストーリーが再生されながら、選択されたストーリーラインがストーリーを変更するようにする。
【0017】
以下、本発明について、以下の図面に説明されるような好ましい実施形態を参照して、一例としてのみ、説明する。
【図面の簡単な説明】
【0018】
【
図1】本発明の1つのアーキテクチャを示すブロック図。
【
図3】開始点、代替開始点、分岐点、終了点および代替終了点を含む、1以上の主ストーリーラインおよび1以上の代替ストーリーラインを有するストーリーを示す。
【
図4】本発明のニューラル・ネットワークの実施形態のシステム・アーキテクチャ図。
【
図5】本発明の一実施形態を訓練するために用いられる訓練プロセスのフローチャート。
【
図6】本発明の一実施形態のステップを示す動作プロセスのフローチャート。
【発明を実施するための形態】
【0019】
本明細書において、用語”視聴者(audience)”は、1以上のユーザを意味する。用語”ユーザ”および”視聴者”は、一般性を失うことなく同義に使用される。非限定的な例として、視聴者コンテキストは、ユーザのセンチメント、構成(例えばユーザの層-年齢、教育、ステータス、社会的および政治的観点)、プロファイル(例えば好き、嫌い)、気持ち、感情、位置、数、時刻、環境に対する反応、メディアに対する反応、もしくは感情的な状態またはこれらの組み合わせが含まれる。いくつかの実施形態においては、2種類のユーザ/視聴者コンテキストが用いられ、それは、背景コンテキストおよび状況コンテキストである。
【0020】
メディアは、ユーザの1以上に身体的な知覚を感じさせるシステムの任意の知覚出力を意味する。メディアの非限定的な例として、ビデオ、音声、スピーチ、部屋または空間の環境の変化(例えば、気流、温度、湿度など)、におい、照明、特殊効果などを挙げることができる。
【0021】
環境またはユーザ/視聴者環境は、システムによって出力される任意の時間での知覚出力の一部または全部の全体である。
【0022】
経験(エクスペリエンス)または視聴者/ユーザ経験は、メディア/ストーリーが再生されていること含む環境によって任意の時間に起こされる、ユーザ/視聴者によって感じられる知覚的な経験である。
【0023】
1以上のメディアは、ストーリーを含み、各ストーリーは、1以上の"ストーリーライン"、例えば、サブコンポーネントまたはセグメントを有する。ストーリーラインは、開始点および終了点を有する。典型的には、ストーリーラインは、1以上のストーリーおよびストーリーの一部である、関連付けられた環境を作るために、順に再生、例えば、1以上の出力デバイス上で出力される。同一もしくは異なるまたはこれらの両方のメディアの1以上の第2のストーリーラインが、開始/終了に基づいてもしくは第1のストーリーラインにおけるキューで、またはこれらの両方で、開始または終了してもよい。
【0024】
例えば、第1のビデオ・ストーリーラインが、”おばあちゃん”の家のドアの前まで歩く”赤ずきん”の画像のシーケンスを再生する。”赤ずきん”がドアを開いたとき(第1のビデオ・ストーリーにおけるキュー)、第1の音声ストーリーラインが、再生を開始し、ドアを開く音がなる。ドアが開いた後、第1のビデオおよび第1の音声ストーリーラインは、例えば、終了点で終了する。第1のビデオおよび第1の音声ストーリーラインの終了点では、第2のビデオ・ストーリーラインが、(その開始点で)開始し、”赤ずきん”が家の中には歩いて行くことを示す画像のシーケンスが再生される。第2のビデオ・ストーリーラインの中盤で、”赤ずきん”が、”大きくて悪い狼”に会う。この第2のビデオ・ストーリーラインにおけるキュー・ポイントは、オムニバス・ミュージックの第2の音声セグメントの(その開始点での)開始と、照明を落とし、音声ボリュームを上げる第1の制御システムストーリーラインとを待つ。
【0025】
これらのストーリーラインのコンテンツ、選択および順序付けは、1以上のシステム出力を駆動し、ストーリーが再生されている間、動的なユーザ/視聴者環境を作り出す。コンテンツ、選択および環境が時間とともに変化する場合、ユーザ/視聴者の経験は、時間とともに変化する。
【0026】
”ストーリー”は、ストーリーライン・シーケンスにおいて再生される1以上のストーリーラインの選択である。各ストーリーラインは、1以上のストーリーライン・コンテンツを有する。各ストーリーラインは、例えばビデオ、音声、環境変化(温度、気流)、におい、照明などの1または複数のメディア・タイプで再生されるか、または出力される。ストーリーラインの選択、ストーリーラインのコンテンツおよびストーリーラインの順序付けはすべて、ユーザ/視聴者の環境および経験に影響を与える。したがって、ストーリーラインの選択、コンテンツもしくは順序付けまたはこれらの組み合わせのうちの任意のものを変えることは、ストーリー中、ユーザ/視聴者の環境および経験を変化させる。環境および経験における変化は、ユーザ・コンテキストを変化させ、これは、システムに入力され、次いで、ストーリーラインの選択、コンテンツもしくは順序付けまたはこれらの組み合わせを変える可能性がある。
【0027】
本発明は、ストーリーをユーザ/視聴者に配信もしくは再生またはこれらの両方をする間、リアルタイムに、ストーリーにおけるストーリーラインの選択および順序付けによってストーリー変更を可能とするシステムおよび方法である。ストーリー変更は、状況コンテキスト(ユーザ/視聴者の経験)、環境もしくは背景コンテキストまたはこれらの組み合わせに基づくことができる。
【0028】
いくつかの実施形態においては、システムは、ユーザ/視聴者のコンテキストをモニタまたは入力し、1以上のストーリーラインの選択もしくは順序付けまたはこれらの両方をどのように変更するかを決定し、ストーリーもしくは環境またはこれらの両方、ひいては視聴者の経験を変化させる。いくつかの実施形態においては、変化は、いくつかの基準、例えば、経験の創出、メッセージの伝達もしくは視聴者/ユーザの反応の測定またはこれらの組み合わせに関するメディア・プロバイダの目的に基づいてなされる。
【0029】
いくつかの実施形態においては、2種類のユーザ/視聴者コンテキストを使用し、これは、背景コンテキストおよび状況コンテキストである。ユーザ/視聴者の背景コンテキストは、ストーリーの再生の前に存在するコンテキストである。背景コンテキストの非限定的な例としては、ユーザ構成(例えば、ユーザ層、-年齢、教育、社会経済的ステータス、収入水準、社会的および政治的な観点)、ユーザ・プロファイル(好き、嫌い)、時刻、視聴者におけるユーザ数、天候、視聴者の位置が含まれる。状況コンテキストの非限定的な例は、気持ち、感情、環境に対する反応(環境/ストーリーについての言葉による記述、顔の表情反応など)のような視聴者における1以上のユーザのセンチメントが含まれる。
【0030】
システムは、視聴者における1以上のユーザに関する背景コンテキスト情報を収集することができる。この情報は、ソーシャル・メディア、ユーザ入力、ユーザのシステムの使用をモニタすること、画像認識などから収集することができる。いくつかの実施形態においては、非ユーザ情報を含む背景コンテキスト情報、例えば、天候が入力される。背景コンテキスト情報は、カレンダー、システム・クロック、ネットワーク検索などから取得することができ、例えば、ユーザの調査からの情報を使用することができる。
【0031】
加えて、システムは、状況コンテキストをモニタし、入力する。いくつかの実施形態においては、状況コンテキストは、表情もしくはユーザの気持ちまたはこれらの両方を識別するために使用される顔認識システムから収集される。いくつかの実施形態においては、システムは、単語の使用、意味、表現、ボリュームなどについて音声入力を解析し、感情状態を判定する。いくつかの実施形態においては、システムは、ストーリーラインの選択および順序付けが変化することに伴う、環境入力、メディア・タイプ、もしくは、ストーリーおよびストーリーライン・メディア・コンテンツ、またはこれらの組み合わせにおける変化に対する、視聴者の反応(例えば、顔認識および分析および音声分析などにより)を測定、記録、推測もしくは予測またはこれらの組み合わせをすることができる。
【0032】
ストーリーにおいてストーリーラインのシーケンスを提示している間、システムは、音、音レベル、光レベル、光周波数、におい、湿度、温度、気流などの環境入力をモニタする。
【0033】
好ましい実施形態においては、ニューラル・ネットワークが使用される。訓練フェーズの間、状況コンテキスト情報、背景コンテキスト情報もしくは環境情報またはこれらの組み合わせを含む訓練データがニューラル・ネットワークに入力される。ニューラル・ネットワークは、以下に説明するような既知の後方伝搬技術を用いて訓練される。
【0034】
訓練の間、入力が入力層に入力され、出力層の出力が所望の結果と比較される。例えば、ニューラル・ネットワークの内部の詳細をどのように変更するかを決定するために損失関数を最小する際に、差分が使用される。入力が再び入力され、新たな出力が所望の出力と比較される。プロセスは、システムが訓練されるまで反復される。
【0035】
動作フェーズの間、ニューラル・ネットワークの出力は、ストーリーラインおよび環境出力の選択および順序付けを制御して、メディアとして再生する1以上のストーリーを生成する。結果として得られるストーリーは、視聴者(または視聴者のモデル)に対して再生され、環境を作り出す。
【0036】
動作中、視聴者の経験がモニタされ、訓練済みニューラル・ネットワークによって決定されるようにストーリーラインの選択もしくは順序付け(環境的なストーリーライン出力を含む)またはこれらの両方が変化する。ストーリーを変更するために、選択コントローラは、ストーリーラインの選択を変更し、シーケンス・コントローラは、ストーリーのシーケンスを変更し、変更されたストーリーを生成する。変更されたストーリーは、以前のストーリーラインと比較して、追加、削除もしくは変更またはこれらの組み合わせがなされたストーリーラインを有する可能性がある。
【0037】
訓練済みシステムは、動作フェーズの間、より予測可能に(predictably)1以上の視聴者の経験を生成するためにストーリーラインおよび環境出力を選択および順序付けする能力が高まる。動作システムは、ストーリーを作成し、視聴体験をモニタし、即時の視聴者体験に基づいて、1以上のストーリーライン(環境出力を含む)の選択および順序付けを動的に変更し、予測可能な視聴者の反応または応答とともに視聴者のために異なる環境および結果(outcome)を作り出すことができる。これらの変更は、将来のためのストーリーのためになされてもよいし、または、ストーリーが再生されている間に”オン・ザ・フライ”で生じてもよい。
【0038】
いくつかの実施形態においては、動作システムは、動的な背景コンテキスト、状況コンテキストもしくは環境またはこれらの組み合わせを織り込んだ、視聴者経験に基づいて、出力を提供するように訓練される点に留意されたい。
【0039】
本発明によれば、視聴者の経験をより興奮、スリリング、影響的なものとする目的で、人工知能を使用して、そのストーリーラインを適応させることによって、視聴者のメディア(例えば、映画)とのエンゲージメント(engagement)を増大させることができる。
【0040】
本発明によれば、メディア・プレゼンテーション(例えば映画)の視聴数が増加される可能性があり、これは、ストーリーラインを適応することによって、背景コンテキストおよび状況コンテキストに応じてメディア・プレゼンテーションが変化し、メディア・プロバイダの目標を達成することによって測定されるような、視聴者経験における向上を生じさせるので、視聴経験がより強烈になるためである。これらの目標は、より多くのチケットを販売すること、より多くのネットワーク・ビューを有すること、もしくはより多様な視聴者にリーチすることまたはこれらの組み合わせを含む。
【0041】
本発明は、例えば、状況コンテキスト、背景コンテキストもしくは環境またはこれらの組み合わせを測定し、後の分析および使用のため例えば外部ストレージ上にこれらの情報を格納することによって、1以上のストーリーラインまたはストーリーに対する視聴者経験をモニタおよび記録することができる。
【0042】
いくつかの実施形態においては、畳み込みニューラル・ネットワーク(CNN)が、ストーリーラインの選択もしくはストーリーラインの順序付けまたはこれらの両方、または環境制御またはこれらの組み合わせを変更するために使用される。
【0043】
ここで、図面、特に
図1を参照し、
図1は、本発明の1つのアーキテクチャ100のブロック図である。
【0044】
一実施形態において、制御システム160は、1以上のネットワーク、クラウド環境、リモートストレージもしくはアプリケーション・サーバ110またはこれらの組み合わせに接続110Cされる。ネットワーク接続110Cは、既知の任意の接続で、標準インタフェース110Cで、任意の標準的なネットワーク110に接続し、ネットワーク110は、インターネット、イントラネット、ワイド・エリア・ネットワーク(WAN)、ローカル・エリア・ネットワーク(LAN)、クラウドもしくは例えばWi-fi(登録商標)などの無線周波接続またはこれらの組み合わせを含む。
【0045】
ネットワーク接続110Cは、通信インタフェース104を介して、任意の既知のシステム・バス101によって制御システム160のコンポーネントに接続される。これらの中で、メディア・データは、通信インタフェース104を介して、システム160へ、またシステム160から、通信することができる。
【0046】
例えば、中央処理ユニット(CPU)103、コプロセッサ103もしくはグラフィカル・プロセッシング・ユニット(GPU)またはこれらの組み合わせなどの1以上のコンピュータ・プロセッサがシステム・バス101に接続される。
【0047】
1以上の入力/出力(I/O)コントローラ105が、システム・バス101に接続される。I/Oコントローラ105は、1以上のI/O接続115に接続される。I/O接続またはバス115は、例えば、無線周波数や光接続などのハード配線または無線によってI/Oデバイスを接続する。I/Oデバイスの例としては、外部ストレージ111(例えば、CD/DVDデバイスのようなポータブル・データ・ストレージ、外部ハード・ドライブ、クラウド・ストレージなど)、1以上の入力センサ112、例えばグラフィカル・ユーザ・インタフェース(GUI)などの1以上のディスプレイ113、例えば環境コントローラなどの1以上の他のコントローラ114とが含まれる。メディア・コンテンツもしくはストーリーライン情報またはこれらの両方は、ネットワーク接続110CもしくはI/O接続115またはこれらの組み合わせを超えて、例えば外部ストレージ111,ディスプレイ/GUI113および他の(例えば環境)出力114と通信されてもよい。
【0048】
1以上のメモリ102がシステム・バス101に接続される。例えば1以上のオペレーティングシステム(OpSys)などのシステム・ソフトウェア106、例えばキャッシュメモリなどのオペレーション・ストレージ107、および1以上のアプリケーション・ソフトウェア・モジュール108がメモリ102にアクセス可能に格納される。
【0049】
他のアプリケーションが、システム160上で実行するためにメモリ102に常駐していてもよい。これらのアプリケーションの1以上の機能も、実行のために結果がシステム160に提供されるとして、システム160に対し外部的に実行されてもよい。状況コンテキスト・モジュール120は、ストーリーラインまたはストーリーが再生されている間、状況コンテキストに影響を与える入力を解析する。背景コンテキスト・モジュール130は、背景コンテキスト情報を解析する。環境モジュール140は、ストーリーラインまたはストーリーが再生されている間、環境の効果を分析する。選択モジュール150は、再生するためのストーリーラインを選択する。順序付けモジュール165は、選択されたストーリーラインが再生されるシーケンスを選択する。選択モジュール150および順序付けモジュール165の出力は、状況コンテキスト120、背景コンテキスト130、環境情報140もしくはシステム構成またはこれらの組み合わせの分析に基づいて、ストーリーを再生する前あるいはストーリーを再生しながら動的に、実行することができる。環境モジュール170は、環境出力を、選択され、順序付けされたストーリーラインおよびプログラムと調整し、I/Oコントローラ105を介して環境出力を制御する。
【0050】
図2は、ユーザ環境200における1以上のユーザ/視聴者250の図である。環境200は、1以上の入力および1以上の出力を有する空間を含む。入力は、イメージ・キャプチャ・デバイス(例えば、カメラ205)、オーディオ・キャプチャ・デバイス210(マイクロフォン210)およびグラフィカル・ユーザ・インタフェース(GUI)113のようなセンサ112を含む。入力は、また、温度検出器230、湿度検出器(図示せず)112および位置検出器280のような環境入力を含む。出力は、GUI113、テレビジョン、ディスプレイ、家庭用エンターテイメント・システム255および音声出力装置(例えば、スピーカ)215を含む。いくつかの環境出力(例えば225)は、環境コントローラ105によって、例えば、バス115を介して、制御され、照明225、温度、湿度および空気流を含む環境パラメータを制御する。
【0051】
携帯電話275、データ・アシスタント、モニタ(例えば、"fitbit(登録商標)"および心拍数モニタ)、血圧モニタ、呼吸検出器、モーション検出器のような補助デバイスおよびコンピュータは、入力もしくは出力またはこれらの両方をユーザ、典型的には250に提供する。マイクロフォン210、温度センサ230、携帯電話275およびカメラ205のような入力およびスピーカ215、携帯電話275、照明225のような出力は、おもちゃ245などを含む環境200の任意の場所に位置してもよい。入力および出力は、例えば、バス115を用いてハードワイヤードでまたは無線で接続することができる。
【0052】
視聴者(典型的には250)は、1以上のユーザ250を含む。ユーザ250は、異なる特性を有する。例えば、1人のユーザ250は、親250Pであってよく、他のユーザ250は、若年者250Cとすることができる。視聴者250は様々である可能性がある。視聴者250の非限定的な例は、TVを見る家族、映画を見るグループ、ビデオゲームをプレイするグループ、エンターテイメント会場における群衆、コマーシャルの視聴者、教室の生徒、テーマパークでのグループ、映画館の観客、競技または政治的なイベントに参加する人々を含む。
【0053】
制御システム160は、I/Oデバイス(112、113、114など)への接続がある任意の場所に位置してもよい。例えば、制御システム160は、エンターテイメント・システム255内に位置してもよい。いくつかの実施形態においては、制御システム160は、ネットワーク/クラウド110に通信インタフェース104を介して(有線または無線で)接続される110C。
【0054】
センサ112は、特に、それぞれのI/Oコントローラ105へのバス接続115を介したユーザ250から信号(例えば、画像および音声)をキャプチャする。信号が処理され、受信された信号の内容が、状況コンテキスト・モジュール120、背景コンテキスト・モジュール130および環境モジュール140のうちの1以上によって解析される。いくつかの実施形態では、ネットワーク/クラウド110、インタフェース113を介したユーザ入力、センサ、もしくは携帯電話275およびストレージ111のような補助デバイスからの入力、またはこれらの組み合わせのうちの1以上から情報がまた受信される。
【0055】
これらの入力を使用して、状況コンテキスト・モジュール120、背景コンテキスト・モジュール130および環境モジュール140は、状況コンテキスト260、背景コンテキストもしくは環境200における環境パラメータ(例えば、温度、音量、照明レベル、湿度など)またはこれらの組み合わせを決定する。
【0056】
非限定的な例が提示される。
【0057】
ステレオカメラ205は、状況コンテキスト・モジュール120のために状況コンテキスト・モジュール120に信号を提供し、状況コンテキスト・モジュール120は、身体姿勢認識を実行し、驚き、笑い、悲しみ、興奮などのような1以上のユーザ250の反応260を決定する。
【0058】
カメラ205は、状況コンテキスト・モジュール120に信号を提供し、状況コンテキスト・モジュール120は、顔認識を行い、表情に基づいて、ユーザ250の反応260を決定する。
【0059】
赤外線カメラ205は、状況コンテキスト・モジュール120に信号を提供し、状況コンテキスト・モジュール120は、ユーザ250の反応260を表す身体および顔の温度を決定する。
【0060】
温度計230センサ112は、環境モジュール140に信号を提供し、環境200の環境パラメータである周囲温度を測定する。
【0061】
マイクロフォン210は、環境モジュール140に信号を提供し、環境200内の周囲音レベルを決定する。
【0062】
マイクロフォン210は、状況コンテキスト・モジュール120に信号を提供し、状況コンテキスト・モジュール120は、音声および音(例えば、泣いている、笑っている)の認識を行う。1以上ユーザ250の反応260を決定するために自然言語処理NLPが使用されてもよい。いくつかの実施形態においては、状況コンテキスト・モジュール120は、NLPを実行し、再生するストーリーに言及しているキーフレーズを検出する。NLPは、ストーリーの進行もしくは終了またはこれらの両方に関するユーザ250の期待もしくはセンチメントまたはこれらの両方を示す、ユーザ250が話したフェーズ(phases)を検出することができる。
【0063】
センサ112から受信した画像データを用いて、状況コンテキスト・モジュール120は、ユーザ250の反応260の標示を与える可能性のある年齢認識を実行することができる。
【0064】
状況コンテキスト・モジュール120は、モーション・センサ112からのモーション・データ(例えば、迅速な動き、動きなし、歩き方など)を使用して、ユーザ反応260を決定することができる。
【0065】
背景コンテキスト・モジュール130は、ネットワーク110、ユーザ入力113(例えば、ユーザ調査)もしくは格納されたメモリ111またはこれらの組み合わせから受信した情報を使用して、1以上のユーザ250のユーザプロファイルを形成する。情報は、ソーシャル・メディア・アカウント上の記述およびアクティビティ、ソーシャル・メディア上のユーザグループおよび友人に関する情報、ユーザの検索活動、訪問したウェブ・サイト、求めた商品情報、購入されたアイテムなどから収集されてもよい。同様の情報は、携帯電話275のような補助デバイス上のアクティビティからアクセスされてもよい。もちろん、適切な許可およびアクセス特権が、この情報にアクセスする際に取得される必要がある。
【0066】
状況コンテキスト・モジュール120の出力は、センチメントもしくはユーザ反応またはこれらの両方のセットを含み、これらの各々は、ユーザの1以上についてのセンチメント/反応260のレベルを表す反応値/スコアを有する。これは、ユーザ250の各々のセンチメント・ステータスまたはセンチメント・パターンを表す。いくつかの実施形態においては、このセンチメント・パターン/ステータスは、
図4において説明するようなニューラル・ネットワークにおける状況コンテキスト副層に入力される。いくつかの実施形態においては、まず、ユーザ250は、それらのセンチメント・ステータスに従って分類される。いくつかの実施形態においては、アグリゲータは、複数のユーザ250のセンチメント/反応260を集約し、視聴者250もしくは視聴者全体250またはこれらの両方における1以上のグループ(250P,250C)のセンチメント・ステータスを表す、センチメント/反応260の集約されたセットおよび対応する値を決定する。ストーリーが再生されている間、センチメント・ステータスは、変化する可能性がある。
【0067】
背景コンテキスト・モジュール130の出力は、ユーザ250のうちの1以上のユーザ・プロファイルである。各ユーザ・プロファイルは、所与のユーザ250についてのユーザ特性の各々のレベルを表す関連特性値/スコアを有する複数のユーザ特性を有する。いくつかの実施形態においては、ユーザ・プロファイルは、類似度によってグループ化される。いくつかの実施形態においては、プロファイル・アグリゲータは、複数のユーザ250のプロファイルを集約し、視聴者250もしくは視聴者全体250またはこれらの両方における1以上のグループ(250P,250C)のプロファイルを表す、それぞれのプロファイル値/スコアを有する集約プロファイルを決定する。プロファイルは、ストーリーが再生されている間に変化する可能性があるが、いくつかの実施形態においては、プロファイルの変化は、あまり動的ではないと予想される。いくつかの実施形態においては、
図4で示すように、特性のプロファイルが、活性値のパターン410として、背景コンテキスト副層454に入力される。
【0068】
環境モジュール140の出力は、環境200の環境プロファイルである。環境プロファイルは、複数の環境パラメータを有し、各々は、所定の時刻に環境200において各パラメータが有するレベルを表す関連パラメータ値/スコアを有する。環境プロファイルは、ストーリーが再生される間変化する。制御システム160は、また、ストーリーラインの選択および順序付けを変更することによって、環境200およびひいては環境プロファイルを変更することができる。いくつかの実施形態においては、環境パラメータの環境プロファイルは、
図4に示すように、環境副層456に、活性値のパターン410として入力される。
【0069】
図3は、開始点301、代替開始点302、分岐点380、終了点309および代替終了点310を含む、1以上のメインストーリーライン(304,394)および1以上の代替ストーリーライン383を有するストーリー300を示す。
【0070】
図3は、開始点301から直接終了点309までのメインストーリーラインまたはストーリーの1以上のストーリーライン(303,323,333,343,363,393,典型的には383)を有するストーリー300の図である。ここには、第1のストーリーおよび代替ストーリーライン383を定義するストーリーライン383がある。代替ストーリーは、第1/オリジナルのストーリーにおいて、ストーリーライン383を加えること、挿入することもしくは削除することまたはこれらの組み合わせを行うことによって第1/オリジナルのストーリーから展開する。
【0071】
ストーリー300は、例えば開始点301および終了点309を有する。代替開始点302および代替終了点310が存在し得る。
【0072】
加えて、分岐点が存在する。分岐点は、ストーリー300における、ストーリーライン383を挿入、削除、または追加することによってストーリー300が変更され得る点である。いくつかの実施形態においては、代替的なストーリーライン383が、例えば分岐点340および345で開始および終了し、ストーリーの連続性を変えることなく、オリジナルのストーリーの内容を変更する。
【0073】
分岐点は、通常、ストーリーラインの開始点、例えば320、330、340、360,370,典型的には380、またはストーリーラインの終了点315、325、335、365、典型的には385と一致する。ストーリーラインの開始点380を分岐点に一致させ、ストーリーラインの終了点385を分岐点に一致させることによって、ストーリー300は、シーケンスにおける以前のストーリーラインの代わりに挿入されたストーリーラインを(分岐点に一致する開始点および終了点で)再生することによって変化する可能性がある。
【0074】
例えば、ストーリー300は、もとは、301で開始し、点301と分岐点315との間でストーリーライン304を再生するように順序付けされる。システムは、開始点302で開始し、ストーリーライン304の代わりにストーリーライン303を再生し、ストーリーライン303および304の両方の終了点で共通する分岐点315でストーリーライン303を終了させることによって、ストーリー300を変更することができる。ストーリーライン304をストーリーライン303の代わりに用いることによって、制御システム160は、ストーリー300におけるストーリーライン383の選択(303ではなく304を選択する)および順序付け(304を最初に再生し、303を再生しない)を変更した。
【0075】
さらなる例として、オリジナルのストーリー300が301で開始し、開始点301と直接309との間で単一のストーリーラインを再生することによって継続すると仮定する。このオリジナルのストーリーは、異なるストーリーラインを異なる順序で選択することによって、多くの方法で変更することができる。ストーリーは、301で開始し、分岐点320まで継続することができ、分岐点320では、ストーリーライン323が選択されて、分岐点325まで再生される。代替的に、オリジナルのストーリーが、302で開始し、分岐点330まで継続してもよく、分岐点330では、システム160は、ストーリーライン333を選択し、分岐点335においてオリジナルのストーリーラインに戻る。また再び、システムは、301から開始するストーリーラインを再生することができ、システム160は、ストーリーライン343を選択して、分岐点340で開始し、分岐点345でオリジナルのストーリーラインに戻ってくることができる。ストーリーライン393および394は、いずれのストーリーの終了点をシステムが分岐点370で選択し、再生するかに応じて、ストーリー300において代替終了点(309または310のいずれか)を提供する。代替ストーリーライン(例えば363)内において、例えばキュー点で、別のストーリーライン305を開始または終了することができる、分岐点367が存在し得ることに留意されたい。
【0076】
ストーリーライン383を”再生”することにより、順序付けられ再生された、選択されたストーリーライン383に対応する、上述したように、1以上の出力が、視聴者250にメディアを提供することを可能とする。
【0077】
図4は、本発明のニューラル・ネットワーク400の一実施形態のシステム・アーキテクチャ図である。
【0078】
ニューラル・ネットワーク400は、複数のニューロン、典型的には405を有する。ニューロン405の各々は、活性値410と参照される値を格納する。例えば、ニューロン405は、値”3”の活性値を保持する。明確化のため
図4においては、ニューロンおよび活性値の大部分には符番が付されていない。
【0079】
ニューラル・ネットワーク400は、複数の層、例えば、420、422,424、425、典型的には426を含む。第1層または入力層420と、最終層または出力層426が存在する。入力層420と出力層426との間には、1以上の隠れ層、例えば422,424が存在する。層425の各々は、複数のニューロン405を有する。いくつかの実施形態においては、層425の数および層各々におけるニューロン405の数は、実験によって経験的に決定される。
【0080】
いくつかの実施形態においては、前層の全てのニューロンは、それぞれ、エッジ415によって、次層のニューロンの各々に接続される。例えば、次(隠れ)層422の典型的なニューロン406は、エッジ415によって、入力層420内の各ニューロン405に個別に接続される。いくつかの実施形態においては、エッジ415の1以上は、関連する重みW418を有する。同様なやり方430で、次の層、例えば422の各ニューロン406は、エッジ415によって、前層、例えば420のニューロン405のすべてに接続される。同種の接続415が、第2の隠れ層424における各ニューロンと、第1の隠れ層422の各ニューロンとの間でなされ、同様に、出力層426の各ニューロン495と、第2隠れ層424のすべてのニューロンとの間でもなされる。これらの接続430は、明確化のため
図4には示されていない。
【0081】
いくつかの実施形態においては、各ニューロン406内の活性値410は、前層における各接続されたニューロン405の活性値410の重み付け総和によって決定される。各活性値410は、それぞれニューロン406を、前層、例えば420における対応するニューロン405の各々に接続するエッジ415の重み(W,418)によって重み付けされる。
【0082】
従って、前層、例えば420における活性値410のパターンは、それぞれのエッジ415の重み(w,418)とともに、次の層、例えば422における活性値406のパターンを決定する。同様のやり方で、前層、例えば422における活性値406のセットの重み付け総和は、各ニューロン、典型的には405の活性値、ひいては、次層、例えば424におけるニューロンの活性値のパターンを決定する。このプロセスは、出力層426におけるニューロン495の各々における活性値、典型的には490の活性値で表される、活性値のパターンが現れるまで継続する。よって、入力層420において活性値のパターン405が与えられると、ニューラル・ネットワーク400の構造、重み(w,418)およびバイアスb(以下に説明する。)は、出力層326におけるニューロン495の各々の活性値である活性値出力パターンを決定する。入力層420における活性値のセットが変化し、ひいては、出力層426における活性値のセットも同様に変化する。隠れ層(422,424)における変化する活性値のセットは、物理的な意味を有してもよくまたは有していなくともよい、抽象化のレベルである。
【0083】
いくつかの実施形態においては、入力層420は、2以上の副層、例えば452,454,および典型的には456に細分される。
【0084】
入力副層452は、状況コンテキスト副層452であり、状況コンテキスト・モジュール120の出力からの活性値410を受け取る。入力層452での活性値のパターンは、視聴者250のセンチメント/反応260のステータスを表す。例えば、状況コンテキスト副層452のニューロン405は、視聴者の幸福、興奮および不安などの反応を表す。
【0085】
入力副層454は、背景コンテキスト副層453であり、背景コンテキスト・モジュール130の出力からの活性値410を受け取る。背景コンテキスト副層454内のニューロン405の活性値410は、ユーザ/視聴者250のプロファイルにおける特性の値/スコアを表す。いくつかの実施形態においては、背景コンテキスト副層454における活性値410のパターンは、特性のユーザ/視聴者250のプロファイルの時点における背景コンテキスト・ステータスを表す。
【0086】
入力副層456は、環境副層456であり、環境モジュール140の出力からの活性値410を受け取る。環境副層456内のニューロン405の活性値410は、環境プロファイルにおける環境パラメータを表す値/スコアである。いくつかの実施形態においては、環境副層456内の活性値410のパターンは、ストーリーが再生されている間に時間的に変化するような環境プロファイル・ステータスを表す。
【0087】
いくつかの実施形態においては、出力層426は、2以上の副層、例えば、482および484、典型的には480に細分される。
【0088】
出力副層482は、どのストーリーラインが選択され、選択されたストーリーラインの各々が、例えば分岐点(380,385)で、いつ開始され、いつ終了するかを決定するニューロン495を有する。
【0089】
出力副層484は、どのように制御システム160がI/Oデバイス、特に、環境200を変えるための環境出力を制御するかを決定するニューロン495を有する。
【0090】
ニューラル・ネットワーク400における一の層から次の層への遷移の一数学的表現は、以下の通りである:
【0091】
【0092】
ここで、an
1は、次のレベル、ここではレベル1のn番目のニューロン406の活性値410であり;wn,kは、現在のレベル、ここではレベル0のk番目のニューロン405と、次のレベル、ここではレベル1のn番目のニューロン406との間のエッジ415の重み(w,418)であり;bnは、次のレベルのn番目のニューロン406の重み付け総和のためのバイアス値である。いくつかの実施形態においては、バイアス値は、ニューロンをオンするためのしきい値と考えることができる。
【0093】
項σは、スケーリング係数である。例えば、スケーリング係数は、シグモイド関数または正規化線形ユニット、例えばReLU(a)=max(0,a)とすることができる。
【0094】
ニューラル・ネットワークは、全ての重み(w,418)およびバイアスbについての値を求めることによって訓練される。いくつかの実施形態においては、既知の後方伝搬法が、重みおよびバイアス値を求めるために使用される。
【0095】
いくつかの実施形態においては、訓練を開始するために、重みおよびバイアスが、ランダム値またはある初期値セットのいずれかに設定される。出力層426の出力、すなわち活性値パターンが、所望の結果と比較される。損失関数(例えば、差分の二乗和の平方根)を介した実際の出力と所望の結果との比較は、所与の入力に対して出力が所望の出力にいかに近いかを測定する。損失関数は、重みおよびバイアスを所望の値に近づけるためにどれだけの大きさおよび方向で変化させるかを決定するための反復処理を介して、例えば勾配降下法によって、最小化される。重みおよびバイアスは、変更、すなわち後方伝播され、別の反復が行われる。出力層が、入力層に課された所与の活性値パターンに対して所望の結果に近い活性値パターンを生成するまで複数の反復が行われる。
【0096】
代替実施形態においては、ニューラル・ネットワーク400は、畳み込みニューラル・ネットワーク(CNN)である。CNNにおいては、隠れ層のうちの1以上が、畳み込み層であり、この畳み込み層では、層内のパターンを検出し、強調し、または強調を抑えるための1以上のフィルタを用いて畳み込みが実行される。例えば、画像におけるサブシェイプもしくは音声のサブパターンまたはこれらの両方を検出するための異なるフィルタ・タイプが存在する。好ましい実施形態においては、フィルタ470は、層に対する入力にわたる畳み込みをし、層に対する入力の新たなパターンを生成する、値の行列である。
【0097】
図5は、本発明の一実施形態を訓練するために用いられる訓練プロセス500のフローチャートである。
【0098】
訓練プロセス500は、訓練されていないニューラル・ネットワーク400とともに開始される。状況コンテキスト・モジュール120、背景コンテキスト・モジュール130および環境モジュール140から、初期の活性値パターンが入力層420に入力される。代替的には、入力はシミュレートされてもよい。
【0099】
例えば、状況コンテキスト・モジュール120の出力は、視聴者250のセンチメント/反応260のステータスを表す活性値410のパターンとして状況コンテキスト副層452に入力される(505)。背景コンテキスト・モジュール130の出力は、ある時点における背景コンテキスト・ステータスのステータスを表す活性値410のパターン、つまり、特性のユーザ/視聴者250プロファイルのステータスとして、背景コンテキスト副層454に入力される。環境モジュール140の出力は、環境プロファイルにおける環境パラメータのステータスを表す活性値410のパターンとして環境副層456に入力される(505)。
【0100】
ステップ510では、重み418およびバイアスbが初期的に設定される。
【0101】
ステップ520では、活性値410が出力層426に伝播される。
【0102】
ステップ530では、副層482の出力が、ストーリーラインの所望の選択および順序付けと比較される。さらに、副層484の出力が、環境出力の所望の構成と比較される。損失関数は、新しい重み418およびバイアスbのセットのために必要な変化の大きさおよび方向を決定するために最小化される。
【0103】
ステップ540において、新しい重み418およびバイアスbが、既知の方法によって後方伝播され、新しいセットの出力(482,484)が受領される。
【0104】
入力活性値を再入力した後、ステップ550で確認が行われる。副層482および484の出力が所望の選択および順序付けおよび環境出力の許容範囲内にあれば、プロセス500は、終了する。もしそうでなければ、制御は、ステップ530で損失関数を最小化するために戻り、処理が再び反復される。
【0105】
図6は、本発明の一実施形態の動作するステップを示す動作プロセス600のフローチャートである。
【0106】
ステップ605において、状況コンテキスト・モジュール120の出力が、視聴者250のセンチメント/反応260のステータスを表す活性値410のパターンとして、状況コンテキスト副層452に入力される(605)。背景コンテキスト・モジュール130の出力が、ある時点における背景コンテキスト・ステータスのステータスを表す活性値410のパターン、つまり、特性のユーザ/視聴者250のプロファイルのステータス、として、背景コンテキスト副層454に入力される(605)。環境モジュール140の出力が、環境プロファイルにおける環境パラメータのステータスを表す活性値410のパターンとして、環境副層456に入力される(605)。
【0107】
ステップ610では、副層484の出力が、環境コントローラ170に提供される。環境コントローラ170の出力は、I/Oコントローラおよびバス115を介して環境出力114を制御し、環境を変更する(620)。
【0108】
ステップ610において、副層482の出力は、選択モジュール150および順序付けモジュール165に提供される。選択モジュール150は、副層482内の活性値のパターンから、いずれのストーリーライン283を再生すべきとして選択されているかを決定する。順序付けモジュール165は、選択されたストーリーラインを再生するための順序付けを決定する。
【0109】
一実施形態のステップ630では、選択モジュール150は、利用可能なストーリーラインのリストを調べる。ストーリーラインが選択されない場合、副層482の活性値のパターンによって指定された全てのストーリーラインに当たり、選択するまで、リストの調べを継続する。代替実施形態においては、副層482の活性値のパターンは、どのストーリーラインが選択されるかを直接識別する。
【0110】
順序付けモジュール165は、副層482の活性値のパターンから、選択されたストーリーが再生されるシーケンスを決定する。副層482の活性値のパターンは、また、選択されたストーリーラインが開始および終了する分岐点を決定する。ステップ640は、ストーリーを再生することまたはストーリーが再生されるシーケンスをモニタする。ステップ640において、順序付けモジュール165は、分岐点に到達したかどうかを判定し、順序付けモジュール165が、この分岐点において、選択されたストーリーラインの1つを変更(例えば、追加、削除、挿入)する必要があるかどうかを判定する。そうでなければ、順序付けモジュール165は、次の分岐点に到達するまで待機し、再び判定が行われる。
【0111】
選択されたストーリーラインからのストーリーラインが分岐点で再生される必要がある場合には、ステップ650においてストーリーラインが変化する。新しいストーリーラインが再生され、(例えば、副層482の活性値のパターンによって示されるように)適切な分岐点で終了し、シーケンスにおけるこの時点では、オリジナルのストーリーラインが再生されない。
【0112】
本開示の種々の実施形態の説明が、説明のために提示されたが、しかしながら、網羅的であること、または、開示される実施形態に限定されることを意図するものではない。説明される実施形態の範囲および精神を逸脱することなく、多くの変更および変形が当業者にとって明らかであろう。本明細書で使用される用語は、実施形態の原理、実際の応用または市場で発見される技術に対する技術的改善を最もよく説明するために、あるいは、他の当業者が、本明細書で開示される実施形態を理解できるように選ばれたものである。
【手続補正書】
【提出日】2024-05-20
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
ニューラル・ネットワークを訓練する方法であって、
複数のセンチメント活性値およびセンチメント・ニューロンについて、それぞれ、状況コンテキスト入力副層におけるセンチメント・ニューロンにセンチメント活性値を入力するステップであって、前記状況コンテキスト入力副層は、前記ニューラル・ネットワークの入力層の一部であり、前記センチメント活性値は、センチメント入力パターンを形成する、入力するステップと、
複数の環境活性値および環境ニューロンについて、それぞれ、環境入力副層における環境ニューロンに環境活性値を入力するステップであって、前記環境入力副層は、前記ニューラル・ネットワークの前記入力層の一部であり、前記環境活性値は、環境入力パターンを形成する、入力するステップと、
前記センチメント入力パターンおよび前記環境入力パターンを、前記ニューラル・ネットワークを通して伝播させるステップと、
前記ニューラル・ネットワークの出力層に適用される損失関数を最小化することによって、1以上の重みおよび1以上のバイアスをどれだけ変化するかを決定するステップであって、前記出力層は、それぞれ出力活性値を有する、選択または順序付け出力副層および環境出力副層を有する、決定するステップと、
前記重みおよび前記バイアスを変化させるために後方伝搬するステップと、
前記出力活性値が所望の結果に達するまで前2ステップを繰り返し、訓練を終了させるステップと
を含む、方法。
【請求項2】
前記方法は、前記訓練が終了した後、
1以上の選択されたストーリーラインを選択するステップと、
初期ストーリー内で選択された前記ストーリーラインを挿入するステップであって、選択された前記ストーリーラインの開始点は、前記初期ストーリーの開始分岐点で開始され、選択された前記ストーリーラインの終了点は、前記初期ストーリーの終了分岐点で終了される、挿入するステップと、
を含む、請求項1に記載の方法。
【請求項3】
前記環境出力副層は、選択された前記ストーリーラインに関連付けられた1以上の環境出力を制御する出力活性値の動的パターンを有する、請求項2に記載の方法。
【請求項4】
前記環境出力は、ボリューム・コントロール、照明コントロール、温度コントロール、湿度コントロール、加熱システム・コントロール、冷却システム・コントロールおよび気流コントロールのうちの1以上を含む、請求項3に記載の方法。
【請求項5】
選択された前記ストーリーラインの1以上は、分岐点で始まり、分岐点で終わる、請求項2~4のいずれか1項に記載の方法。
【請求項6】
選択された前記ストーリーラインを選択するステップおよび選択された前記ストーリーラインを順序付けするステップは、動的センチメント入力パターンによって決定される、請求項2~5のいずれか1項に記載の方法。
【請求項7】
前記ニューラル・ネットワークは、畳み込みニューラル・ネットワーク(CNN)である、請求項1~6のいずれか1項に記載の方法。
【請求項8】
前記ニューラル・ネットワークは、さらに、背景コンテキスト入力副層を含む、請求項1~7のいずれか1項に記載の方法。
【請求項9】
前記背景コンテキスト入力副層の1以上のニューロンの活性値は、
視聴者層、年齢、教育水準、社会経済的状態、収入水準、社会的および政治的な観点、ユーザ・プロファイル、好き、嫌い、時刻、視聴者のユーザ数、天候、視聴者の位置
のうちの1以上の表現を含む、請求項8に記載の方法。
【請求項10】
システムを管理するためのコンピュータ・プログラムを格納する記録媒体であって、
処理回路によって可読であり、かつ、前記処理回路によって、請求項1~9のいずれか1項に記載の方法を実行するための実行命令を格納する、記録媒体。
【請求項11】
コンピュータ可読媒体に格納され、デジタル・コンピュータの内部メモリに読み込み可能なコンピュータ・プログラムであって、前記プログラムがコンピュータ上で実行された場合、請求項1~9のいずれか1項に記載の方法を実行するためのソフトウェア・コード部分を含む、プログラム。
【請求項12】
ニューラル・ネットワークを訓練するためのシステムであって、
1以上のプロセッサと、
前記1以上のプロセッサに接続される1以上のメモリと
を含み、前記1以上のプロセッサは、前記1以上のメモリに格納されたプログラム命令を実行することにより方法を実行し、前記方法は、
複数のセンチメント活性値およびセンチメント・ニューロンについて、それぞれ、状況コンテキスト入力副層におけるセンチメント・ニューロンにセンチメント活性値を入力するステップであって、前記状況コンテキスト入力副層は、前記ニューラル・ネットワークの入力層の一部であり、前記センチメント活性値は、センチメント入力パターンを形成する、入力するステップと、
複数の環境活性値および環境ニューロンについて、それぞれ、環境入力副層における環境ニューロンに環境活性値を入力するステップであって、前記環境入力副層は、前記ニューラル・ネットワークの前記入力層の一部であり、前記環境活性値は、環境入力パターンを形成する、入力するステップと、
前記センチメント入力パターンおよび前記環境入力パターンを、前記ニューラル・ネットワークを通して伝播させるステップと、
前記ニューラル・ネットワークの出力層に適用される損失関数を最小化することによって、1以上の重みおよび1以上のバイアスをどれだけ変化するかを決定するステップであって、前記出力層は、それぞれ出力活性値を有する、選択または順序付け出力副層および環境出力副層を有する、決定するステップと、
前記重みおよび前記バイアスを変化させるために後方伝搬するステップと、
前記出力活性値が所望の結果に達するまで前2ステップを繰り返し、訓練を終了させるステップと
を含む、システム。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0112
【補正方法】変更
【補正の内容】
【0112】
種々の実施形態が、以下の番号付き条項において特定される:
(付記1)
メディア・ストリームを適合させるための制御システムであって、
入力層、1以上の隠れ層および出力層を有するニューラル・ネットワークであって、前記入力層は、状況コンテキスト入力副層および環境入力副層を有し、前記出力層は、選択または順序付け出力副層および環境出力副層を有し、前記層の各々は、複数のニューロンを有し、前記複数のニューロンの各々は、活性値を有する、前記ニューラル・ネットワークと、
それぞれ、視聴者をモニタする1以上のセンサからの1以上のコンテキスト入力と、前記状況コンテキスト入力副層に接続された1以上のセンチメント出力とを有する1以上の状況コンテキスト・モジュールと、
1以上の環境センサ入力と、前記環境入力副層に接続された環境出力とを有する1以上の環境情報モジュールと、
前記選択または順序付け出力副層に接続された1以上の選択モジュールと、
前記選択または順序付け出力副層に接続された1以上の順序付けモジュールと
を含み、前記選択モジュールは、1以上の選択されたストーリーラインを選択するために動作可能であり、前記順序付けモジュールは、選択された前記ストーリーラインを、再生されるストーリーに順序付けするために動作可能である、制御システム。
(付記2)
前記コンテキスト入力は、顔画像、赤外線画像、音声入力、音声ボリューム・レベル検出器、テキスト、話し言葉、携帯電話入力、心拍、血圧および呼吸数のうちの1以上を含む、付記1に記載の制御システム。
(付記3)
前記状況コンテキスト・モジュールは、
顔認識、位置認識、自然言語処理(NLP)、キーフレーズの認識および音声認識
の機能のうちの1以上を実行するように動作可能である、付記1または2に記載の制御システム。
(付記4)
前記センチメント出力は、
気持ち、感情、笑い、悲しみ、期待、恐れ、興奮、環境に対する反応、1以上のストーリーラインに対する反応
のうちの1以上の視聴者センチメントを表す、付記1~3のいずれかに記載の制御システム。
(付記5)
前記環境センサ入力は、
オーディオ・キャプチャ・デバイス、マイクロフォン、ビデオ・キャプチャ・デバイス、カメラ、赤外線カメラ、ネットワーク接続、気象入力、位置センサ、携帯電話、温度計、湿度検出器、気流検出器、光強度検出器、光検出器およびモーション・センサ
のうちの1以上を含む、付記1~4のいずれかに記載の制御システム。
(付記6)
前記環境出力は、ボリューム・コントロール、照明コントロール、温度コントロール、湿度コントロール、加熱システム・コントロール、冷却システム・コントロールおよび気流コントロールのうちの1以上を含む、付記1~5のいずれかに記載の制御システム。
(付記7)
前記選択モジュールは、前記ニューラル・ネットワークにより処理された、前記センチメント出力の動的パターンおよび前記環境出力の動的パターンに基づいて、選択された前記ストーリーラインの1以上を選択するために動作可能である、付記1~6のいずれかに記載の制御システム。
(付記8)
前記順序付けモジュールは、前記ニューラル・ネットワークにより処理された、前記センチメント出力の動的パターンおよび前記環境出力の動的パターンに基づいて、選択された前記ストーリーラインの1以上を順序付けするために動作可能である、付記1~7のいずれかに記載の制御システム。
(付記9)
前記ニューラル・ネットワークは、畳み込みニューラル・ネットワーク(CNN)である、付記1~8のいずれかに記載の制御システム。
(付記10)
選択された前記ストーリーラインの1以上は、分岐点で始まり、分岐点で終わる、付記1~9のいずれかに記載の制御システム。
(付記11)
前記ニューラル・ネットワークは、さらに、背景コンテキスト入力副層を含む、付記1~10のいずれかに記載の制御システム。
(付記12)
前記背景コンテキスト入力副層の1以上のニューロンの活性値は、
視聴者層、年齢、教育水準、社会経済的状態、収入水準、社会的および政治的な観点、ユーザ・プロファイル、好き、嫌い、時刻、視聴者のユーザ数、天候、視聴者の位置
のうちの1以上の表現を含む、付記11に記載の制御システム。
(付記13)
1以上のユーザの背景コンテキスト情報が
ソーシャル・メディアの投稿、ソーシャル・メディアの使用量、携帯電話の使用量、視聴者調査、検索履歴、カレンダー、システム時計、画像分析および位置情報のソースのうち
の1以上のソースから生まれている、付記11または12に記載の制御システム。
(付記14)
前記選択モジュールは、選択された前記ストーリーラインの1以上を選択するために動作可能であり、前記順序付けモジュールは、前記ニューラル・ネットワークにより処理された、センチメント出力の動的パターン、背景コンテキストおよび環境出力に基づいて、選択された前記ストーリーラインの1以上を順序付けする、付記11~13のいずれかに記載の制御システム。
(付記15)
ニューラル・ネットワークを訓練する方法であって、
複数のセンチメント活性値およびセンチメント・ニューロンについて、それぞれ、状況コンテキスト入力副層におけるセンチメント・ニューロンにセンチメント活性値を入力するステップであって、前記状況コンテキスト入力副層は、前記ニューラル・ネットワークの入力層の一部であり、前記センチメント活性値は、センチメント入力パターンを形成する、入力するステップと、
複数の環境活性値および環境ニューロンについて、それぞれ、環境入力副層における環境ニューロンに環境活性値を入力するステップであって、前記環境入力副層は、前記ニューラル・ネットワークの前記入力層の一部であり、前記環境活性値は、環境入力パターンを形成する、入力するステップと、
前記センチメント入力パターンおよび前記環境入力パターンを、前記ニューラル・ネットワークを通して伝播させるステップと、
前記ニューラル・ネットワークの出力層に適用される損失関数を最小化することによって、1以上の重みおよび1以上のバイアスをどれだけ変化するかを決定するステップであって、前記出力層は、それぞれ出力活性値を有する、選択または順序付け出力副層および環境出力副層を有する、決定するステップと、
前記重みおよび前記バイアスを変化させるために後方伝搬するステップと、
前記出力活性値が所望の結果に達するまで前2ステップを繰り返し、訓練を終了させるステップと
を含む、方法。
(付記16)
前記方法は、前記訓練が終了した後、
1以上の選択されたストーリーラインを選択するステップと、
初期ストーリー内で選択された前記ストーリーラインを挿入するステップであって、選択された前記ストーリーラインの開始点は、前記初期ストーリーの開始分岐点で開始され、選択された前記ストーリーラインの終了点は、前記初期ストーリーの終了分岐点で終了される、挿入するステップと、
を含む、付記15に記載の方法。
(付記17)
前記環境出力層は、選択された前記ストーリーラインに関連付けられた1以上の環境出力を制御する出力活性値の動的パターンを有する、付記16に記載の方法。
(付記18)
選択された前記ストーリーラインを選択するステップおよび選択された前記ストーリーラインを順序付けするステップは、動的センチメント入力パターンによって決定される、付記16または17に記載の方法。
(付記19)
付記1~14のいずれかに記載の制御システムを制御するための制御実装方法であって、前記方法は、
視聴者と、状況コンテキスト入力副層に接続された1以上のセンチメント出力とをモニタするステップと、
1以上の選択されたストーリーラインを選択するステップと、
選択された前記ストーリーラインを、再生されるストーリーに順序付けするステップと
を含む、方法。
(付記20)
システムを管理するためのコンピュータ・プログラム製品であって、
処理回路によって可読であり、かつ、前記処理回路によって、付記15~19のいずれかに記載の方法を実行するための実行命令を格納するコンピュータ可読ストレージ媒体
を含む、コンピュータ・プログラム製品。
(付記21)
コンピュータ可読媒体に格納され、デジタル・コンピュータの内部メモリに読み込み可能なコンピュータ・プログラムであって、前記プログラムがコンピュータ上で実行された場合、付記15~19のいずれかに記載の方法を実行するための前記ソフトウェア・コード部分を含む、プログラム。
なお、上述したように、本発明の実施形態において、コンテキスト入力は、顔画像、赤外線画像、音声入力、音声ボリューム・レベル検出器、テキスト、話し言葉、携帯電話入力、心拍、血圧および呼吸数のうちの1以上を含み得る。また、背景コンテキスト入力副層の1以上のニューロンの活性値は、視聴者層、年齢、教育水準、社会経済的ステータス、収入水準、社会的および政治的な観点、ユーザ・プロファイル、好き、嫌い、時刻、視聴者のユーザ数、天候、視聴者の位置のうちの1以上の表現を含み得る。さらに、1以上のユーザの背景コンテキスト情報は、ソーシャル・メディアの投稿、ソーシャル・メディアの使用量、携帯電話の使用量、視聴者調査、検索履歴、カレンダー、システム時計、画像分析および位置情報のソースのうちの1以上のソースから生まれ得る。もちろん、適切な許可およびアクセス特権が、情報にアクセスする際に取得される必要がある。
本開示の種々の実施形態の説明が、説明のために提示されたが、しかしながら、網羅的であること、または、開示される実施形態に限定されることを意図するものではない。説明される実施形態の範囲および精神を逸脱することなく、多くの変更および変形が当業者にとって明らかであろう。本明細書で使用される用語は、実施形態の原理、実際の応用または市場で発見される技術に対する技術的改善を最もよく説明するために、あるいは、他の当業者が、本明細書で開示される実施形態を理解できるように選ばれたものである。