(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-09-26
(54)【発明の名称】生成的敵対ネットワークによるデジタルスクリプトの修正
(51)【国際特許分類】
G06N 3/0475 20230101AFI20240918BHJP
G06T 3/4046 20240101ALI20240918BHJP
G06T 13/40 20110101ALI20240918BHJP
G06T 13/60 20110101ALI20240918BHJP
【FI】
G06N3/0475
G06T3/4046
G06T13/40
G06T13/60
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024509470
(86)(22)【出願日】2022-08-25
(85)【翻訳文提出日】2024-02-16
(86)【国際出願番号】 CN2022114746
(87)【国際公開番号】W WO2023030157
(87)【国際公開日】2023-03-09
(32)【優先日】2021-09-03
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】390009531
【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MACHINES CORPORATION
【住所又は居所原語表記】New Orchard Road, Armonk, New York 10504, United States of America
(74)【代理人】
【識別番号】100112690
【氏名又は名称】太佐 種一
(74)【代理人】
【識別番号】100120710
【氏名又は名称】片岡 忠彦
(74)【復代理人】
【識別番号】100104880
【氏名又は名称】古部 次郎
(74)【復代理人】
【識別番号】100118108
【氏名又は名称】久保 洋之
(72)【発明者】
【氏名】ラクシット、サルバジット、ケー
(72)【発明者】
【氏名】サンタル、サティヤ
(72)【発明者】
【氏名】ジャワハルラール、サミュエル、マシュー
(72)【発明者】
【氏名】カンナン、スリデヴィ
【テーマコード(参考)】
5B050
5B057
【Fターム(参考)】
5B050AA08
5B050AA09
5B050BA08
5B050BA09
5B050BA11
5B050BA12
5B050CA01
5B050EA24
5B050EA26
5B050FA02
5B050FA05
5B057CA01
5B057CA08
5B057CA12
5B057CA16
5B057CB01
5B057CB08
5B057CB12
5B057CB16
5B057CD05
5B057CE08
5B057CE09
5B057CE10
5B057DA16
5B057DB02
5B057DB06
5B057DB09
5B057DC40
(57)【要約】
デジタルスクリプトの修正を実施するためのシステム、方法、およびコンピュータプログラム製品が提供される。本方法は、デジタルストーリーのテキストコンテンツに関連する画像シーケンスを生成することを含む。テキストコンテンツ内の複数のコンテキスト次元が識別され、次元のグループが選択される。次元のグループと組み合わされた画像シーケンスが拡大または縮小され、次元のグループとの検出された相互作用に基づいて、画像シーケンスが変更される。デジタルストーリーの提示中に、次元のグループから次元が抽出され、次元を修正するために、スクリプトライターが有効化される。画像シーケンスが修正され、様々な画像シーケンスと対話し、複数のコンテキスト次元を変更するために、ハードウェアインタフェース装置が有効化される。デジタルストーリーのテキストコンテンツは動的に変更される。
【選択図】
図2
【特許請求の範囲】
【請求項1】
コンピュータ可読メモリユニットに結合されたプロセッサを含む生成的敵対ネットワーク(GAN)ハードウェア装置であって、前記メモリユニットは、前記プロセッサによって実行されたときに、自然言語処理(NLP)を可能にするデジタルスクリプト修正方法を実施する命令を含み、前記方法は、
前記プロセッサによって、デジタルストーリーのテキストコンテンツに関連する画像シーケンスを生成することと、
前記プロセッサによって、NLPコードを実行することを介して、前記テキストコンテンツ内の複数のコンテキスト次元を識別することと、
前記プロセッサによって、ユーザ入力に応答して、前記複数のコンテキスト次元の次元のグループを選択することと、
前記プロセッサによって、前記画像シーケンスを前記次元のグループと組み合わせて拡大または縮小することと、
前記プロセッサによって、前記次元のグループとの検出された相互作用に基づいて、前記画像シーケンスを変更することと、
前記プロセッサによって、前記デジタルストーリーと前記画像シーケンスの提示中に、前記次元のグループから次元を抽出することと、
前記プロセッサによって、前記次元を修正するために、前記デジタルストーリーの前記テキストコンテンツに関連するスクリプトライターを有効化することと、
前記プロセッサによって、前記有効化に応答して生じる前記次元の修正に基づいて、前記画像シーケンスを修正することと、
前記プロセッサによって、前記画像シーケンスの様々な画像シーケンスと対話し、前記複数のコンテキスト次元を変更するために、ハードウェアインタフェース装置を有効化することと、
前記プロセッサによって、前記有効化に応答して、前記デジタルストーリーの前記テキストコンテンツを動的に変更することと、
を含む、生成的敵対ネットワーク(GAN)ハードウェア装置。
【請求項2】
前記複数のコンテキスト次元は、天候次元、イベント次元、位置次元、時間次元、物理的X、Y、Z位置次元、および速度次元からなるグループから選択される次元を含む、請求項1に記載のGANハードウェア装置。
【請求項3】
前記方法は、さらに、
前記プロセッサによって、前記ハードウェアインタフェース装置を介して、前記画像シーケンスに追加のコンテキスト次元を追加するために、前記スクリプトライターを有効化することと、
前記プロセッサによって、前記追加のコンテキスト次元に関して、前記画像シーケンスに第1の修正を行うことと、
前記第1の修正の結果に関して逆GANモデルを実行する前記プロセッサによって、前記テキストコンテンツに第2の修正を行うことと、
を含む、請求項1に記載のGANハードウェア装置。
【請求項4】
前記方法は、さらに、
前記プロセッサによって、前記ハードウェアインタフェース装置を介して、前記画像シーケンスの少なくとも1つの視覚オブジェクトを選択的に変更するために、前記スクリプトライターを有効化することと、
前記スクリプトライターを前記有効化した結果に関して逆GANモデルを実行する前記プロセッサによって、前記テキストコンテンツを修正することと、
を含む、請求項1に記載のGANハードウェア装置。
【請求項5】
前記方法は、さらに、
前記プロセッサによって、前記ハードウェアインタフェース装置を介して、前記画像シーケンスから少なくとも1つの視覚オブジェクトを選択的に除去するために、前記スクリプトライターを有効化することと、
前記スクリプトライターを前記有効化した結果に関して逆GANモデルを実行する前記プロセッサによって、前記テキストコンテンツを修正することと、
を含む、請求項1に記載のGANハードウェア装置。
【請求項6】
前記方法は、さらに、
前記プロセッサによって、前記ハードウェアインタフェース装置を介して、前記画像シーケンスに少なくとも1つの視覚オブジェクトを選択的に追加するために、前記スクリプトライターを有効化することと、
前記スクリプトライターを前記有効化した結果に関して逆GANモデルを実行する前記プロセッサによって、前記テキストコンテンツを修正することと、
を含む、請求項1に記載のGANハードウェア装置。
【請求項7】
前記方法は、さらに、
前記プロセッサによって、前記様々な画像シーケンスとの相互作用の間、前記ハードウェアインタフェース装置を介して、前記画像シーケンスの複数の画像シーケンスを分割するために、前記スクリプトライターを有効化することと、
前記プロセッサによって、前記スクリプトライターを前記有効化した結果に応答して、前記テキストコンテンツを分割することと、
前記プロセッサによって、前記分割に応答して、前記デジタルストーリーのための新しいテキストコンテンツを生成することと、
を含む、請求項1に記載のGANハードウェア装置。
【請求項8】
前記方法は、さらに、
前記プロセッサによって、前記様々な画像シーケンスとの相互作用の間、前記ハードウェアインタフェース装置を介して、前記画像シーケンスの複数の画像シーケンスをつなぎ合わせるために、前記スクリプトライターを有効化することと、
前記プロセッサによって、前記スクリプトライターを前記有効化した結果に応答して、前記テキストコンテンツをマージすることと、
前記プロセッサによって、前記マージに応答して、前記デジタルストーリーのための新しいテキストコンテンツを生成することと、
を含む、請求項1に記載のGANハードウェア装置。
【請求項9】
前記ハードウェアインタフェース装置は、仮想現実(VR)インタフェース装置を備える、請求項1に記載のGANハードウェア装置。
【請求項10】
自然言語処理(NLP)を可能にするデジタルスクリプト修正方法であって、
生成的敵対ネットワーク(GAN)ハードウェア装置のプロセッサによって、デジタルストーリーのテキストコンテンツに関連する画像シーケンスを生成することと、
前記プロセッサによって、NLPコードを実行することを介して、前記テキストコンテンツ内の複数のコンテキスト次元を識別することと、
前記プロセッサによって、ユーザ入力に応答して、前記複数のコンテキスト次元の次元のグループを選択することと、
前記プロセッサによって、前記画像シーケンスを前記次元のグループと組み合わせて拡大または縮小することと、
前記プロセッサによって、前記次元のグループとの検出された相互作用に基づいて、前記画像シーケンスを変更することと、
前記プロセッサによって、前記デジタルストーリーと前記画像シーケンスの提示中に、前記次元のグループから次元を抽出することと、
前記プロセッサによって、前記次元を修正するために、前記デジタルストーリーの前記テキストコンテンツに関連するスクリプトライターを有効化することと、
前記プロセッサによって、前記有効化に応答して生じる前記次元の修正に基づいて、前記画像シーケンスを修正することと、
前記プロセッサによって、前記画像シーケンスの様々な画像シーケンスと対話し、前記複数のコンテキスト次元を変更するために、ハードウェアインタフェース装置を有効化することと、
前記プロセッサによって、前記有効化に応答して、前記デジタルストーリーの前記テキストコンテンツを動的に変更することと、
を含む、方法。
【請求項11】
前記複数のコンテキスト次元は、天候次元、イベント次元、位置次元、時間次元、物理的X、Y、Z位置次元、および速度次元からなるグループから選択される次元を含む、請求項10に記載の方法。
【請求項12】
前記方法は、さらに、
前記プロセッサによって、前記ハードウェアインタフェース装置を介して、前記画像シーケンスに追加のコンテキスト次元を追加するために、前記スクリプトライターを有効化することと、
前記プロセッサによって、前記追加のコンテキスト次元に関して、前記画像シーケンスに第1の修正を行うことと、
前記第1の修正の結果に関して逆GANモデルを実行する前記プロセッサによって、前記テキストコンテンツに第2の修正を行うことと、
を含む、請求項10に記載の方法。
【請求項13】
前記プロセッサによって、前記ハードウェアインタフェース装置を介して、前記画像シーケンスの少なくとも1つの視覚オブジェクトを選択的に変更するために、前記スクリプトライターを有効化することと、
前記スクリプトライターを前記有効化した結果に関して逆GANモデルを実行する前記プロセッサによって、前記テキストコンテンツを修正することと、
をさらに含む、請求項10に記載の方法。
【請求項14】
前記プロセッサによって、前記ハードウェアインタフェース装置を介して、前記画像シーケンスから少なくとも1つの視覚オブジェクトを選択的に除去するために、前記スクリプトライターを有効化することと、
前記スクリプトライターを前記有効化した結果に関して逆GANモデルを実行する前記プロセッサによって、前記テキストコンテンツを修正することと、
をさらに含む、請求項10に記載の方法。
【請求項15】
前記プロセッサによって、前記ハードウェアインタフェース装置を介して、前記画像シーケンスに少なくとも1つの視覚オブジェクトを選択的に追加するために、前記スクリプトライターを有効化することと、
前記スクリプトライターを前記有効化した結果に関して逆GANモデルを実行する前記プロセッサによって、前記テキストコンテンツを修正することと、
をさらに含む、請求項10に記載の方法。
【請求項16】
前記プロセッサによって、前記様々な画像シーケンスとの相互作用の間、前記ハードウェアインタフェース装置を介して、前記画像シーケンスの複数の画像シーケンスを分割するために、前記スクリプトライターを有効化することと、
前記プロセッサによって、前記スクリプトライターを前記有効化した結果に応答して、前記テキストコンテンツを分割することと、
前記プロセッサによって、前記分割に応答して、前記デジタルストーリーのための新しいテキストコンテンツを生成することと、
をさらに含む、請求項10に記載の方法。
【請求項17】
前記プロセッサによって、前記様々な画像シーケンスとの相互作用の間、前記ハードウェアインタフェース装置を介して、前記画像シーケンスの複数の画像シーケンスをつなぎ合わせるために、前記スクリプトライターを有効化することと、
前記プロセッサによって、前記スクリプトライターを前記有効化した結果に応答して、前記テキストコンテンツをマージすることと、
前記プロセッサによって、前記マージに応答して、前記デジタルストーリーのための新しいテキストコンテンツを生成することと、
をさらに含む、請求項10に記載の方法。
【請求項18】
前記ハードウェアインタフェース装置は、仮想現実(VR)インタフェース装置を備える、請求項10に記載の方法。
【請求項19】
前記サーバにおけるコンピュータ可読コードの作成、統合、ホスティング、維持、および展開のうちの少なくとも1つのための少なくとも1つのサポートサービスを提供することであって、前記コードは、前記プロセッサによって実行され、前記プロセッサに、前記生成、前記識別、前記選択、前記拡大または前記縮小、前記変更、前記抽出、前記スクリプトライターの前記有効化、前記修正、前記ハードウェアインタフェース装置の前記有効化、および前記動的な変更を実行させる、提供すること
をさらに含む、請求項10に記載の方法。
【請求項20】
コンピュータ可読プログラムコードを記憶するコンピュータ可読ハードウェア記憶装置を備え、前記コンピュータ可読プログラムコードは、サーバのプロセッサによって実行されたときに、自然言語処理(NLP)を可能にするデジタルスクリプト修正方法を実施するアルゴリズムを含み、前記方法は、
前記プロセッサによって、デジタルストーリーのテキストコンテンツに関連する画像シーケンスを生成することと、
前記プロセッサによって、NLPコードを実行することを介して、前記テキストコンテンツ内の複数のコンテキスト次元を識別することと、
前記プロセッサによって、ユーザ入力に応答して、前記複数のコンテキスト次元の次元のグループを選択することと、
前記プロセッサによって、前記画像シーケンスを前記次元のグループと組み合わせて拡大または縮小することと、
前記プロセッサによって、前記次元のグループとの検出された相互作用に基づいて、前記画像シーケンスを変更することと、
前記プロセッサによって、前記デジタルストーリーと前記画像シーケンスの提示中に、前記次元のグループから次元を抽出することと、
前記プロセッサによって、前記次元を修正するために、前記デジタルストーリーの前記テキストコンテンツに関連するスクリプトライターを有効化することと、
前記プロセッサによって、前記有効化に応答して生じる前記次元の修正に基づいて、前記画像シーケンスを修正することと、
前記プロセッサによって、前記画像シーケンスの様々な画像シーケンスと対話し、前記複数のコンテキスト次元を変更するために、ハードウェアインタフェース装置を有効化することと、
前記プロセッサによって、前記有効化に応答して、前記デジタルストーリーの前記テキストコンテンツを動的に変更することと、
を含む、コンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、一般的には、デジタルスクリプトを修正するための方法に関し、特に、デジタルストーリーのテキストコンテンツに関連する画像シーケンスを生成および修正し、関連するデジタルテキストコンテンツを動的に変更することに関連するソフトウェア技術を改善するための方法および関連システムに関する。
【発明の概要】
【0002】
本発明の第1の態様は、コンピュータ可読メモリユニットに結合されたプロセッサを含む生成的敵対ネットワーク(GAN)ハードウェア装置であって、メモリユニットは、プロセッサによって実行されたときに、自然言語処理(NLP)を可能にするデジタルスクリプト修正方法を実施する命令を含み、方法は、プロセッサによって、デジタルストーリーのテキストコンテンツに関連する画像シーケンスを生成することと、プロセッサがNLPコードを実行することを介して、テキストコンテンツ内の複数のコンテキスト次元を識別することと、プロセッサがユーザ入力に応答することによって、複数のコンテキスト次元の次元のグループを選択することと、プロセッサによって、画像シーケンスを次元のグループと組み合わせて拡大または縮小することと、プロセッサによって、次元のグループとの検出された相互作用に基づいて、画像シーケンスを変更することと、プロセッサがデジタルストーリーと画像シーケンスの提示中に、次元のグループから次元を抽出することと、プロセッサによって、次元を修正するために、デジタルストーリーのテキストコンテンツに関連するスクリプトライターを有効化することと、プロセッサによって、有効化に応答して生じる次元の修正に基づいて、画像シーケンスを修正することと、プロセッサによって、画像シーケンスの様々な画像シーケンスと対話し、複数のコンテキスト次元を変更するために、ハードウェアインタフェース装置を有効化することと、プロセッサが有効化に応答して、デジタルストーリーのテキストコンテンツを動的に変更することと、を含む、生成的敵対ネットワーク(GAN)ハードウェア装置を提供する。
【0003】
本発明の第2の態様は、自然言語処理(NLP)を可能にするデジタルスクリプト修正方法であって、生成的敵対ネットワーク(GAN)ハードウェア装置のプロセッサによって、デジタルストーリーのテキストコンテンツに関連する画像シーケンスを生成することと、プロセッサがNLPコードを実行することを介して、テキストコンテンツ内の複数のコンテキスト次元を識別することと、プロセッサがユーザ入力に応答することによって、複数のコンテキスト次元の次元のグループを選択することと、プロセッサによって、画像シーケンスを次元のグループと組み合わせて拡大または縮小することと、プロセッサによって、次元のグループとの検出された相互作用に基づいて、画像シーケンスを変更することと、プロセッサがデジタルストーリーと画像シーケンスの提示中に、次元のグループから次元を抽出することと、プロセッサによって、次元を修正するために、デジタルストーリーのテキストコンテンツに関連するスクリプトライターを有効化することと、プロセッサによって、有効化に応答して生じる次元の修正に基づいて、画像シーケンスを修正することと、プロセッサによって、画像シーケンスの様々な画像シーケンスと対話し、複数のコンテキスト次元を変更するために、ハードウェアインタフェース装置を有効化することと、プロセッサが有効化に応答して、デジタルストーリーのテキストコンテンツを動的に変更することと、を含む、自然言語処理(NLP)を可能にするデジタルスクリプト修正方法を提供する。
【0004】
本発明の第3の態様は、コンピュータ可読プログラムコードを記憶するコンピュータ可読ハードウェア記憶装置を備え、コンピュータ可読プログラムコードは、サーバのプロセッサによって実行されたときに、自然言語処理(NLP)を可能にするデジタルスクリプト修正方法を実施するアルゴリズムを含み、方法は、プロセッサによって、デジタルストーリーのテキストコンテンツに関連する画像シーケンスを生成することと、プロセッサがNLPコードを実行することを介して、テキストコンテンツ内の複数のコンテキスト次元を識別することと、プロセッサがユーザ入力に応答することによって、複数のコンテキスト次元の次元のグループを選択することと、プロセッサによって、画像シーケンスを次元のグループと組み合わせて拡大または縮小することと、プロセッサによって、次元のグループとの検出された相互作用に基づいて、画像シーケンスを変更することと、プロセッサがデジタルストーリーと画像シーケンスの提示中に、次元のグループから次元を抽出することと、プロセッサによって、次元を修正するために、デジタルストーリーのテキストコンテンツに関連するスクリプトライターを有効化することと、プロセッサによって、有効化に応答して生じる次元の修正に基づいて、画像シーケンスを修正することと、プロセッサによって、画像シーケンスの様々な画像シーケンスと対話し、複数のコンテキスト次元を変更するために、ハードウェアインタフェース装置を有効化することと、プロセッサが有効化に応答して、デジタルストーリーのテキストコンテンツを動的に変更することと、を含む、コンピュータプログラム製品を提供する。
【0005】
本発明は、デジタルスクリプトの修正を自動化できる簡単な方法と関連システムを有利に提供する。
【図面の簡単な説明】
【0006】
【
図1】本発明の実施形態による、デジタルストーリーのテキストコンテンツに関連する画像シーケンスを生成および修正し、関連するデジタルテキストコンテンツを動的に変更することに関連するソフトウェア技術を改善するためのシステムを示す。
【
図2】本発明の実施形態による、デジタルストーリーのテキストコンテンツに関連する画像シーケンスを生成および修正し、関連するデジタルテキストコンテンツを動的に変更することに関連するソフトウェア技術を改善するための、
図1のシステムによって可能になるプロセスフローを詳細に示すアルゴリズムを示す。
【
図3】本発明の実施形態による、
図1のソフトウェア/ハードウェアの内部構造図である。
【
図4】本発明の実施形態による、デジタルストーリーコンテンツのデジタルスクリプトを修正するためのGANモジュールおよびNLPモジュールを含むシステムを示す。
【
図5A】本発明の実施形態による、デジタルスクリプトを変更し、対応する画像シーケンスを生成するプロセスを示す。
【
図5B】本発明の実施形態による、デジタルスクリプトを変更し、対応する画像シーケンスを生成するプロセスを示す。
【
図5C】本発明の実施形態による、デジタルスクリプトを変更し、対応する画像シーケンスを生成するプロセスを示す。
【
図5D】本発明の実施形態による、デジタルスクリプトを変更し、対応する画像シーケンスを生成するプロセスを示す。
【
図6】本発明の実施形態による、
図5のテキストから画像へのGANネットワークコンポーネントの詳細図である。
【
図7】本発明の実施形態による、
図5の画像からテキストへのGANネットワークコンポーネントの詳細図である。
【
図8】本発明の実施形態による、デジタルストーリーのテキストコンテンツに関連する画像シーケンスを生成および修正し、関連するデジタルテキストコンテンツを動的に変更することに関連するソフトウェア技術を改善するために、
図1のシステムによって使用されるコンピュータシステムを示す。
【
図9】本発明の実施形態による、クラウドコンピューティング環境を示す。
【
図10】本発明の実施形態による、クラウドコンピューティング環境によって提供される機能抽象化レイヤのセットを示す。
【発明を実施するための形態】
【0007】
図1は、本発明の実施形態による、デジタルストーリーのテキストコンテンツに関連する画像シーケンスを生成および修正し、関連するデジタルテキストコンテンツを動的に変更することに関連するソフトウェア技術を改善するためのシステム100を示す。典型的なアプリケーションスクリプトライティングシステムは、スクリプトライターエンティティが、画像シーケンス作成のためのテキストコンテンツ分析を必要とするビデオプレゼンテーションを視覚化することを必要とする場合がある。同様に、前述のプロセス中に、スクリプトライターエンティティは、生成された画像シーケンスを様々な次元に関して拡大するための要求を生成する場合がある。さらに、要求は、画像の修正に関連するテキストコンテンツの更新に関して、関連する画像を修正するためのコマンドと同時に、関連するコンテンツの要約を表示するための仕様を含むことができる。したがって、システムは、画像修正を実行するために生成された画像コンテンツを様々なコンテキスト次元内で拡大するために、スクリプトライターエンティティを有効化するように構成される。同様に、システム100は、画像修正に関してテキストコンテンツを自動的に更新することを可能にする。
【0008】
システム100は、デジタルテキストストーリーコンテンツを分析し、様々な関連するコンテキスト次元を識別し、生成的敵対ネットワーク(GAN)の実行を介してテキストストーリーコンテンツに基づいて画像シーケンスを自動的に生成するための自然言語処理(NLP)を可能にするシステムを含む。同様に、システム100は、スクリプトライターエンティティが、デジタルテキストストーリーコンテンツを動的に更新するために、生成された画像を拡大もしくは変更またはその両方を行うことを可能にするように構成される。システム100は、以下の機能を可能にする。
【0009】
システム100は、(GANの使用によってデジタルスクリプトコンテンツから画像シーケンスを生成するプロセス中に)デジタルスクリプトコンテンツから複数の可能なコンテキスト次元を識別するプロセスを可能にし、生成された画像シーケンスが選択された次元に関して拡大または縮小されるようにする。同様に、システム100は、識別された次元との相互作用に基づいて(GANの使用によって)画像シーケンスを変更するためのプロセスを可能にする。
【0010】
システム100はさらに、生成された画像シーケンスとともに提示されるデジタルテキストストーリーコンテンツからコンテキスト次元を抽出するプロセスを可能にし、それにより、決定された必要性に基づいて次元を修正するために、スクリプトライターエンティティを有効化する。修正された次元は、画像シーケンスの修正を可能にする。システム100は、生成された画像シーケンスに関して追加の次元を追加するために、スクリプトライターエンティティを有効化するように構成されることができる。新たに追加された次元は、生成された画像シーケンスに関して修正され、それによって画像シーケンスを変更し、(逆GANモデルの実行を介して)関連するテキストスクリプトコンテンツを変更することができる。システム100は、生成された画像シーケンスに対して1または複数のオブジェクトを選択的に変更、削除、もしくは追加、またはその組み合わせを行い、書き込まれたテキストストーリーコンテンツを動的に変更するために、スクリプトライターエンティティを有効化するようにさらに構成されてもよい。
【0011】
スクリプトライターエンティティは、(画像シーケンスと対話しながら)複数の画像シーケンスを分割またはつなぎ合わせるために有効化され、それによって新しいストーリーコンテンツを作成するためのテキストストーリーコンテキストを分割またはマージする自動プロセスを可能にすることができる。バーチャルリアリティ(VR)ユーザインタフェースは、ユーザが様々な画像シーケンスと対話し、コンテキストの次元を変更し、テキストストーリーコンテンツを動的に変更することを可能にすることができる。
【0012】
図1のシステム100は、ネットワーク117を介して相互接続されたGANハードウェア139、テキスト/デジタルストーリー入力コンポーネント140、ハードウェアインタフェース115、およびネットワークインタフェースコントローラを含む。GANハードウェア139は、センサ112、回路127、およびソフトウェア/ハードウェア121を含む。ハードウェアインタフェースは、特に、仮想現実インタフェースなどを含む、任意のタイプのハードウェアベースのインタフェースを含み得る。GANハードウェア139、テキスト/デジタルストーリー入力コンポーネント140、およびハードウェアインタフェース115はそれぞれ、組込み装置を含んでよい。本明細書において、組込み装置とは、特殊な機能を実行するために特別に設計された、コンピュータハードウェアとソフトウェア(固定機能またはプログラム可能)の組み合わせを含む専用装置またはコンピュータと定義される。プログラム可能な組込みコンピュータまたは装置は、特殊なプログラミングインタフェースを含んでいてもよい。一実施形態では、GANハードウェア139、テキスト/デジタルストーリー入力コンポーネント140、およびハードウェアインタフェース115はそれぞれ、
図1~
図6に関して説明したプロセスを(独立して、または組み合わせて)実行するための、特殊な(非一般的な)ハードウェアおよび回路(すなわち、特殊な離散的な非一般的なアナログ、デジタル、および論理ベースの回路)を含む特殊なハードウェア装置を含むことができる。特殊な離散的な非一般的なアナログ、デジタル、およびロジックベースの回路(例えば、センサ112、回路/ロジック127、ソフトウェア/ハードウェア121など)は、独自の特別に設計されたコンポーネント(例えば、デジタルストーリーのテキストコンテンツに関連する画像シーケンスを生成および変更し、関連するデジタルテキストコンテンツを動的に変更することに関連するソフトウェア技術を改善するための自動化プロセスを実行するためだけに設計された、例えば特定用途向け集積回路(ASIC)などの特殊な集積回路)を含んでもよい。センサ112は、特に、GPSセンサ、Bluetoothビーコニングセンサ、携帯電話検出センサ、Wi-Fi測位検出センサ、三角測量検出センサ、活動追跡センサ、温度センサ、超音波センサ、光学センサ、ビデオ検索装置、湿度センサ、電圧センサ、ネットワークトラフィックセンサなどを含む、任意のタイプの内部センサまたは外部センサを含むことができる。ネットワーク117は、特に、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、インターネット、無線ネットワークなどを含む任意のタイプのネットワークを含むことができる。
【0013】
システム100は、ストーリースクリプトのデジタルコンテンツのテキスト分析を実行するためのプロセスを(自然言語処理モデルの実行を介して)実行することが可能である。分析に基づいて、システム100は、ストーリーコンテンツ内の様々な文脈的次元を識別するように構成される。同様に、システム100は、特に、天候に関連する次元、イベントに関連する次元、場所に関連する次元、時間に関連する次元、物理的なX、Y、Zの位置に基づく次元、速度に関連する次元などの様々な次元に関して知識コーパスを分析する。システム100はさらに、特に、程度の低い悪天候対程度の高い悪天候など、コンテキスト次元の様々な程度を修正するように構成される。さらに、システム100は、デジタルストーリースクリプトコンテンツから画像シーケンスを生成するように構成される。画像シーケンスは、テキストストーリースクリプトコンテンツから様々な可能性のある次元を識別するために有効である。
【0014】
図2は、本発明の実施形態による、デジタルストーリーのテキストコンテンツに関連する画像シーケンスを生成および修正し、関連するデジタルテキストコンテンツを動的に変更することに関連するソフトウェア技術を改善するために、
図1のシステム100によって可能にされるプロセスフローを詳細に示すアルゴリズムを示す。
図2のアルゴリズムにおける各ステップは、コンピュータコードを実行するコンピュータプロセッサによって任意の順序で有効化され、実行され得る。さらに、
図2のアルゴリズムにおける各ステップは、GANハードウェア139、テキスト/デジタルストーリー入力コンポーネント、およびハードウェアインタフェース115によって有効化され、組み合わせて実行されてもよい。ステップ200では、デジタルストーリーのテキストコンテンツに関連する画像シーケンスがGANハードウェア装置によって生成される。ステップ202では、テキストコンテンツ内の複数のコンテキスト次元が(NLPコードの実行を介して)識別される。コンテキスト次元は、特に、天候次元、イベント次元、位置次元、時間次元、物理的X、Y、Z位置次元、速度次元などを含む次元を含むことができる。
【0015】
ステップ204では、ユーザ入力に応答して、複数のコンテキスト次元の次元のグループが選択される。ステップ208では、画像シーケンスが次元のグループと組み合わせて拡大または縮小される。ステップ210では、次元のグループとの検出された相互作用に基づいて画像シーケンスが変更される。ステップ212では、デジタルストーリーと画像シーケンスの提示中に、次元のグループから次元が抽出される。ステップ214では、次元を修正するために、(デジタルストーリーのテキストコンテンツに関連する)スクリプトライターエンティティが有効化される。ステップ216において、画像シーケンスが、ステップ214の結果に応答して生じる次元の修正に基づいて修正される。ステップ218において、画像シーケンスの様々な画像シーケンスと対話し、複数のコンテキスト次元を変更するために、ハードウェアインタフェース装置が有効化される。ハードウェアインタフェース装置は、仮想現実(VR)インタフェース装置を含むことができる。ステップ220では、デジタルストーリーのテキストコンテンツが動的に変更される。
【0016】
ステップ224では、スクリプトライターエンティティ機能が、以下の実装シナリオで説明されるように(GANハードウェアを介して)有効化され得る。
【0017】
第1のシナリオでは、画像シーケンスが修正されるように、(ハードウェアインタフェース装置を介して)画像シーケンスに追加のコンテキスト次元を追加するために、スクリプトライターエンティティを有効化する。その後、画像シーケンスの修正の結果に関して逆GANモデルを実行することによって、テキストコンテンツが修正される。
【0018】
第2のシナリオは、(ハードウェアインタフェース装置を介して)スクリプトライターエンティティを有効化した結果に関して逆GANモデルの実行を介してテキストコンテンツが修正されるように、画像シーケンスの少なくとも1つの視覚オブジェクトを選択的に変更するために、スクリプトライターエンティティを有効化する。
【0019】
第3のシナリオは、(ハードウェアインタフェース装置を介して)スクリプトライターエンティティを有効化した結果に関して逆GANモデルの実行を介してテキストコンテンツが修正されるように、画像シーケンスから少なくとも1つの視覚オブジェクトを選択的に取り除くために、スクリプトライターエンティティを有効化する。
【0020】
第4のシナリオは、(ハードウェアインタフェース装置を介して)、スクリプトライターエンティティを有効にした結果に関して逆GANモデルの実行を介してテキストコンテンツが修正されるように、画像シーケンスに少なくとも1つの視覚オブジェクトを選択的に追加するために、スクリプトライターエンティティを有効化する。
【0021】
第5のシナリオは、(前記様々な画像シーケンスとの対話中にハードウェアインタフェース装置を介して)画像シーケンスの複数の画像シーケンスを分割するために、スクリプトライターエンティティを有効化する。これに応答して、テキストコンテンツが分割され、デジタルストーリーのために新しいテキストコンテンツが生成される。
【0022】
第6のシナリオは、(前記様々な画像シーケンスとの対話中にハードウェアインタフェース装置を介して)画像シーケンスの複数の画像シーケンスをつなぎ合わせるために、スクリプトライターエンティティを有効化する。これに応答して、テキストコンテンツがマージされ、デジタルストーリーのための新しいテキストコンテンツが生成される。
【0023】
図3は、本発明の実施形態による、
図1のソフトウェア/ハードウェア121(すなわち、121)の内部構造図である。ソフトウェア/ハードウェア121は、識別モジュール304、変更モジュール305、抽出モジュール308、修正/有効化モジュール314、および通信コントローラ312を含む。識別モジュール304は、
図2の識別ステップに関連するすべての機能を制御するための専用ハードウェアおよびソフトウェアを含む。変更モジュール305は、
図2のアルゴリズムに関して説明した変更ステップに関連するすべての機能を制御するための専用ハードウェアおよびソフトウェアを含む。抽出モジュール308は、
図2の抽出ステップに関連するすべての機能を制御するための専用ハードウェアおよびソフトウェアを含む。修正/有効化モジュール314は、
図2のアルゴリズムの修正および有効化ステップに関連するすべての機能を制御するための専用ハードウェアおよびソフトウェアを含む。通信コントローラ312は、識別モジュール304、変更モジュール305、抽出モジュール308、および修正/有効化モジュール314間のすべての通信を制御するために有効化される。
【0024】
図4は、本発明の実施形態による、デジタルストーリーコンテンツのデジタルスクリプト405を修正するためのGANモジュール402aおよびNLPモジュール404を含むシステム400を示す。システム400は、デジタルスクリプト405から生成された画像シーケンス408に関連付けられた複数の可能な次元412を提示するように構成され、それによって、次元412を変更するために、スクリプトライターエンティティを有効化する。同様に、GANモジュール402aは、デジタルストーリーコンテンツが動的に更新されるように、生成された画像シーケンス408の画像を変更するように構成される。生成された画像シーケンス408の画像の変更は、修正済画像シーケンス410の生成をもたらす。GANモジュール402aは、入力テキストに対応する画像シーケンスを生成するために有効化される場合があり、結果として生成された画像は、ユーザによって閲覧されてもよい。
【0025】
NLPモジュール404は、入力テキストと、デジタルスクリプト405の様々な次元412(例えば、天候の次元、色の次元など)とを含む知識コーパスを検索するように構成されることがある。これに応答して、システム400は、デジタルスクリプト405内で利用可能な次元を識別するために、入力テキストを分析する。入力テキストの様々な次元412および次元の相対的な程度が識別される。例えば、「天候」の次元は、特に、晴れ、曇り、風、雨など、それに関連する様々な程度を含んでいてもよい。識別された次元412および次元の相対的な程度は、ユーザのために表示されてもよい。同様に、ユーザは、選択に関して、次元412および次元の程度を変更(例えば、追加、更新、削除など)してもよい。(GANモジュール402aから)生成された画像、およびユーザによって選択された変更された次元および関連する次元の程度は、条件付き入力として第2のGANモジュール402bに送信される。システム400は、入力(すなわち、ユーザが選択した画像および変更された次元)を検索するサイクル一貫敵対的ネットワークの使用を介して、条件付きテキストから画像への翻訳コードを実行するようにさらに構成される。GANモジュール402bの)テキストから画像へのモジュールは、ユーザが選択した次元と程度に関して、入力画像の修正済バージョンを生成するために有効化される。逆GANモジュール402c(すなわち、画像からテキストへの変換モジュール)は、入力として修正済画像シーケンス410を取得し、関連するテキスト(すなわち、修正済スクリプト415)を生成する。修正済画像シーケンス410と対応する修正済スクリプト415は、デジタルスクリプトを確定するためにユーザによって利用される。
【0026】
図5A~
図5Dは、本発明の実施形態による、デジタルスクリプト502を変更し、対応する画像シーケンス504aおよび504bを生成するためのプロセス500を示す。プロセス500は、テキストコンテンツ(すなわち、デジタルスクリプト502)が、デジタルスクリプト502のテキスト分析を(知識コーパス509に関して)実行するためのテキストから画像へのGANモジュール506およびNLPモジュール507に入力として提供されるときに開始される。デジタルスクリプト502のテキスト分析に応答して、システム500は、デジタルスクリプト502のストーリーコンテンツからさまざまなコンテキスト(および程度の次元)511を識別する。コンテキスト次元511は、特に、天候次元、イベント次元、位置次元、時間次元、物理的X、Y、Z位置次元、速度次元などを含み得る。システム500はさらに、コンテキスト次元511の様々な程度を有効化する。その後、GANモジュール506は、(GANモジュール506の実行を介して)デジタルスクリプト502のテキストコンテンツから画像シーケンス504aを生成し、テキストコンテンツから(コンテキスト次元511の)様々な可能な次元を識別する。画像シーケンス504aは、ハードウェア/ソフトウェアインタフェース514(例えば、2Dディスプレイ、VR装置など)を介して表示されてもよい。その後、システム500は、画像シーケンス504aと共に提示される様々な次元の程度を変更するために、ストーリースクリプトライターエンティティ517が(テキストから画像へのGANネットワークコンポーネント522および画像からテキストへのGANネットワークコンポーネント524を介して)有効にされ得るように、画像シーケンス504aと組み合わせて1または複数のコンテキスト次元を提示する。様々な変更済コンテキスト次元519の選択に応答して、システム500は、関連するユーザ入力を受信し、変更済コンテキスト次元519を識別する。変更済コンテキスト次元519は、画像シーケンス504a内の画像を変更するために、現在の画像シーケンス(すなわち、画像シーケンス504a)を分析するために使用される。コンテキスト次元511のすべての修正は、画像シーケンス504a内の画像を更新するために考慮される。同様に、システム500は、画像シーケンス504aに追加の次元および選択された次元の程度を追加するために、スクリプトライターエンティティ517を有効化し、それに応じて画像シーケンス504aの画像が更新される。画像シーケンス504aの画像が変更されるように、画像シーケンス504aから1または複数の画像オブジェクトを選択的に変更/追加/取り除くために、スクリプトライターエンティティ517が有効化され得る。スクリプトライターエンティティ517は、異なる画像を分割またはつなぎ合わせることができ、その結果、更新済画像シーケンス504bが生成され、ハードウェアソフトウェアインタフェース527を介して表示されることができる。変更プロセスが完了すると、システム400は、画像シーケンス504bの修正済画像でデジタルスクリプト502を更新するプロセスを実行し、その結果、修正済デジタルスクリプト528が生成される。
【0027】
図6は、本発明の実施形態による、
図5のテキストから画像へのGANネットワークコンポーネント522の詳細図である。GANネットワークコンポーネント522は、第1ステージ602(ステージ1)と第2ステージ604(ステージ2)とを含む。第1ステージ602は、生成器G1、識別器D1の組を含む。同様に、第2ステージ604は、生成器G2および識別器D2の組を含む。生成器G1は低解像度画像607(例えば64x64ppi)を生成するように構成され、生成器G2は高解像度画像609(128x128ppi)を生成するように構成される。関連するテキスト埋め込みデータ605(すなわち、スクリプト)および関連するノイズは、第1ステージ602への入力として使用することができる。さらに、画像およびユーザが変更した次元および程度が、第1ステージ602への入力として使用されてもよい。生成器G1は、思考テキスト埋め込みをスキップし、合成画像(すなわち、低解像度画像607)を生成するように構成されてもよい。同様に、第1ステージ602の識別器D1は、同じテキスト埋め込みに関して条件付けされ、解像度64x64ppiの実画像と合成画像の間を分類するように訓練される。生成器G1は、一連のアップサンプリングブロック611を含む。アップサンプリングブロック611は、入力を低解像度(64x64ppi画像)を含む3x64x64画像(すなわち、低解像度画像607)に投影するために、最近傍アップサンプリング処理に続く3x3ストライド1畳み込み処理を可能にすることを含む。識別器D1は、入力を512x4x4の次元に投影する一連のダウンサンプリングブロック612を含む。前述の512x4x4の次元は、128次元の圧縮埋め込みと連結され、シグモイド層615を使用して、低解像度の画像を識別するために0(フェイク)と1(リアル)の間の出力を生成する。ステージ2生成器G1は、埋め込みとともにI1を入力とし、より高解像度の128x128画像を生成する。
【0028】
生成器G2は、3x64x64の入力画像624を512x16x16の次元に投影する一連のダウンサンプリングブロック622を含む。その後、128次元の埋め込みが連結される。入力画像624は、(より高解像度の)画像609(すなわち、128x128画像)を生成するために、一連のアップサンプリングブロック628が続く一連の残留ブロック626として伝送される。識別器D2は、画像609を(入力として)受信する。識別器D2は、一連のダウンサンプリングブロック629を含み、シグモイド層632が高解像度の画像(128x128)を識別するために0(フェイク)と1(リアル)の間の出力を生成することを可能にする。したがって、第1ステージ602の出力は、ユーザが変更した次元を含む出力として、より高解像度の画像(すなわち、高解像度画像609)を生成するための第2ステージ604への入力として使用される。
【0029】
図7は、本発明の実施形態による、
図5の画像からテキストへのGANネットワークコンポーネント524(すなわち、キャプションGANネットワークコンポーネント)の詳細図を示す。GANネットワークコンポーネント524は、コンポーネント702およびコンポーネント704を含む。コンポーネント702は、キャプション711を出力するための入力として、畳み込みニューラルネットワーク(CNN)特徴708およびノイズZ709を検索するための長期短期記憶(LSTM)コンポーネント707a...707nを含むキャプション生成器を形成する。コンポーネント702への入力は、ユーザが変更した次元および程度を含む(
図6のGANネットワークコンポーネント522から)出力された高解像度画像715を含む。
【0030】
コンポーネント704は、高解像度修正画像715aのCNN特徴712とLSTMコンポーネント707a...707nからの出力に関してドット積を実行する識別器を形成する。ユーザの好みの次元と程度を含む高解像度修正画像715aは、対応するものを生成するために(LSTMコンポーネント717a...717n)に関して規則的シーケンスモデリング処理を実行する入力として送信される。結果として得られる出力テキストスクリプト720は、ユーザが最終決定するために利用可能な、ユーザが更新した次元と程度を含む。
【0031】
図8は、本発明の実施形態による、デジタルストーリーのテキストコンテンツに関連する画像シーケンスを生成および修正し、関連するデジタルテキストコンテンツを動的に変更することに関連するソフトウェア技術を改善するために、
図1のシステム100によって使用されるか、またはそれによって構成されるコンピュータシステム90(例えば、
図1のGANハードウェア139、テキスト/デジタルストーリー入力コンポーネント、およびハードウェアインタフェース115)を示す。
【0032】
本発明の態様は、完全にハードウェアの実施形態、完全にソフトウェアの実施形態(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)、またはソフトウェアとハードウェアの態様を組み合わせた実施形態の形態をとることができ、これらはすべて、本明細書では一般に「回路」、「モジュール」、または「システム」と呼ばれる。
【0033】
本発明は、システム、方法もしくはコンピュータプログラム製品またはそれらの組み合せとすることができる。コンピュータプログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を記憶したコンピュータ可読記憶媒体を含んでよい。
【0034】
コンピュータ可読記憶媒体は、命令実行装置によって使用される命令を保持し、記憶することができる有形の装置とすることができる。コンピュータ可読記憶媒体は、一例として、電子記憶装置、磁気記憶装置、光学記憶装置、電磁記憶装置、半導体記憶装置またはこれらの適切な組み合わせであってよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な一例としては、ポータブルコンピュータディスケット、ハードディスク、RAM、ROM、EPROMまたはフラッシュメモリ、SRAM、CD-ROM、DVD、メモリスティック、フロッピーディスク、パンチカードまたは溝内の隆起構造などに命令を記録した機械的に符号化された装置、およびこれらの適切な組み合せが挙げられる。本明細書で使用されるコンピュータ可読記憶媒体は、電波もしくは他の自由に伝播する電磁波、導波管もしくは他の伝送媒体を介して伝播する電磁波(例えば、光ファイバケーブルを通過する光パルス)、またはワイヤを介して送信される電気信号のような、一過性の信号それ自体として解釈されるべきではない。
【0035】
本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理装置に、または、ネットワーク(例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、もしくはワイヤレスネットワークまたはその組み合わせ)を介して外部コンピュータまたは外部記憶装置にダウンロードすることができる。ネットワークは、銅線伝送ケーブル、光伝送ファイバー、無線伝送、ルーター、ファイアウォール、スイッチ、ゲートウェイコンピュータ、もしくはエッジサーバーまたはその組み合わせで構成される。各コンピューティング/処理装置のネットワークアダプタカードまたはネットワークインタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれのコンピューティング/処理装置内のコンピュータ可読記憶媒体に格納するためにコンピュータ可読プログラム命令を転送する。
【0036】
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはSmalltalk、C++、spark、R言語などのオブジェクト指向プログラミング言語と「C」プログラミング言語や類似のプログラミング言語などの手続き型プログラミング言語を含む、1つ以上のプログラミング言語の任意の組み合わせで記述されたソースコードまたはオブジェクトコードのいずれかであってよい。コンピュータ可読プログラム命令は、スタンドアロンソフトウェアパッケージとして、完全にユーザのコンピュータ上で、または部分的にユーザのコンピュータ上で実行可能である。あるいは、部分的にユーザのコンピュータ上でかつ部分的にリモートコンピュータ上で、または完全にリモートコンピュータまたはサーバ上で実行可能である。後者のシナリオでは、リモートコンピュータは、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む任意のタイプのネットワークを介してユーザのコンピュータに接続され、または(例えば、インターネットサービスプロバイダーを使用したインターネット経由で)外部コンピュータに接続されてよい。いくつかの実施形態では、例えば、プログラマブルロジック回路、フィールドプログラマブルゲートアレイ(FPGA)、またはプログラマブルロジックアレイ(PLA)を含む電子回路は、本発明の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用してパーソナライズすることにより、コンピュータ可読プログラム命令を実行することができる。
【0037】
本発明の態様は、本発明の実施形態による方法、装置(システム)、およびコンピュータプログラム製品のフローチャート図もしくはブロック図またはその両方を参照して本明細書に記載されている。フローチャート図もしくはブロック図またはその両方の各ブロック、およびフローチャート図もしくはブロック図またはその両方のブロックの組み合わせは、コンピュータ可読プログラム命令によって実装できることが理解されよう。
【0038】
これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサを介して実行される命令がフローチャートもしくはブロック図またはその両方の1つまたは複数のブロックで指定された機能/動作を実装するための手段を生成するように、機械を生成するために汎用コンピュータ、専用コンピュータのプロセッサまたは他のプログラム可能なデータ処理装置に提供されることができる。これらのコンピュータ可読プログラム命令はまた、フローチャートもしくはブロック図またはその両方の1つまたは複数のブロックで指定された機能/行為の態様を実装する命令を含む生成品の1つを命令が記憶されたコンピュータ可読記憶媒体が構成するように、コンピュータ、プログラム可能なデータ処理装置、もしくは特定の方法で機能する他の装置またはその組み合わせに接続可能なコンピュータ可読記憶媒体の中に記憶されることができる。
【0039】
コンピュータ、他のプログラム可能な装置、または他のデバイス上でフローチャートもしくはブロック図またはその両方の1つまたは複数のブロックで指定された機能/行為を実行する命令のように、コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラム可能なデータ処理装置、または他のデバイスにロードされ、コンピュータ、他のプログラム可能な装置、または他のデバイス上で一連の操作ステップを実行し、コンピュータ実装された過程を生成することができる。
【0040】
図中のフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータプログラム製品が実行可能な実装の構成、機能、および動作を示している。これに関して、フローチャートまたはブロック図の各ブロックは、モジュール、セグメント、または命令の一部を表してよく、これは、指定された論理機能を実装するための1つまたは複数の実行可能命令を構成する。いくつかの代替の実施形態では、ブロックに示されている機能は、図に示されている順序とは異なる場合がある。例えば、連続して示される2つのブロックは、実際には、1つのステップとして達成される場合があり、同時に、実質的に同時に、部分的または全体的に時間的に重複する方法で実行されるか、またはブロックは、関係する機能に応じて逆の順序で実行される場合がある。ブロック図もしくはフローチャート図またはその両方の各ブロック、およびブロック図もしくはフローチャート図またはその両方のブロックの組み合わせは、指定された機能または動作を実行する、または特別な目的のハードウェアとコンピュータ命令の組み合わせを実行する特別な目的のハードウェアベースのシステムによって実装できることにも留意されたい。
【0041】
図8に示すコンピュータシステム90は、プロセッサ91と、プロセッサ91に結合された入力装置92と、プロセッサ91に結合された出力装置93と、プロセッサ91にそれぞれ結合された記憶装置94および95とを含む。入力装置92は、特に、キーボード、マウス、カメラ、タッチスクリーン等であってよい。出力装置93は、特に、プリンタ、プロッタ、コンピュータスクリーン、磁気テープ、リムーバブルハードディスク、フロッピーディスク等である。記憶装置94および95は、特に、ハードディスク、フロッピーディスク、磁気テープ、コンパクトディスク(CD)またはデジタルビデオディスク(DVD)などの光学記憶装置、ダイナミックランダムアクセスメモリ(DRAM)、読み取り専用メモリ(ROM)などである。記憶装置95は、コンピュータコード97を含む。コンピュータコード97は、デジタルストーリーのテキストコンテンツに関連する画像シーケンスを生成および修正し、関連するデジタルテキストコンテンツを動的に変更することに関連するソフトウェア技術を改善するためのアルゴリズム(例えば、
図2のアルゴリズム)を含む。プロセッサ91は、コンピュータコード97を実行する。記憶装置94は入力データ96を含む。入力データ96は、コンピュータコード97によって要求される入力を含む。出力装置93は、コンピュータコード97からの出力を表示する。記憶装置94および95のいずれか一方または両方(または、読み取り専用記憶装置85などの1または複数の追加の記憶装置)は、アルゴリズム(例えば、
図2のアルゴリズム)を含み、その中に実装されたコンピュータ可読プログラムコードを有する、もしくはその中に格納された他のデータを有する、またはその両方であるコンピュータ使用可能媒体(または、コンピュータ可読媒体またはプログラム格納装置)として使用することができ、コンピュータ可読プログラムコードは、コンピュータコード97を含む。一般に、コンピュータシステム90のコンピュータプログラム製品(または、代替的に、製造品)は、コンピュータ使用可能媒体(または、プログラム記憶装置)を含み得る。
【0042】
いくつかの実施形態では、ハードドライブ、光ディスク、または他の書き込み可能、書き換え可能、または取り外し可能なハードウェア記憶装置95から記憶およびアクセスされるのではなく、記憶されたコンピュータプログラムコード84(例えば、アルゴリズムを含む)は、読み取り専用記憶(ROM)装置85のような静的な、取り外し不可能な、読み取り専用記憶媒体に記憶されてもよく、またはそのような静的な、取り外し不可能な、読み取り専用媒体からプロセッサ91によって直接アクセスされてもよい。同様に、いくつかの実施形態では、記憶されたコンピュータプログラムコード97は、ハードドライブや光ディスクなどの、より動的な、または取り外し可能なハードウェアデータ記憶装置95からではなく、コンピュータ可読ファームウェア85として記憶されるか、またはかかるファームウェア85からプロセッサ91によって直接アクセスされる。
【0043】
それでもなお、本発明の構成要素のいずれかは、デジタルストーリーのテキストコンテンツに関連する画像シーケンスを生成および修正し、関連するデジタルテキストコンテンツを動的に変更することに関連するソフトウェア技術を改善することを提供するサービスサプライヤによって、作成、統合、ホスト、維持、配備、管理、サービスなどされ得る。したがって、本発明は、コンピュータシステム90にコンピュータ可読コードを統合することを含む、コンピューティングインフラストラクチャを展開、作成、統合、ホスティング、維持、もしくは統合、またはその組み合わせを行うためのプロセスを開示し、コンピュータシステム90と組み合わせたコードは、デジタルストーリーのテキストコンテンツに関連する画像シーケンスを生成および修正し、関連するデジタルテキストコンテンツを動的に変更することに関連するソフトウェア技術を改善するプロセスを可能にするための方法を実行することができる。別の実施形態では、本発明は、サブスクリプション、広告、もしくは料金ベース、またはその組み合わせで本発明のプロセスステップを実行するビジネス方法を提供する。すなわち、ソリューションインテグレータなどのサービスサプライヤは、デジタルストーリーのテキストコンテンツに関連する画像シーケンスを生成および修正し、関連するデジタルテキストコンテンツを動的に変更することに関連するソフトウェア技術を改善するプロセスを可能にすることを提供し得る。この場合、サービスサプライヤは、1または複数の顧客のために本発明のプロセスステップを実行するコンピュータインフラストラクチャを作成、維持、サポートなどすることができる。その見返りとして、サービスサプライヤは、サブスクリプションもしくは料金契約、またはその両方に基づいて顧客から支払いを受けることができ、もしくはサービスサプライヤは、1または複数の第三者への広告コンテンツの販売から支払いを受けることができる、またはその両方である。
【0044】
図8は、コンピュータシステム90をハードウェアおよびソフトウェアの特定の構成として示しているが、当業者であれば知っているようなハードウェアおよびソフトウェアの任意の構成を、
図8の特定のコンピュータシステム90と組み合わせて上述した目的のために利用することができる。例えば、記憶装置94および95は、別々の記憶装置ではなく、単一の記憶装置の一部であってもよい。
【0045】
<クラウドコンピューティング環境>
本開示はクラウドコンピューティングに関する詳細な説明を含むが、本明細書に記載した教示の実装形態はクラウドコンピューティング環境に限定されない。むしろ、本発明の実施形態は、現在公知のまたは将来開発される他の任意の種類のコンピュータ環境と共に実施することができる。
【0046】
クラウドコンピューティングは、設定可能なコンピューティングリソースの共有プール(例えばネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、記憶装置、アプリケーション、仮想マシンおよびサービス)へ、簡便かつオンデマンドのネットワークアクセスを可能にするためのサービス提供のモデルであり、リソースは、最小限の管理労力または最小限のサービスプロバイダとのやり取りによって速やかに準備(provision)およびリリースできるものである。このクラウドモデルは、少なくとも5つの特性、少なくとも3つのサービスモデル、および少なくとも4つの実装モデルを含むことがある。
【0047】
特性は以下の通りである。
【0048】
オンデマンド・セルフサービス:クラウドの消費者は、サービスプロバイダとの人的な対話を必要することなく、必要に応じて自動的に、サーバ時間やネットワークストレージなどのコンピューティング能力を一方的に準備することができる。
【0049】
ブロード・ネットワークアクセス:コンピューティング能力はネットワーク経由で利用可能であり、また、標準的なメカニズムを介してアクセスできる。それにより、異種のシンまたはシッククライアントプラットフォーム(例えば、携帯電話、ラップトップ、PDA)による利用が促進される。
【0050】
リソースプーリング:プロバイダのコンピューティングリソースはプールされ、マルチテナントモデルを利用して複数の消費者に提供される。様々な物理リソースおよび仮想リソースが、需要に応じて動的に割り当ておよび再割り当てされる。一般に消費者は、提供されたリソースの正確な位置を管理または把握していないため、位置非依存(location independence)の感覚がある。ただし消費者は、より高い抽象レベル(例えば、国、州、データセンタ)では場所を特定可能な場合がある。
【0051】
迅速な柔軟性(elasticity):コンピューティング能力は、迅速かつ柔軟に準備することができるため、場合によっては自動的に、直ちにスケールアウトし、また、速やかにリリースされて直ちにスケールインすることができる。消費者にとって、準備に利用可能なコンピューティング能力は無制限に見える場合が多く、任意の時間に任意の数量で購入することができる。
【0052】
測定されるサービス:クラウドシステムは、サービスの種類(例えば、ストレージ、処理、帯域幅、アクティブユーザアカウント)に適したある程度の抽象化レベルでの測定機能を活用して、リソースの使用を自動的に制御し最適化する。リソース使用量を監視、制御、および報告して、利用されるサービスのプロバイダおよび消費者の両方に透明性を提供することができる。
【0053】
サービスモデルは以下の通りである。
【0054】
サービスとしてのソフトウェア(SaaS):消費者に提供される機能は、クラウドインフラストラクチャ上で動作するプロバイダのアプリケーションを利用できることである。当該そのアプリケーションは、ウェブブラウザ(例えばウェブメール)などのシンクライアントインタフェースを介して、各種のクライアント装置からアクセスできる。消費者は、ネットワーク、サーバ、オペレーティングシステム、ストレージや、個別のアプリケーション機能さえも含めて、基礎となるクラウドインフラストラクチャの管理や制御は行わない。ただし、ユーザ固有の限られたアプリケーション構成の設定はその限りではない。
【0055】
サービスとしてのプラットフォーム(PaaS):消費者に提供される機能は、プロバイダによってサポートされるプログラム言語およびツールを用いて、消費者が作成または取得したアプリケーションを、クラウドインフラストラクチャに展開(deploy)することである。消費者は、ネットワーク、サーバ、オペレーティングシステム、ストレージを含む、基礎となるクラウドインフラストラクチャの管理や制御は行わないが、展開されたアプリケーションを制御でき、かつ場合によってはそのホスティング環境の構成も制御できる。
【0056】
サービスとしてのインフラストラクチャ(IaaS):消費者に提供される機能は、オペレーティングシステムやアプリケーションを含み得る任意のソフトウェアを消費者が展開および実行可能な、プロセッサ、ストレージ、ネットワーク、および他の基本的なコンピューティングリソースを準備することである。消費者は、基礎となるクラウドインフラストラクチャの管理や制御は行わないが、オペレーティングシステム、ストレージ、および展開されたアプリケーションを制御でき、かつ場合によっては一部のネットワークコンポーネント(例えばホストファイアウォール)を部分的に制御できる。
【0057】
展開モデルは以下の通りである。
【0058】
プライベートクラウド:このクラウドインフラストラクチャは、特定の組織専用で運用される。このクラウドインフラストラクチャは、当該組織または第三者によって管理することができ、オンプレミスまたはオフプレミスで存在することができる。
【0059】
コミュニティクラウド:このクラウドインフラストラクチャは、複数の組織によって共有され、共通の関心事(例えば、ミッション、セキュリティ要件、ポリシー、およびコンプライアンス)を持つ特定のコミュニティをサポートする。このクラウドインフラストラクチャは、当該組織または第三者によって管理することができ、オンプレミスまたはオフプレミスで存在することができる。
【0060】
パブリッククラウド:このクラウドインフラストラクチャは、不特定多数の人々や大規模な業界団体に提供され、クラウドサービスを販売する組織によって所有される。
【0061】
ハイブリッドクラウド:このクラウドインフラストラクチャは、2つ以上のクラウドモデル(プライベート、コミュニティまたはパブリック)を組み合わせたものとなる。それぞれのモデル固有の実体は保持するが、標準または個別の技術によってバインドされ、データとアプリケーションの可搬性(例えば、クラウド間の負荷分散のためのクラウドバースティング)を実現する。
【0062】
クラウドコンピューティング環境は、ステートレス性(statelessness)、低結合性(low coupling)、モジュール性(modularity)および意味論的相互運用性(semantic interoperability)に重点を置いたサービス指向型環境である。クラウドコンピューティングの中核にあるのは、相互接続されたノードのネットワークを含むインフラストラクチャである。
【0063】
図9を参照すると、例示的なクラウドコンピューティング環境50が示されている。図示するように、クラウドコンピューティング環境50は1つまたは複数のクラウドコンピューティングノード10を含む。これらに対して、クラウド消費者が使用するローカルコンピュータ装置(例えば、パーソナルデジタルアシスタント(PDA)もしくは携帯電話54A、デスクトップコンピュータ54B、ラップトップコンピュータ54C、もしくは自動車コンピュータシステム54Nまたはこれらの組み合わせなど)は通信を行うことができる。ノード10は互いに通信することができる。ノード10は、例えば、上述のプライベート、コミュニティ、パブリックもしくはハイブリッドクラウドまたはこれらの組み合わせなど、1つまたは複数のネットワークにおいて、物理的または仮想的にグループ化(不図示)することができる。これにより、クラウドコンピューティング環境50は、サービスとしてのインフラストラクチャ、プラットフォームもしくはソフトウェアまたはこれらの組み合わせを提供することができ、クラウド消費者はこれらについて、ローカルコンピュータ装置上にリソースを維持する必要がない。なお、
図9に示すコンピュータ装置54A、54B、54Cおよび54Nの種類は例示に過ぎず、コンピューティングノード10およびクラウドコンピューティング環境50は、任意の種類のネットワークもしくはネットワークアドレス指定可能接続(例えば、ウェブブラウザの使用)またはその両方を介して、任意の種類の電子装置と通信可能であることを理解されたい。
【0064】
図10を参照すると、クラウドコンピューティング環境50(
図9)によって提供される機能的抽象化レイヤのセットが示されている。なお、
図10に示すコンポーネント、レイヤおよび機能は例示に過ぎず、本発明の実施形態はこれらに限定されないことをあらかじめ理解されたい。図示するように、以下のレイヤおよび対応する機能が提供される。
【0065】
ハードウェアおよびソフトウェアレイヤ60は、ハードウェアコンポーネントおよびソフトウェアコンポーネントを含む。ハードウェアコンポーネントの例には、メインフレーム61、縮小命令セットコンピュータ(RISC)アーキテクチャベースのサーバ62、サーバ63、ブレードサーバ64、記憶装置65、ならびにネットワークおよびネットワークコンポーネント66が含まれる。いくつかの実施形態において、ソフトウェアコンポーネントは、ネットワークアプリケーションサーバソフトウェア67およびデータベースソフトウェア68を含む。
【0066】
仮想化レイヤ70は、抽象化レイヤを提供する。当該レイヤから、例えば以下の仮想エンティティを提供することができる:仮想サーバ71、仮想ストレージ72、仮想プライベートネットワークを含む仮想ネットワーク73、仮想アプリケーションおよびオペレーティングシステム74、ならびに仮想クライアント75。
【0067】
一例として、管理レイヤ80は以下の機能を提供することができる。リソース準備81は、クラウドコンピューティング環境内でタスクを実行するために利用されるコンピューティングリソースおよび他のリソースの動的な調達を可能にする。計量および価格設定82は、クラウドコンピューティング環境内でリソースが利用される際のコスト追跡、およびこれらのリソースの消費に対する請求またはインボイス送付を可能にする。一例として、これらのリソースはアプリケーションソフトウェアのライセンスを含んでよい。セキュリティは、データおよび他のリソースに対する保護のみならず、クラウドコンシューマおよびタスクの識別確認を可能にする。ユーザポータル83は、コンシューマおよびシステム管理者にクラウドコンピューティング環境へのアクセスを提供する。サービスレベル管理87は、要求されたサービスレベルが満たされるように、クラウドコンピューティングリソースの割り当ておよび管理を可能にする。サービス品質保証(SLA)の計画および履行88は、SLAに従って将来必要になると予想されるクラウドコンピューティングリソースの事前手配および調達を可能にする。
【0068】
ワークロードレイヤ101は、クラウドコンピューティング環境が利用可能な機能の例を提供する。このレイヤから提供可能なワークロードおよび機能の例には、マッピングおよびナビゲーション102、ソフトウェア開発およびライフサイクル管理103、仮想教室教育の配信133、データ分析処理134、取引処理106、ならびに、デジタルストーリーのテキストコンテンツに関連する画像シーケンスの生成および修正、および関連するデジタルテキストコンテンツの動的変更107に関連するソフトウェア技術の改良が含まれる。
【0069】
本発明の実施形態を説明の目的で本明細書に記載したが、当業者には多くの修正および変更が明らかになるであろう。したがって、添付の特許請求の範囲は、本発明の範囲内に入る全てのかかる修正および変更を包含することを意図している。
【手続補正書】
【提出日】2024-03-22
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】0012
【補正方法】変更
【補正の内容】
【0012】
図1のシステム100は、ネットワーク117を介して相互接続されたGANハードウェア139、テキスト/デジタルストーリー入力コンポーネント140、ハードウェアインタフェース115、およびネットワークインタフェースコントローラ
153を含む。GANハードウェア139は、センサ112、回路127、およびソフトウェア/ハードウェア121を含む。ハードウェアインタフェースは、特に、仮想現実インタフェースなどを含む、任意のタイプのハードウェアベースのインタフェースを含み得る。GANハードウェア139、テキスト/デジタルストーリー入力コンポーネント140、およびハードウェアインタフェース115はそれぞれ、組込み装置を含んでよい。本明細書において、組込み装置とは、特殊な機能を実行するために特別に設計された、コンピュータハードウェアとソフトウェア(固定機能またはプログラム可能)の組み合わせを含む専用装置またはコンピュータと定義される。プログラム可能な組込みコンピュータまたは装置は、特殊なプログラミングインタフェースを含んでいてもよい。一実施形態では、GANハードウェア139、テキスト/デジタルストーリー入力コンポーネント140、およびハードウェアインタフェース115はそれぞれ、
図1~
図6に関して説明したプロセスを(独立して、または組み合わせて)実行するための、特殊な(非一般的な)ハードウェアおよび回路(すなわち、特殊な離散的な非一般的なアナログ、デジタル、および論理ベースの回路)を含む特殊なハードウェア装置を含むことができる。特殊な離散的な非一般的なアナログ、デジタル、およびロジックベースの回路(例えば、センサ112、回路/ロジック127、ソフトウェア/ハードウェア121など)は、独自の特別に設計されたコンポーネント(例えば、デジタルストーリーのテキストコンテンツに関連する画像シーケンスを生成および変更し、関連するデジタルテキストコンテンツを動的に変更することに関連するソフトウェア技術を改善するための自動化プロセスを実行するためだけに設計された、例えば特定用途向け集積回路(ASIC)などの特殊な集積回路)を含んでもよい。センサ112は、特に、GPSセンサ、Bluetoothビーコニングセンサ、携帯電話検出センサ、Wi-Fi測位検出センサ、三角測量検出センサ、活動追跡センサ、温度センサ、超音波センサ、光学センサ、ビデオ検索装置、湿度センサ、電圧センサ、ネットワークトラフィックセンサなどを含む、任意のタイプの内部センサまたは外部センサを含むことができる。ネットワーク117は、特に、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、インターネット、無線ネットワークなどを含む任意のタイプのネットワークを含むことができる。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0014
【補正方法】変更
【補正の内容】
【0014】
図2は、本発明の実施形態による、デジタルストーリーのテキストコンテンツに関連する画像シーケンスを生成および修正し、関連するデジタルテキストコンテンツを動的に変更することに関連するソフトウェア技術を改善するために、
図1のシステム100によって可能にされるプロセスフローを詳細に示すアルゴリズムを示す。
図2のアルゴリズムにおける各ステップは、コンピュータコードを実行するコンピュータプロセッサによって任意の順序で有効化され、実行され得る。さらに、
図2のアルゴリズムにおける各ステップは、GANハードウェア139、テキスト/デジタルストーリー入力コンポーネント
140、およびハードウェアインタフェース115によって有効化され、組み合わせて実行されてもよい。ステップ200では、デジタルストーリーのテキストコンテンツに関連する画像シーケンスがGANハードウェア装置によって生成される。ステップ202では、テキストコンテンツ内の複数のコンテキスト次元が(NLPコードの実行を介して)識別される。コンテキスト次元は、特に、天候次元、イベント次元、位置次元、時間次元、物理的X、Y、Z位置次元、速度次元などを含む次元を含むことができる。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0031
【補正方法】変更
【補正の内容】
【0031】
図8は、本発明の実施形態による、デジタルストーリーのテキストコンテンツに関連する画像シーケンスを生成および修正し、関連するデジタルテキストコンテンツを動的に変更することに関連するソフトウェア技術を改善するために、
図1のシステム100によって使用されるか、またはそれによって構成されるコンピュータシステム90(例えば、
図1のGANハードウェア139、テキスト/デジタルストーリー入力コンポーネント
140、およびハードウェアインタフェース115)を示す。
【手続補正4】
【補正対象書類名】図面
【補正方法】変更
【補正の内容】
【国際調査報告】