(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-12-05
(54)【発明の名称】ストロボ効果に基づく視覚体験変調
(51)【国際特許分類】
H04N 21/234 20110101AFI20241128BHJP
H04N 21/24 20110101ALI20241128BHJP
G06T 1/00 20060101ALI20241128BHJP
G06T 1/40 20060101ALI20241128BHJP
H04N 5/262 20060101ALI20241128BHJP
【FI】
H04N21/234
H04N21/24
G06T1/00 500A
G06T1/40
H04N5/262 050
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024526489
(86)(22)【出願日】2022-10-25
(85)【翻訳文提出日】2024-05-02
(86)【国際出願番号】 EP2022079689
(87)【国際公開番号】W WO2023083596
(87)【国際公開日】2023-05-19
(32)【優先日】2021-11-11
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】390009531
【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MACHINES CORPORATION
【住所又は居所原語表記】New Orchard Road, Armonk, New York 10504, United States of America
(74)【代理人】
【識別番号】100112690
【氏名又は名称】太佐 種一
(74)【代理人】
【識別番号】100120710
【氏名又は名称】片岡 忠彦
(74)【復代理人】
【識別番号】110000420
【氏名又は名称】弁理士法人MIP
(72)【発明者】
【氏名】パンディ、ディウェッシュ
(72)【発明者】
【氏名】ボーズ、タターガト
(72)【発明者】
【氏名】マルヴァニヤ、スミットクマール
(72)【発明者】
【氏名】ジョセフ、アルン
(72)【発明者】
【氏名】ラクシット、サルバジット
【テーマコード(参考)】
5B057
5C023
5C164
【Fターム(参考)】
5B057CA16
5B057CB16
5B057DC40
5C023AA07
5C023AA08
5C023BA04
5C023CA01
5C164SB01P
5C164SB41P
5C164YA07
5C164YA21
(57)【要約】
視聴体験に関連する画像からストロボ効果を除去または強化することによってリアルタイムで修正するための手法が開示される。手法は、ビデオ・クリップを識別することと、環境パラメータを検出することと、表示設定を算出することとを含む。手法はまた、GANからの推奨を使用して表示設定を分析することと、表示設定をARディスプレイ上に出力することと、ユーザからのフィードバックを受け取ることとを含む。
【特許請求の範囲】
【請求項1】
機械学習を活用することによって画像からストロボ効果をリアルタイムで修正するためのコンピュータ実装方法であって、
ユーザによる1つまたは複数のビデオ・クリップを識別することと、
視覚的データを決定することと、
ストロボ効果設定を決定することと、
前記1つまたは複数のビデオ・クリップに対してストロボ効果設定を実行することと、
更新されたストロボ効果設定に基づいて前記ビデオ・クリップを出力することと、
ユーザからのフィードバックを受け取ることと
を含む、コンピュータ実装方法。
【請求項2】
視覚的データを決定することは、
前記視覚的データを収集することであって、視覚的データが環境データおよびユーザ・データを含む、前記視覚的データを収集することと、
視覚的データを潜在空間に符号化することと
をさらに含む、請求項1に記載のコンピュータ実装方法。
【請求項3】
ストロボ効果設定を決定することは、環境条件、ユーザの医療プロファイル、照明条件、光の周波数、物体の回転速度、時空間オブジェクトの可視性スコアを含む因子に基づく、請求項1または2に記載のコンピュータ実施方法。
【請求項4】
ストロボ効果設定が、ストロボ効果の有効化/無効化、立体視効果の強化、および立体視効果の打ち消しをさらに含む、請求項1、2、または3に記載のコンピュータ実装方法。
【請求項5】
前記1つまたは複数のビデオ・クリップに対してストロボ効果設定を実行することは、
様々な損失関数を使用して弁別器および生成器を学習することによって拡張ビデオを生成すること
をさらに含む、請求項1ないし4のいずれかに記載のコンピュータ実装方法。
【請求項6】
更新されたストロボ効果設定に基づいて前記ビデオ・クリップを出力することは、
GANで生成されたビデオを追加層として拡張現実(AR)システムと重ね合わせること
をさらに含む、請求項1ないし5のいずれかに記載のコンピュータ実装方法。
【請求項7】
ユーザからのフィードバックを受け取ることが、
モデル・パラメータを更新することと、
強化学習を使用して、前記ユーザによって提供される報酬スコアに基づいて前記モデル・パラメータを微調整することと
をさらに含む、請求項1ないし6のいずれかに記載のコンピュータ実装方法。
【請求項8】
画像からストロボ効果をリアルタイムで修正するためのコンピュータ・プログラム製品であって、前記コンピュータ・プログラム製品は、
1つまたは複数のコンピュータ可読記憶媒体と、前記1つまたは複数のコンピュータ可読記憶媒体に記憶されたプログラム命令とを含み、前記プログラム命令は、
ユーザによる1つまたは複数のビデオ・クリップを識別するためのプログラム命令と、
視覚的データを決定するためのプログラム命令と、
ストロボ効果設定を決定するためのプログラム命令と、
前記1つまたは複数のビデオ・クリップに対してストロボ効果設定を実行するためのプログラム命令と、
更新されたストロボ効果設定に基づいて前記ビデオ・クリップを出力するためのプログラム命令と、
ユーザからのフィードバックを受け取るためのプログラム命令と
を含む、コンピュータ・プログラム製品。
【請求項9】
視覚的データを決定するためのプログラム命令は、
前記視覚的データを収集するためのプログラム命令であって、視覚的データが環境データおよびユーザ・データを含む、前記視覚的データを収集するためのプログラム命令と、
視覚的データを潜在空間に符号化するためのプログラム命令と
をさらに含む、請求項8に記載のコンピュータ・プログラム製品。
【請求項10】
ストロボ効果設定を決定するためのプログラム命令は、環境条件、ユーザの医療プロファイル、照明条件、光の周波数、物体の回転速度、時空間オブジェクトの可視性スコアを含む因子に基づく、請求項8または9に記載のコンピュータ・プログラム製品。
【請求項11】
ストロボ効果設定は、ストロボ効果の有効化/無効化、立体視効果の強化、および立体視効果の打ち消しをさらに含む、請求項8、9、または10に記載のコンピュータ・プログラム製品。
【請求項12】
前記1つまたは複数のビデオ・クリップに対してストロボ効果設定を実行するためのプログラム命令は、
様々な損失関数を使用して弁別器および生成器を学習することによって拡張ビデオを生成するためのプログラム命令
をさらに含む、請求項8ないし11のいずれかに記載のコンピュータ・プログラム製品。
【請求項13】
更新されたストロボ効果設定に基づいて前記ビデオ・クリップを出力するためのプログラム命令は、
GANで生成されたビデオを追加層として拡張現実(AR)システムと重ね合わせるためのプログラム命令
をさらに含む、請求項8ないし12のいずれかに記載のコンピュータ・プログラム製品。
【請求項14】
ユーザからのフィードバックを受け取るためのプログラム命令は、
モデル・パラメータを更新するためのプログラム命令と、
強化学習を使用して、前記ユーザによって提供される報酬スコアに基づいて前記モデル・パラメータを微調整するためのプログラム命令と
をさらに含む、請求項8ないし13のいずれかに記載のコンピュータ・プログラム製品。
【請求項15】
画像からストロボ効果をリアルタイムで修正するためのコンピュータ・システムであって、前記コンピュータ・システムは、
1つまたは複数のコンピュータ・プロセッサと、
1つまたは複数のコンピュータ可読記憶媒体と、
前記1つまたは複数のコンピュータ・プロセッサのうちの少なくとも1つによる実行のために前記1つまたは複数のコンピュータ可読記憶媒体上に記憶されたプログラム命令と
を含み、前記プログラム命令は、
ユーザによる1つまたは複数のビデオ・クリップを識別するためのプログラム命令と、
視覚的データを決定するためのプログラム命令と、
ストロボ効果設定を決定するためのプログラム命令と、
前記1つまたは複数のビデオ・クリップに対してストロボ効果設定を実行するためのプログラム命令と、
更新されたストロボ効果設定に基づいて前記ビデオ・クリップを出力するためのプログラム命令と、
ユーザからのフィードバックを受け取るためのプログラム命令と
を含む、コンピュータ・システム。
【請求項16】
視覚的データを決定するためのプログラム命令は、
前記視覚的データを収集するためのプログラム命令あって、視覚的データが環境データおよびユーザ・データを含む、前記視覚的データを収集するためのプログラム命令と、
視覚的データを潜在空間に符号化するためのプログラム命令と
をさらに含む、請求項15に記載のコンピュータ・システム。
【請求項17】
ストロボ効果設定を決定するためのプログラム命令は、環境条件、ユーザの医療プロファイル、照明条件、光の周波数、物体の回転速度、時空間オブジェクトの可視性スコアを含む因子に基づく、請求項15または16に記載のコンピュータ・システム。
【請求項18】
ストロボ効果設定は、ストロボ効果の有効化/無効化、立体視効果の強化、および立体視効果の打ち消しをさらに含む、請求項15ないし17のいずれかに記載のコンピュータ・システム。
【請求項19】
前記1つまたは複数のビデオ・クリップに対してストロボ効果設定を実行するためのプログラム命令は、
様々な損失関数を使用して弁別器および生成器を学習することによって拡張ビデオを生成するためのプログラム命令
をさらに含む、請求項15ないし18のいずれかに記載のコンピュータ・システム。
【請求項20】
更新されたストロボ効果設定に基づいて前記ビデオ・クリップを出力するためのプログラム命令は、
GANで生成されたビデオを追加層として拡張現実(AR)システムと重ね合わせるためのプログラム命令
をさらに含む、請求項15ないし19のいずれかに記載のコンピュータ・システム。
【請求項21】
コンピュータ・プログラムがコンピュータ上で実行されたときに請求項1ないし7のいずれかに記載の方法を実行するように適合されたプログラム・コード手段を含む、コンピュータ・プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、一般に、表示の分野に関し、より詳細には、視聴体験に対するストロボ効果を調整することに関する。
【背景技術】
【0002】
ストロボ効果の視覚的現象により、動いている物体は、非連続的かつ離散的なサンプリング・ビューで見られたときに静止しているように見えるようになる。効果は、すべての人において同じではなく、その人の生理学的状態、地理的位置などに依存する。
【0003】
実生活においては、ストロボ効果の存在により、表示シーンの分かりやすさがより良好になることもあれば、さらに不良になることもある。一方、ストロボ効果の除去により、体験が向上することもある。事前録画されたビデオ(例えば、映画、またはカメラ・キャプチャ)では、車輪の回転周波数と光の周波数との差異により、ワゴン・ホイール効果が意図せず発生し、体験を悪化させる。ほとんどの場合、視覚的錯覚を無くすことが好ましいが、場合によっては、いくつかの特定のシナリオにおいて、視覚的錯覚が無いことが人に不快感を与えるので、強化が必要になる。
【発明の概要】
【0004】
一態様によれば、機械学習を活用することによって画像からストロボ効果をリアルタイムで修正するためのコンピュータ実装方法が提供され、コンピュータ実装方法は、ユーザによる1つまたは複数のビデオ・クリップを識別することと、視覚的データを決定することと、ストロボ効果設定を決定することと、1つまたは複数のビデオ・クリップに対してストロボ効果設定を実行することと、更新されたストロボ効果設定に基づいてビデオ・クリップを出力することと、ユーザからのフィードバックを受け取ることとを含む。
【0005】
別の態様によれば、画像からストロボ効果をリアルタイムで修正するためのコンピュータ・プログラム製品が提供され、コンピュータ・プログラム製品は、1つまたは複数のコンピュータ可読記憶媒体と、1つまたは複数のコンピュータ可読記憶媒体に記憶されたプログラム命令とを含み、プログラム命令は、ユーザによる1つまたは複数のビデオ・クリップを識別するためのプログラム命令と、視覚的データを決定するためのプログラム命令と、ストロボ効果設定を決定するためのプログラム命令と、1つまたは複数のビデオ・クリップに対してストロボ効果設定を実行するためのプログラム命令と、更新されたストロボ効果設定に基づいてビデオ・クリップを出力するためのプログラム命令と、ユーザからのフィードバックを受け取るためのプログラム命令とを含む。
【0006】
別の態様によれば、画像からストロボ効果をリアルタイムで修正するためのコンピュータ・システムが提供され、コンピュータ・システムは、1つまたは複数のコンピュータ・プロセッサと、1つまたは複数のコンピュータ可読記憶媒体と、1つまたは複数のコンピュータ・プロセッサのうちの少なくとも1つによる実行のために1つまたは複数のコンピュータ可読記憶媒体上に記憶されたプログラム命令とを含み、プログラム命令は、ユーザによる1つまたは複数のビデオ・クリップを識別するためのプログラム命令と、視覚的データを決定するためのプログラム命令と、ストロボ効果設定を決定するためのプログラム命令と、1つまたは複数のビデオ・クリップに対してストロボ効果設定を実行するためのプログラム命令と、更新されたストロボ効果設定に基づいてビデオ・クリップを出力するためのプログラム命令と、ユーザからのフィードバックを受け取るためのプログラム命令とを含む。
【0007】
本発明の好ましい実施形態は、視聴体験に関連する画像からストロボ効果を除去または強化することによってリアルタイムで修正するための、コンピュータ実装方法、コンピュータ・システム、およびコンピュータ・プログラム製品を開示する。コンピュータ実装方法は、1つまたは複数のコンピュータ・プロセッサによって実施されてもよく、ビデオ・クリップを識別することと、環境パラメータを検出することと、表示設定を算出することと、GANからの推奨を使用して表示設定を分析することと、表示設定をARディスプレイ上に出力することと、ユーザからのフィードバックを受け取ることとを含んでもよい。
【0008】
本発明の別の実施形態によれば、コンピュータ・システムが提供される。コンピュータ・システムは、処理ユニットと、処理ユニットに結合され命令を記憶するメモリとを含む。命令は、処理ユニットによって実行されたときに、本発明の実施形態による方法の作用を実行する。
【0009】
本発明のさらに別の実施形態によれば、非一時的な機械可読媒体上に有形的に記憶され、機械実行可能命令を含むコンピュータ・プログラム製品が提供される。命令は、デバイス上で実行されたときに、デバイスに本発明の実施形態による方法の作用を実行させる。
【0010】
次に、本発明の好ましい実施形態について、以下の図面を参照しながら単なる例として説明する。
【図面の簡単な説明】
【0011】
【
図1】本発明の一実施形態による、100と指定された表示環境を示す機能ブロック図である。
【
図2】本発明の一実施形態による、表示コンポーネント111の高レベルの概略的なステップを示す機能ブロック図である。
【
図3】本発明の一実施形態による、表示環境100に関連するビデオ生成シーケンスを示す図である。
【
図4】本発明の別の実施形態による、表示環境100がビデオ生成器およびビデオ弁別器を使用して視覚的錯覚損失をどのように捕捉するかを示す図である。
【
図5】本発明の別の実施形態による、500と指定された表示コンポーネント111の動作を示す高レベルの流れ図である。
【
図6】本発明の一実施形態による、表示環境100内で表示コンポーネント111を実行することが可能なサーバ・コンピュータのコンポーネントの600と指定されたブロック図である。
【発明を実施するための形態】
【0012】
ビデオ表示、特に動いている物体に関連するストロボ効果に関する現在の最先端技術は、視聴者にとっていくつかの課題を引き起こす可能性がある。例えば、ビデオ画像からのシーンは、動いている物体のストロボ効果を無くして、背景を見えるようにする必要がある場合がある。補正されない場合、医療分野などにおいてはX線チャートから見えなくなった病変/腫瘍が存在する可能性があるなど、望ましくない影響が生じる場合もある。逆に、背景の可視性を完全に遮断することによって、動いている物体を不透明にすることが望ましい場合もある。
【0013】
ストロボ効果の結果に関連する他の課題は、ストロボ効果を有するビデオ・クリップにおいて、状況全体が考慮されない場合に、動いている物体および背景の重要度の優先順位付けが困難になるという例を含み得る。ビデオを捕捉することに関する別の例では、人の脳が通常訓練されている明らかなストロボ効果がない場合に、視聴体験全体が退屈なものになる可能性がある。
【0014】
本発明の実施形態は、動いている物体に関連するストロボ効果に関する現在の最先端技術における欠陥を認識し、手法を提供する。手法は、視聴体験に関連するストロボ効果を除去または強化することによるリアルタイムの補正で構成される。手法は、拡張現実(AR)を活用し、機械学習、具体的には敵対的生成ネットワーク(GAN)を使用して、画像をリアルタイムで修正/補正する。手法は、事前録画されたビデオに適用されて特定のフレームの部分を補正することもできる。手法は、展開可能、ダウンロード可能、および共有可能なモデルとすることができる。さらに、手法は、ユーザ・インターフェース(UI)上で開発および更新され得るシステムに統合され得る。
【0015】
本発明の実施形態は、以下のシナリオにおいて利点をもたらし得る。(i)動いているブレードが見えなくなるというストロボ効果により、命にかかわる事故が発生する可能性がある産業(すなわち、動いている物体よりも背景が見えることがより重要になるシナリオ)、(ii)ワゴン・ホイール効果により実現不可能なものを示すことによって視聴体験を歪めるビデオまたは商業広告。または、車輪を逆方向に動いているように見せるような別のワゴン・ホイール効果、(iii)正確な画像表現のためにAIを使用するコンピュータ・ビジョンに関する様々なアプリケーション、(iv)ヘルスケア、情報学などに重点を置いた研究分野である医用画像分析およびソリューション、ならびに(v)ユーザが主に視覚的な刺激に依存するAR体験にとって非常に有用であり得ること。
【0016】
いくつかの実施形態は、シーンの状況を識別し、動いている物体および背景の可視性を変調する手法を含んでもよい。同じ実施形態は、物体を見えるように作成することによってストロボ効果の背景を拡張してもよく、これにより、動いている物体が透明であることをユーザが容易に体験できるようにする。
【0017】
いくつかの実施形態は、動いている物体を完全に不透明にしてユーザにその存在を認識させる(ユーザが背景を見ることはない)ことを可能にし、視覚的錯覚により物が物理的性質と矛盾するワゴン・ホイール効果のようなシナリオを回避することによって、より良好な視聴体験のために既存のストロボ効果を強化または是正することができる手法を含んでもよい。
【0018】
いくつかの実施形態は、立体視効果を最小限に抑えるための以下の有利な特徴を含んでもよい。(i)動いている物体および背景の可視性を同時に変調すること、(ii)背景を拡張し、透明性を追加すること、(iii)動いている物体を不透明にし、それを背景に対して区別すること、(iv)光源を使用してストロボ効果を制御すること、しかし、これは表示デバイスにのみ適用可能であり、実際のシナリオでは即時に機能しない、(v)動いている物体を不透明にし、それを背景に対して区別すること、(vi)背景を拡張し、透明性を追加すること、(vii)ビデオ内の物体の動きを変更すること、しかし、これはメディア・ファイルの後処理ステップとして行われ、即時には行われない(また、背景の効果を考慮しない)。
【0019】
本明細書における「一実施形態」、「実施形態」、「例示的な実施形態」などについての言及は、説明される実施形態が特定の特徴、構造、または特性を含み得ることを示しているが、それぞれの実施形態は、特定の特徴、構造、または特性を必ずしも含まなくてもよい。また、このような語句は、必ずしも同じ実施形態を指しているわけではない。さらに、特定の特徴、構造、または特性が、ある実施形態と関連して説明されるとき、明示的に説明されているか否かにかかわらず、他の実施形態と関連するそのような特徴、構造、または特性に影響を与えることは、当業者の知識の範囲内であると考えられる。
【0020】
図は単に概略的なものであり、一定の縮尺で描かれていないことが理解されるべきである。また、同じまたは類似の部分を示すために、全図を通して同じ参照番号が使用されていることも理解されるべきである。
【0021】
図1は、本発明の一実施形態による、表示環境100を示す機能ブロック図である。
図1は、単に一実装形態の例示を提供するものであり、異なる実施形態が実装され得る環境に関していかなる制限も示唆するものではない。特許請求の範囲に記載された本発明の範囲から逸脱することなく、当業者によって、図示された環境に多くの修正が加えられてもよい。
【0022】
表示環境100は、ネットワーク101、IoTデバイス102、表示デバイス103、敵対的生成ネットワーク(GAN)サーバ104、ビデオ・ソース105、およびサーバ110を含む。
【0023】
ネットワーク101は、例えば、電気通信ネットワーク、ローカル・エリア・ネットワーク(LAN)、インターネットなどのワイド・エリア・ネットワーク(WAN)、またはその3つの組合せとすることができ、有線接続、無線接続、または光ファイバ接続を含むことができる。ネットワーク101は、音声、データ、およびビデオの情報を含むマルチメディア信号を含むデータ信号、音声信号、もしくはビデオ信号またはそれらの組合せを受信および送信することが可能な1つもしくは複数の有線ネットワークもしくは無線ネットワークまたはその両方を含むことができる。一般に、ネットワーク101は、サーバ110と、表示デバイス103と、IoTデバイス102と、GANサーバ104と、ビデオ・ソース105と、表示環境100内の他のコンピューティング・デバイス(図示せず)との間の通信をサポートすることができる接続およびプロトコルの任意の組合せとすることができる。他のコンピューティング・デバイスは、IoTデバイス102、および一連のコンピューティング命令を実行することが可能な任意の電気機械デバイスを含むことができるが、これらに限定されないことに留意されたい。
【0024】
IoTデバイス102は、リアルタイムのデータ(例えば、ビデオ画像、温度、湿度など)を収集することが可能な様々なセンサ(例えば、温度センサ/イメージング、心拍数モニタ、マイクロフォンなど)を含む、任意のスマート/IoT(モノのインターネット)デバイス(例えば、ウェアラブル・スマート・デバイス、スマート・フォン、無線カメラなど)とすることができる。例えば、IoTデバイス102は、環境データとともに個人ユーザ・データを収集することができる。ユーザ・データは、(ウェアラブル・センサを使用して)ユーザの医療プロファイルに関連付けられ得る。環境データは、照明条件、光の周波数、物体の回転速度などの環境プロファイルにマッピングされた光センサ、速度センサなどを使用して収集され得る。
【0025】
表示デバイス103は、ストロボ効果が修正/補正された画像をユーザが見ることを可能にする任意の表示デバイスとすることができる。表示デバイス103は、LCD/LEDディスプレイ、仮想現実(VR)ゴーグル、拡張現実(AR)ゴーグル、プロジェクタ、およびタブレットとすることができるが、これらに限定されない。
【0026】
GANサーバ104は、敵対的生成ネットワーク(GAN)技術を活用して画像操作(例えば、編集、修正など)を実行する人工知能(AI)サーバである。
【0027】
GAN技術とは何か?GAN技術は、モデルの訓練において広範な適用可能性を有する機械学習の一種(例えば、教師あり学習、教師なし学習、強化学習など)である。GAN技術は、訓練セットがあれば、訓練セットと同じ正確度で新しいデータを生成することを学習することができる。GANの主な考え方は、弁別子を介した「間接的な」訓練に基づいており、弁別子自体も動的に更新される。これは基本的に、生成器が特定の画像との隔たりを最小化するように訓練されておらず、むしろ弁別器を騙すように訓練されていることを意味する。これにより、モデルは、教師なしの様式で学習することが可能になる。GANは、そのアーキテクチャにおいて2つのニューラル・ネットワーク(例えば、生成器、弁別器)を使用する。生成器ネットワークの目的は、偽の出力を生成し、次いで、ランダム・ノイズを入力として受け取り、本物の出力と可能な限り類似した出力を作成することである。例えば、偽造のお金が使用された場合、生成器は、本物のお金のように見える出力を作成しようとする。逆に、弁別器ネットワークは警察の役割を果たす。弁別器ネットワークは、本物のお金がどのように見えるべきかをよく理解できるように、本物のお金の画像を用いて訓練される。生成器からの偽の画像も、弁別器に供給される。最初は、弁別器は、訓練の初期段階で本物を偽物と区別することにおいて何の問題もない。さらに、弁別器はまた、生成器が実行しているジョブがどの程度良好であるかに関するフィードバックを生成器に提供する。生成器は、このフィードバックに基づいて、次の反復でより真正な出力を作成するためのその手法(例えば、損失関数など)を修正する。
【0028】
ビデオ・ソース105は、ユーザがストロボ効果に起因して修正を加えたいと望むビデオ(例えば、静止画、コンピュータ・ファイル、動画、ライブ、事前録画など)のソースである。
【0029】
サーバ110もしくはGANサーバ104またはその両方は、スタンドアロン・コンピューティング・デバイス、管理サーバ、ウェブ・サーバ、モバイル・コンピューティング・デバイス、またはデータを受信、送信、および処理することが可能な任意の他の電子デバイスもしくはコンピューティング・システムとすることができる。他の実施形態では、サーバ110は、クラウド・コンピューティング環境などにおいて複数のコンピュータをサーバ・システムとして利用するサーバ・コンピューティング・システムを表すことができる。別の実施形態では、サーバ110は、ラップトップ・コンピュータ、タブレット・コンピュータ、ネットブック・コンピュータ、パーソナル・コンピュータ(PC)、デスクトップ・コンピュータ、携帯情報端末(PDA:personal digital assistant)、スマート・フォン、またはネットワーク101を介して表示環境100内の他のコンピューティング・デバイス(図示せず)と通信することが可能な任意の他のプログラマブル電子デバイスとすることができる。別の実施形態では、サーバ110は、表示環境100内でアクセスされたときにシームレスなリソースの単一プールとして作用するクラスタ化されたコンピュータおよびコンポーネント(例えば、データベース・サーバ・コンピュータ、アプリケーション・サーバ・コンピュータなど)を利用するコンピューティング・システムを表す。
【0030】
本発明の実施形態は、サーバ110上に存在することができる。サーバ110は、表示コンポーネント111およびデータベース116を含む。
【0031】
表示コンポーネント111は、敵対的生成ネットワーク(GAN)技術を活用することによって、ビデオ/静止画像に関連するストロボ効果を回避または強化する能力を提供する。さらに、拡張現実(AR)デバイスを使用して、画像に追加フィルタを提供することができる。
【0032】
好ましい実施形態の表示コンポーネント111を例示するために、ユーザ事例のシナリオを使用する。ビデオ・クリップは、天井ファンの画像を含む。天井ファンの速度は、天井ライトの周波数とほぼ同じである。ストロボ効果により、人間の目は、動いている物体を静止していると認識する。スマート眼鏡(すなわち、ARゴーグル)によって行われる画像処理は、微妙な周波数の差異を識別し、異なる時点で画像を捕捉し続ける。ストロボ効果を識別した後、本実施形態は、GANを使用して、修正された画像を生成する。
【0033】
表示コンポーネント111は、以下の特徴もしくは能力またはその両方を有する。(i)シーンの状況を識別し、それに応じて、動いている物体および背景の可視性を変調すること、(ii)ストロボ効果の背景を拡張して、物体を可視できるように作成すること-ユーザは動いている物体が透明になるのを体験する、(iii)動いている物体を完全に不透明にして、ユーザにその存在を認識させること-ユーザが背景を見ることはない、および(iv)より良好な視聴体験のために既存のストロボ効果を強化または是正すること-視覚的錯覚により物が物理的性質と矛盾するワゴン・ホイール効果のようなシナリオを回避する。
【0034】
表示コンポーネント111のいくつかの実施形態は、以下のステップもしくは特徴またはその両方を含んでもよい。(i)敵対的生成ネットワークを使用して拡張ビデオを生成するために、ビデオとともに様々なIoTセンサ・データを入力として取得すること、(ii)様々な時間符号化器を使用して、様々な時空間データを潜在空間に符号化すること、(iii)環境条件、ユーザの医療プロファイル、照明条件、光の周波数、物体の回転速度、時空間オブジェクトの可視性スコアなどの様々な因子を決定すること、(iv)複数のデータ・ソースを制御可能なパラメータとともに組み合わせることによってノイズの量を低減するように学習すること、(v)様々な損失関数を使用して弁別器および生成器を学習することによって、可能性のある制御可能なパラメータ(例えば、拡張ビデオを生成するための、効果の有効化/無効化、効果の解像度の強化、効果の打ち消し、効果のマージ/分割)を取得すること。損失関数は、視覚的錯覚損失、効果打ち消し損失、効果マージ/分割損失などを含む、(vi)前のステップからの出力は、GANで生成されたビデオを追加層として重ね合わせるために拡張現実システムと統合され得ること、ならびに(vii)モデル・パラメータを動的に更新し、強化学習を使用して、ユーザによって提供される報酬スコアに基づいてパラメータを微調整すること。可能性のある報酬スコアは、効果レベルで、または時空間ビデオ・フレームのラベル付けで、またはストロボ効果の副次的な効果のマーク付けで提供される。一般に、「時空間データ」は、そのデータに含まれる空間パラメータおよび時間パラメータに関する情報を与えるデータ・セットに相当する。例えば、ビデオ内の動いている物体を追跡する、または所与の時間に単一の位置を占有する。
【0035】
表示コンポーネント111の機能性を例示するために、以下に一例を提供する。動いている物体および光の周波数が同じであるシナリオ(例えば、天井ファン)について考察する。ストロボ効果により、人の肉眼は、動いている物体が静止していると認識する。表示コンポーネント111の一部として、スマート眼鏡によって行われる画像処理は、微妙な周波数の差異を識別し、異なる時点で画像を捕捉し続ける。ストロボ効果を識別した後、表示コンポーネント111は、GANを使用してそのストロボ効果を生成し、拡張現実(AR)デバイスを使用してそのストロボ効果を期待どおりに導入する。
【0036】
データベース116は、表示コンポーネント111によって使用されるデータ用のリポジトリである。データベース116は、データベース・サーバ、ハード・ディスク・ドライブ、またはフラッシュ・メモリなどのサーバ110によってアクセスおよび利用され得るデータおよび構成ファイルを記憶することが可能な任意のタイプの記憶デバイスを用いて実装され得る。データベース116は、当技術分野で知られている複数の技法のうちの1つまたは複数を使用して複数の情報を格納する。図示された実施形態では、データベース116はサーバ110上に存在する。別の実施形態では、表示コンポーネント111がデータベース116にアクセスできることを条件として、データベース116は表示環境100内の他の場所に存在してもよい。データベース116は、知識コーパス、訓練データセット、訓練モデル、画像のライブラリ、強化学習(RL)を介したフィードバック、拡張現実(AR)表示設定/プロファイル、VR表示設定/プロファイル、表示設定、損失関数、データ・インターフェースおよびビデオ編集技法を含むIoTデバイス仕様に関連する情報を格納し得るが、これらに限定されない。
【0037】
図2は、本発明の一実施形態による、表示コンポーネント111の高レベルの概略的なステップを示す機能ブロック図である。ブロック201は、対象のビデオ・クリップを識別することによる入力フェーズを示す。ブロック201はブロック202につながる。ブロック202は、環境パラメータおよび視覚的錯覚を検出する機能性を示す。ブロック202内の他の特徴は、(i)光の周波数および回転している物体を検出すること、ならびに(ii)肉眼での効果の可視性を検出することを含む。ブロック202はブロック203に流れる。ブロック203は、(ブロック201からの)ビデオ・データのデータ条件およびノイズ低減という特徴を含む。ブロック203は、推奨エンジンであるブロック204につながる。ブロック204は、推奨エンジンとして、(i)ストロボ効果の有効化/無効化、(ii)立体視効果の強化、および(iii)立体視効果の打ち消しという特徴を有する。ブロック204によってなされた決定に基づいて、ブロック205が、推奨されるアクションを実行する。推奨されるアクションは、ブロック206、ブロック207、およびブロック208において説明され得る。ブロック206は、実施形態が、効果が必要とされるが存在していないシーンに対して効果を適用できること、およびその逆を行うことができることを表す。ブロック207は、実施形態が、効果の未加工の可視性が顕著でない場合に効果を強化できることを表し、ブロック208は、実施形態が、背景と動いている物体との間の重要度を評価し、可視性を変調できることを表す。すべての決定ブロック(例えば、206、207、および208)は、既存の知識ベースKB(知識ベース)とのパターン一致を表すブロック209につながる。画像の生成/変更後の次のフェーズは、強化学習(RL)フェーズである。ブロック210は、AR眼鏡を使用して、変更された画像の視認性を強化することを表す。ブロック211は、将来の調整のために、ユーザからのフィードバックがシステムに戻されることを表す。
【0038】
図3は、本発明の一実施形態による、表示環境100に関連するビデオ生成シーケンスを示す図である。IoTデバイス102からのデータは、ビデオ・データと組み合わされ、次いで、GANシステムのビデオ生成コンポーネントに供給される。IoTデバイスによって収集されるデータは、環境データとともに個人ユーザ・データを含むことができる。ユーザ・データは、(ウェアラブル・ウォッチ/センサを介して)ユーザの医療プロファイルに関連付けられ得る。環境データは、照明条件、光の周波数、物体の回転速度などの環境プロファイルにマッピングされた光センサ、速度センサなどを使用して収集され得る。例えば、環境条件/データは、ある空間における照明の量である。光の強度が検出され、システムに供給される。環境パラメータは制御可能なパラメータに関連付けられ得ることに留意されたい。これらはモデルによって訓練および学習される。
【0039】
ユーザは制御可能なパラメータを調整するためのアクセスを有することに留意されたい。制御可能なパラメータは、拡張ビデオを生成するための、効果の有効化/無効化、効果の解像度の強化、効果の打ち消し、および効果のマージ/分割を含む。
【0040】
図4は、本発明の別の実施形態による、表示環境100がビデオ生成器およびビデオ弁別器を使用して視覚的錯覚損失をどのように捕捉するかを示す図である。
【0041】
図5は、本発明の別の実施形態による、500と指定された表示コンポーネント111の動作を示す高レベルの流れ図である。
【0042】
表示コンポーネント111は、1つまたは複数のビデオ・クリップを識別する(ステップ502)。一実施形態では、表示コンポーネント111は、ユーザからの選択結果に基づいて、ユーザの視聴体験を向上させるプロセスとなるビデオもしくは静止画像またはその両方(例えば、ライブ・ストリーム、カメラ録画、事前録画など)を選ぶ。例えば、ユーザは、ビデオ・ソース105(すなわち、パーソナル・コンピュータ上に記憶されているファイル)から、事前録画されたクリップを選択する。
【0043】
表示コンポーネント111は、視覚的データを決定する(ステップ504)。一実施形態では、表示コンポーネント111は、機械学習およびIoTデバイスを通じて、視覚的データ(環境データおよびユーザ・データを含む)を収集する。環境条件は、照明条件、光の周波数、物体の回転速度などの環境プロファイルにマッピングされた光センサ、速度センサなどを使用して収集される。
【0044】
IoTデバイス102は、環境データとともに個人ユーザ・データを収集する。ユーザ・データは、ウェアラブル・センサを使用してユーザの医療プロファイルに関連付けられる。すべての視覚的データが収集されると、次いで、データは、選択されたビデオ・クリップと組み合わされる。選択されたビデオ・クリップは、様々な時間符号化器を使用して、時空間データとともに潜在空間に符号化される。時空間データは、ビデオ内の動いている物体を追跡することを含み、所与の時間に単一の位置を占有することができる。
【0045】
表示コンポーネント111は、ストロボ効果の設定を決定する(ステップ506)。一実施形態では、表示コンポーネント111は、AI(機械学習)を活用することによって、様々な因子に基づいて(ストロボ効果設定のための)最適な推奨を決定する。例えば、因子は、環境条件、ユーザの医療プロファイル、照明条件、光の周波数、物体の回転速度、時空間オブジェクトの可視性スコアなどを含むことができる。
【0046】
したがって、表示コンポーネント111は、様々な因子に基づいて、(i)ストロボ効果の有効化/無効化、(ii)立体視効果の強化、および(iii)立体視効果の打ち消しなどの最適な(ユーザ/視聴者に固有の)推奨を行うことができる。
【0047】
いくつかの実施形態では、表示コンポーネント111は、複数のデータ・ソースを制御可能なパラメータとともに組み合わせることによってノイズの量を低減するように学習することができる。
【0048】
表示コンポーネント111は、ストロボ効果設定を実行する(ステップ508)。一実施形態では、表示コンポーネント111は、前のステップから推奨設定を開始する。表示コンポーネント111は、様々な損失関数を使用して(GANを介して)弁別器および生成器を学習することによって、推奨される設定を使用して拡張ビデオを生成する。損失関数は、視覚的錯覚損失、効果打ち消し損失、効果マージ/分割損失などを含む。例えば、推奨がストロボ効果を有効化することである場合、システムはそのアクションを実行する。
【0049】
表示コンポーネント111は、ビデオ・クリップを出力する(ステップ510)。一実施形態では、表示コンポーネント111は、更新されたストロボ効果設定に基づいてビデオ・クリップをディスプレイに出力する。例えば、出力を拡張現実(AR)システム(すなわち、103)と統合して、GANで生成されたビデオを追加層として重ね合わせることができる。
【0050】
表示コンポーネント111は、ユーザからのフィードバックを受け取る(ステップ512)。一実施形態では、表示コンポーネント111は、モデル・パラメータを動的に更新し、強化学習を使用して、ユーザによって提供される報酬スコアに基づいてパラメータを微調整することができる。可能性のある報酬スコアは、効果レベルで、または時空間ビデオ・フレームのラベル付けで、またはストロボ効果の副次的な効果のマーク付けで提供される。
【0051】
600と指定された
図6は、本発明の例示的な実施形態による、表示コンポーネント111アプリケーションのコンポーネントのブロック図を示す。
図6は、単に一実装形態の例示を提供するものであり、異なる実施形態が実装され得る環境に関していかなる制限も示唆するものではないことが理解されるべきである。図示された環境に対して多くの修正が加えられてもよい。
【0052】
図6は、プロセッサ601、キャッシュ603、メモリ602、永続ストレージ605、通信ユニット607、入力/出力(入出力)インターフェース606、および通信ファブリック604を含む。通信ファブリック604は、キャッシュ603と、メモリ602と、永続ストレージ605と、通信ユニット607と、入力/出力(入出力)インターフェース606との間の通信を提供する。通信ファブリック604は、プロセッサ(マイクロプロセッサ、通信およびネットワーク・プロセッサなど)と、システム・メモリと、周辺デバイスと、システム内の任意の他のハードウェア・コンポーネントとの間でデータもしくは制御情報またはその両方を受け渡すように設計された任意のアーキテクチャを用いて実装され得る。例えば、通信ファブリック604は、1つもしくは複数のバスまたはクロスバー・スイッチを用いて実装され得る。
【0053】
メモリ602および永続ストレージ605は、コンピュータ可読記憶媒体である。この実施形態では、メモリ602は、ランダム・アクセス・メモリ(RAM)を含む。一般に、メモリ602は、任意の好適な揮発性または不揮発性のコンピュータ可読記憶媒体を含むことができる。キャッシュ603は、メモリ602から最近アクセスされたデータおよび最近アクセスされたデータに近いデータを保持することによってプロセッサ601の性能を向上させる高速メモリである。
【0054】
本発明の実施形態を実践するために使用されるプログラム命令およびデータ(例えば、ソフトウェアおよびデータx10)は、キャッシュ603を介したそれぞれのプロセッサ601のうちの1つまたは複数による実行のために、永続ストレージ605およびメモリ602に記憶されてもよい。一実施形態では、永続ストレージ605は磁気ハード・ディスク・ドライブを含む。磁気ハード・ディスク・ドライブの代替として、または磁気ハード・ディスク・ドライブに加えて、永続ストレージ605は、ソリッド・ステート・ハード・ドライブ、半導体記憶デバイス、読取り専用メモリ(ROM)、消去可能プログラマブル読取り専用メモリ(EPROM)、フラッシュ・メモリ、またはプログラム命令もしくはデジタル情報を記憶することが可能な任意の他のコンピュータ可読記憶媒体を含むことができる。
【0055】
永続ストレージ605によって使用される媒体はまた、取り外し可能であってもよい。例えば、取り外し可能なハード・ドライブが永続ストレージ605に使用されてもよい。他の例には、光ディスクおよび磁気ディスク、サム・ドライブ、ならびに永続ストレージ605の一部でもある別のコンピュータ可読記憶媒体に転送するためにドライブに挿入されるスマート・カードが含まれる。表示コンポーネント111は、キャッシュ603を介したそれぞれのプロセッサ601のうちの1つまたは複数によるアクセスもしくは実行またはその両方のために、永続ストレージ605に記憶され得る。
【0056】
通信ユニット607は、これらの例では、他のデータ処理システムまたはデバイスとの通信を提供する。これらの例では、通信ユニット607は、1つまたは複数のネットワーク・インターフェース・カードを含む。通信ユニット607は、物理通信リンクと無線通信リンクのいずれかまたは両方を使用することによって通信を提供してもよい。本発明の実施形態を実践するために使用されるプログラム命令およびデータ(例えば、表示コンポーネント111)は、通信ユニット607を介して永続ストレージ605にダウンロードされてもよい。
【0057】
入出力インターフェース606は、各コンピュータ・システムに接続され得る他のデバイスとのデータの入力および出力を可能にする。例えば、入出力インターフェース606は、キーボード、キーパッド、タッチスクリーン、もしくは何らかの他の好適な入力デバイス、またはそれらの組合せなどの外部デバイス608への接続を提供してもよい。外部デバイス608は、例えば、サム・ドライブ、ポータブル光ディスクまたは磁気ディスク、およびメモリ・カードなどのポータブル・コンピュータ可読記憶媒体を含むこともできる。本発明の実施形態を実践するために使用されるプログラム命令およびデータ(例えば、表示コンポーネント111)は、そのようなポータブル・コンピュータ可読記憶媒体に記憶され、入出力インターフェース606を介して永続ストレージ605にロードされ得る。入出力インターフェース606は、ディスプレイ609にも接続する。
【0058】
ディスプレイ609は、ユーザにデータを表示するためのメカニズムを提供し、例えば、コンピュータ・モニタであってもよい。
【0059】
本明細書に記載のプログラムは、本発明の特定の実施形態においてそのプログラムが実装される目的となるアプリケーションに基づいて識別される。しかしながら、本明細書における特定のプログラムの命名法は単に便宜上使用されており、したがって、本発明が、そのような命名法によって識別される、もしくは暗示される、またはその両方である特定のアプリケーションでの使用のみに限定されるべきではないことを理解されたい。
【0060】
本発明は、任意の可能な技術的詳細レベルで統合されたシステム、方法、もしくはコンピュータ・プログラム製品、またはそれらの組合せであってもよい。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実施させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体(または複数のコンピュータ可読記憶媒体)を含んでもよい。
【0061】
コンピュータ可読記憶媒体は、命令実行デバイスが使用するための命令を保持および記憶することができる有形デバイスとすることができる。コンピュータ可読記憶媒体は、例えば、電子記憶デバイス、磁気記憶デバイス、光学記憶デバイス、電磁気記憶デバイス、半導体記憶デバイス、または上記の任意の好適な組合せとすることができるが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストには以下のもの、すなわち、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、リード・オンリ・メモリ(ROM)、消去可能プログラマブルリード・オンリ・メモリ(EPROMまたはフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク・リード・オンリ・メモリ(CD-ROM)、デジタル・バーサタイル・ディスク(DVD)、メモリ・スティック、フロッピ・ディスク、パンチカードまたは命令が記録された溝内の隆起構造体などの機械的に符号化されたデバイス、および上記の任意の好適な組合せが含まれる。本明細書で使用されるコンピュータ可読記憶媒体は、電波もしくは他の自由に伝播する電磁波、導波路もしくは他の伝送媒体を介して伝播する電磁波(例えば、光ファイバ・ケーブルを通る光パルス)、または電線を介して送信される電気信号などの一過性の信号自体であると解釈されるべきではない。
【0062】
本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理デバイスに、または、ネットワーク、例えばインターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、もしくは無線ネットワークまたはそれらの組合せを介して外部コンピュータまたは外部記憶デバイスにダウンロードされ得る。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、もしくはエッジ・サーバまたはそれらの組合せを含んでもよい。各コンピューティング/処理デバイスにおけるネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、そのコンピュータ可読プログラム命令を、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体に記憶するために転送する。
【0063】
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、インストラクション・セット・アーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路用の構成データ、または、Smalltalk(登録商標)、C++などのオブジェクト指向プログラミング言語および「C」プログラミング言語もしくは同様のプログラミング言語などの手続き型プログラミング言語を含む1つまたは複数のプログラミング言語の任意の組合せで記述されたソース・コードもしくはオブジェクト・コードのいずれかであってもよい。コンピュータ可読プログラム命令は、スタンドアロン・ソフトウェア・パッケージとして全体がユーザのコンピュータ上で、一部がユーザのコンピュータ上で、一部がユーザのコンピュータ上かつ一部がリモート・コンピュータ上で、または全体がリモート・コンピュータ上もしくはサーバ上で実行されてもよい。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク(LAN)もしくはワイド・エリア・ネットワーク(WAN)を含む任意のタイプのネットワークを介してユーザのコンピュータに接続されてもよく、または(例えば、インターネット・サービス・プロバイダを使用してインターネットを介して)外部コンピュータに対して接続されてもよい。いくつかの実施形態では、本発明の態様を実行するために、例えば、プログラマブル・ロジック回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、またはプログラマブル・ロジック・アレイ(PLA)を含む電子回路が、コンピュータ可読プログラム命令の状態情報を利用して電子回路をパーソナライズすることによって、コンピュータ可読プログラム命令を実行してもよい。
【0064】
本明細書では、本発明の実施形態による方法、装置(システム)、およびコンピュータ・プログラム製品の流れ図もしくはブロック図またはその両方を参照しながら、本発明の態様について説明している。流れ図もしくはブロック図またはその両方の各ブロック、および流れ図もしくはブロック図またはその両方におけるブロックの組合せがコンピュータ可読プログラム命令によって実施され得ることが理解されよう。
【0065】
これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラマブル・データ処理装置のプロセッサを介して実行される命令が、流れ図もしくはブロック図またはその両方の1つまたは複数のブロックで指定された機能/作用を実施するための手段を作り出すように、汎用コンピュータ、専用コンピュータ、または他のプログラマブル・データ処理装置のプロセッサに提供されて、マシンを作り出すものであってもよい。これらのコンピュータ可読プログラム命令はまた、命令が記憶されたコンピュータ可読記憶媒体が、流れ図もしくはブロック図またはその両方の1つまたは複数のブロックで指定された機能/作用の態様を実施する命令を含む製造品を含むように、コンピュータ可読媒体に記憶され、コンピュータ、プログラマブル・データ処理装置、もしくは他のデバイスまたはそれらの組合せに対して特定の方式で機能するように指示できるものであってもよい。
【0066】
コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラマブル装置、または他のデバイスで実行される命令が、流れ図もしくはブロック図またはその両方の1つまたは複数のブロックで指定された機能/作用を実施するように、コンピュータ実施プロセスを作り出すべくコンピュータ、他のプログラマブル・データ処理装置、または他のデバイスにロードされて、コンピュータ、他のプログラマブル装置、または他のデバイス上で一連の動作ステップを実行させるものであってもよい。
【0067】
図中の流れ図およびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータ・プログラム製品の可能な実装形態のアーキテクチャ、機能性、ならびに動作を示す。これに関して、流れ図またはブロック図における各ブロックは、指定された論理機能を実装するための1つまたは複数の実行可能命令を含む、命令のモジュール、セグメント、または一部を表すことがある。いくつかの代替的な実装形態では、ブロックに記載された機能は、図に記載された順序とは異なる順序で行われてもよい。例えば、関与する機能性に応じて、連続して示されている2つのブロックが実際には実質的に同時に実行されてもよく、またはそれらのブロックが場合によっては逆の順序で実行されてもよい。ブロック図もしくは流れ図またはその両方の各ブロック、およびブロック図もしくは流れ図またはその両方におけるブロックの組合せは、指定された機能もしくは作用を実行するか、または専用ハードウェアとコンピュータ命令との組合せを遂行する専用ハードウェア・ベースのシステムによって実装され得ることにも留意されたい。
【0068】
本発明の様々な実施形態の説明を例示の目的で提示してきたが、この説明は、網羅的であることも、開示された実施形態に限定されることも意図していない。当業者には、本発明の範囲および思想から逸脱することなく多くの修正形態および変形形態が明らかであろう。本明細書で使用される用語は、実施形態の原理、実際の適用例、もしくは市場で見られる技術を超える技術的な改良を最もよく説明するように、または本明細書で開示された実施形態を当業者が理解することが可能になるように選択されたものである。
【0069】
添付の特許請求の範囲内のすべてのミーンズ・プラス・ファンクション要素またはステップ・プラス・ファンクション要素の対応する構造、材料、作用、および均等物は、具体的に特許請求される他の請求要素と組み合わせて機能を実行するための任意の構造、材料、または作用を含むことを意図している。本発明の説明は、例示および説明を目的として提示されたものであるが、網羅的であること、または開示された形態の本発明に限定されることを意図したものではない。当業者には、本開示の範囲および思想から逸脱することなく、多くの修正形態および変形形態が明らかとなろう。本実施形態は、本発明の原理および実際の適用例を最も良好に説明するとともに、企図される特定の用途に適するように様々な修正を加えた様々な実施形態について当業者が本発明を理解することを可能にするために、選択および説明されたものである。
【0070】
最後に、好ましい実施形態による提案される概念は、以下の条項に簡潔に要約され得る。
1)AIシステムは、敵対的生成ネットワークを使用して拡張ビデオを生成するために、ビデオとともに様々なIoTセンサ・データを入力として取得する。
2)AIシステムは、様々な時間符号化器を使用して、様々な時空間データを潜在空間に符号化する。
3)提案されたAIシステムは、環境条件、ユーザの医療プロファイル、照明条件、光の周波数、物体の回転速度、時空間オブジェクトの可視性スコアなどの様々な因子を決定する。
4)提案されたAIシステムは、複数のデータ・ソースを制御可能なパラメータとともに組み合わせることによってノイズの量を低減するように学習する。
5)提案されたAIは、様々な損失関数を使用して弁別器および生成器を学習することによって、拡張ビデオを生成するための、効果の有効化/無効化、効果の解像度の強化、効果の打ち消し、効果のマージ/分割など、可能性のある制御可能なパラメータを取得する。損失関数は、視覚的錯覚損失、効果打ち消し損失、効果マージ/分割損失などを含む。
6)提案されたシステムの出力は、GANで生成されたビデオを追加層として重ね合わせるために拡張現実システムと統合され得る。
7)提案されたシステムは、モデル・パラメータを動的に更新し、強化学習を使用して、ユーザによって提供される報酬スコアに基づいてパラメータを微調整する。可能性のある報酬スコアは、効果レベルで、または時空間ビデオ・フレームのラベル付けで、またはストロボ効果の副次的な効果のマーク付けで提供される。
【手続補正書】
【提出日】2024-05-15
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
コンピュータの情報処理により、機械学習を活用することによって画像からストロボ効果をリアルタイムで修正する方法であって、
ユーザによる1つまたは複数のビデオ・クリップを識別することと、
視覚的データを決定することと、
ストロボ効果設定を決定することと、
前記1つまたは複数のビデオ・クリップに対してストロボ効果設定を実行することと、
更新されたストロボ効果設定に基づいて前記ビデオ・クリップを出力することと、
ユーザからのフィードバックを受け取ることと
を含む方法。
【請求項2】
視覚的データを決定することは、
前記視覚的データを収集することであって、視覚的データが環境データおよびユーザ・データを含む、前記視覚的データを収集することと、
視覚的データを潜在空間に符号化することと
をさらに含む、請求項1に記載の方法。
【請求項3】
ストロボ効果設定を決定することは、環境条件、ユーザの医療プロファイル、照明条件、光の周波数、物体の回転速度、時空間オブジェクトの可視性スコアを含む因子に基づく、請求項1または2に記載の実施方法。
【請求項4】
ストロボ効果設定が、ストロボ効果の有効化/無効化、立体視効果の強化、および立体視効果の打ち消しをさらに含む、請求項1
または2に記載の方法。
【請求項5】
前記1つまたは複数のビデオ・クリップに対してストロボ効果設定を実行することは、
様々な損失関数を使用して弁別器および生成器を学習することによって拡張ビデオを生成すること
をさらに含む、請求項1
または2に記載の方法。
【請求項6】
更新されたストロボ効果設定に基づいて前記ビデオ・クリップを出力することは、
GANで生成されたビデオを追加層として拡張現実(AR)システムと重ね合わせること
をさらに含む、請求項1
または2に記載の方法。
【請求項7】
ユーザからのフィードバックを受け取ることが、
モデル・パラメータを更新することと、
強化学習を使用して、前記ユーザによって提供される報酬スコアに基づいて前記モデル・パラメータを微調整することと
をさらに含む、請求項1
または2に記載の方法。
【請求項8】
画像からストロボ効果をリアルタイムで修正するためのコンピュータ・プログラム製品であって、前記コンピュータ・プログラムは、
前記1つまたは複数のコンピュータ可読記憶媒体に記憶されたプログラム命令を含み、前記プログラム命令は、
ユーザによる1つまたは複数のビデオ・クリップを識別するためのプログラム命令と、
視覚的データを決定するためのプログラム命令と、
ストロボ効果設定を決定するためのプログラム命令と、
前記1つまたは複数のビデオ・クリップに対してストロボ効果設定を実行するためのプログラム命令と、
更新されたストロボ効果設定に基づいて前記ビデオ・クリップを出力するためのプログラム命令と、
ユーザからのフィードバックを受け取るためのプログラム命令と
を含む、コンピュータ・プログラム製品。
【請求項9】
請求項8に記載のコンピュータ・プログラムを記録した、コンピュータ可読記憶媒体。
【請求項10】
画像からストロボ効果をリアルタイムで修正するためのコンピュータ・システムであって、前記コンピュータ・システムは、
1つまたは複数のコンピュータ・プロセッサと、
1つまたは複数のコンピュータ可読記憶媒体と、
前記1つまたは複数のコンピュータ・プロセッサのうちの少なくとも1つによる実行のために前記1つまたは複数のコンピュータ可読記憶媒体上に記憶されたプログラム命令と
を含み、前記プログラム命令は、
ユーザによる1つまたは複数のビデオ・クリップを識別するためのプログラム命令と、
視覚的データを決定するためのプログラム命令と、
ストロボ効果設定を決定するためのプログラム命令と、
前記1つまたは複数のビデオ・クリップに対してストロボ効果設定を実行するためのプログラム命令と、
更新されたストロボ効果設定に基づいて前記ビデオ・クリップを出力するためのプログラム命令と、
ユーザからのフィードバックを受け取るためのプログラム命令と
を含む、コンピュータ・システム。
【国際調査報告】