IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ソニー・コンピュータエンタテインメントの特許一覧

特許7047087ビデオコンテンツを特徴付けるための深層強化学習フレームワーク
<>
  • 特許-ビデオコンテンツを特徴付けるための深層強化学習フレームワーク 図1
  • 特許-ビデオコンテンツを特徴付けるための深層強化学習フレームワーク 図2
  • 特許-ビデオコンテンツを特徴付けるための深層強化学習フレームワーク 図3
  • 特許-ビデオコンテンツを特徴付けるための深層強化学習フレームワーク 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-03-25
(45)【発行日】2022-04-04
(54)【発明の名称】ビデオコンテンツを特徴付けるための深層強化学習フレームワーク
(51)【国際特許分類】
   G06T 7/00 20170101AFI20220328BHJP
【FI】
G06T7/00 130
G06T7/00 350B
【請求項の数】 24
(21)【出願番号】P 2020523759
(86)(22)【出願日】2018-10-25
(65)【公表番号】
(43)【公表日】2021-01-14
(86)【国際出願番号】 US2018057573
(87)【国際公開番号】W WO2019084308
(87)【国際公開日】2019-05-02
【審査請求日】2020-06-08
(31)【優先権主張番号】62/577,970
(32)【優先日】2017-10-27
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】310021766
【氏名又は名称】株式会社ソニー・インタラクティブエンタテインメント
(74)【代理人】
【識別番号】100105924
【弁理士】
【氏名又は名称】森下 賢樹
(72)【発明者】
【氏名】チェン、ルーシン
(72)【発明者】
【氏名】クマー、ナヴィーン
(72)【発明者】
【氏名】リー、ハオチー
【審査官】小池 正彦
(56)【参考文献】
【文献】特開2001-119649(JP,A)
【文献】米国特許出願公開第2015/0095033(US,A1)
【文献】Goren Gordon et al,Affective Personalization of a Social Robot Tutor for Children’s Second Language Skills,Proceedings of the 30th AAAI Conference on Artificial Intelligence,2016年02月12日,https://jakory.com/static/papers/Gordon_AAAI2016_SAR.pdf
【文献】Michael Xuelin Huang et al,Identifying User-Specific Facial Affects from Spontaneous Expressions with Minimal Annotation,IEEE Transactions on Affective Computing,米国,IEEE,2015年10月27日,Volume: 7, Issue: 4,360 - 373,https://ieeexplore.ieee.org/document/7308029
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
ビデオシーンのシーケンスレベルの推定を実行するための方法であって、
前記ビデオシーンにおけるビデオ情報を特徴が描かれた各フレームのシーケンスとして表すことと、
各フレームに対応する各時間ステップtに関する環境の状態を時間ステップtに関する前記ビデオ情報と、前の時間ステップt-1からの推定される情緒的情報とによって表すことと、
ステップtにおける前記フレームに関して、機械学習アルゴリズムによって制御されるエージェントによって行動A(t)を取り、前記行動A(t)の出力は、前記時間ステップtにおける前記フレームに関する情緒的ラベルの推定を表すことと、
推定される行動のプールを次の時間ステップt+1における推定される情緒的履歴に変換することと、
前記推定の情緒的履歴を前記次の時間ステップt+1に関する前記環境の状態の一部として含むことと、
現在の時間ステップtまでの推定される行動を対応する注釈付きのビデオシーンの情緒的ラベルと比較することによって、現在の時間ステップtまでの推定される行動に対して報酬Rを生成することとを含む、方法。
【請求項2】
前記時間ステップtにおける前記情緒的ラベルの推定は、前記ビデオシーンが面白いか、面白くないかを表している、請求項1に記載の方法。
【請求項3】
前記報酬Rの値は、前記時間ステップtにおける前記現在のフレームまでのフレームレベルの情緒的ラベルの推定結果の過半数の票に基づいている、請求項1に記載の方法。
【請求項4】
前記報酬Rの値は、前記フレームレベルの結果の最小パーセンテージの票に基づいている、請求項1に記載の方法。
【請求項5】
前記報酬Rの値は、人のラベルが利用できるフレームまでゼロである、請求項1に記載の方法。
【請求項6】
特徴の前記シーケンスは、前記ビデオシーンに現れる顔のシーケンスである、請求項1に記載の方法。
【請求項7】
顔の前記シーケンスは、前記ビデオシーンにおける個々のキャラクタの顔のシーケンスである、請求項6に記載の方法。
【請求項8】
顔の前記シーケンスは、前記ビデオシーンにおける個々のキャラクタの顔のシーケンスであり、複数の顔が前記ビデオシーンに示される場合、顔の前記シーケンスは、前記シーンの中央に位置する顔のシーケンスである、請求項6に記載の方法。
【請求項9】
プロセッサと、
前記プロセッサに結合されたメモリと、
前記メモリに埋め込まれたプロセッサ実行可能命令であって、実行される際、以下の、ビデオシーンにおけるビデオ情報を特徴が描かれた各フレームのシーケンスとして表し、
各フレームに対応する各時間ステップtに関する環境の状態を時間ステップtに関する前記ビデオ情報と、前の時間ステップt-1からの推定される情緒的情報とによって表し、
ステップtにおける前記フレームに関して、機械学習アルゴリズムによって制御されるエージェントによって行動A(t)を取り、前記行動A(t)の出力は、前記時間ステップtにおける前記フレームに関する情緒的ラベルの推定を表し、
推定される行動のプールを次の時間ステップt+1における推定される情緒的履歴に変換し、
前記推定の情緒的履歴を前記次の時間ステップt+1に関する前記環境の状態の一部として含み、
現在の時間ステップtまでの推定される行動を対応する注釈付きのビデオシーンの情緒的ラベルと比較することによって、現在の時間ステップtまでの推定される行動に対して報酬Rを生成することを前記プロセッサに実行させるように構成されている、前記プロセッサ実行可能命令とを備える、ビデオシーンのシーケンスレベルの推定を実行するためのシステム。
【請求項10】
前記時間ステップtにおける前記情緒的ラベルの推定は、前記ビデオシーンが面白いか、面白くないかを表している、請求項9に記載のシステム。
【請求項11】
前記報酬Rの値は、前記時間ステップtにおける前記現在のフレームまでのフレームレベルの情緒的ラベルの推定結果の過半数の票に基づいている、請求項9に記載のシステム。
【請求項12】
前記報酬Rの値は、前記フレームレベルの結果の最小パーセンテージの票に基づいている、請求項9に記載のシステム。
【請求項13】
前記報酬Rの値は、人のラベルが利用できるフレームまでゼロである、請求項9に記載のシステム。
【請求項14】
特徴の前記シーケンスは、前記ビデオシーンに現れる顔のシーケンスである、請求項9に記載のシステム。
【請求項15】
顔の前記シーケンスは、前記ビデオシーンにおける個々のキャラクタの顔のシーケンスである、請求項14に記載のシステム。
【請求項16】
顔の前記シーケンスは、前記ビデオシーンにおける個々のキャラクタの顔のシーケンスであり、複数の顔が前記ビデオシーンに示される場合、顔の前記シーケンスは、前記シーンの中央に位置する顔のシーケンスである、請求項14に記載のシステム。
【請求項17】
内部に埋め込まれた実行可能命令を有し、前記命令は、実行される際、以下の、
ビデオシーンにおけるビデオ情報を特徴が描かれた各フレームのシーケンスとして表し、
各フレームに対応する各時間ステップtに関する環境の状態を時間ステップtに関する前記ビデオ情報と、前の時間ステップt-1からの推定される情緒的情報とによって表し、
ステップtにおける前記フレームに関して、機械学習アルゴリズムによって制御されるエージェントによって行動A(t)を取り、前記行動A(t)の出力は、前記時間ステップtにおける前記フレームに関する情緒的ラベルの推定を表し、
推定される行動のプールを次の時間ステップt+1における推定される情緒的履歴に変換し、
前記推定の情緒的履歴を前記次の時間ステップt+1に関する前記環境の状態の一部として含み、
現在の時間ステップtまでの推定される行動を対応する注釈付きのビデオシーンの情緒的ラベルと比較することによって、現在の時間ステップtまでの推定される行動に対して報酬Rを生成することをコンピュータに実行させるように構成されている非一時的コンピュータ可読媒体。
【請求項18】
前記時間ステップtにおける前記情緒的ラベルの推定は、前記ビデオシーンが面白いか、面白くないかを表している、請求項17に記載の非一時的コンピュータ可読媒体。
【請求項19】
前記報酬Rの値は、前記時間ステップtにおける前記現在のフレームまでのフレームレベルの情緒的ラベルの推定結果の過半数の票に基づいている、請求項17に記載の非一時的コンピュータ可読媒体。
【請求項20】
前記報酬Rの値は、前記フレームレベルの結果の最小パーセンテージの票に基づいている、請求項17に記載の非一時的コンピュータ可読媒体。
【請求項21】
前記報酬Rの値は、人のラベルが利用できるフレームまでゼロである、請求項17に記載の非一時的コンピュータ可読媒体。
【請求項22】
特徴の前記シーケンスは、前記ビデオシーンに現れる顔のシーケンスである、請求項17に記載の非一時的コンピュータ可読媒体。
【請求項23】
顔の前記シーケンスは、前記ビデオシーンにおける個々のキャラクタの顔のシーケンスである、請求項22に記載の非一時的コンピュータ可読媒体。
【請求項24】
顔の前記シーケンスは、前記ビデオシーンにおける個々のキャラクタの顔のシーケンスであり、複数の顔が前記ビデオシーンに示される場合、顔の前記シーケンスは、前記シーンの中央に位置する顔のシーケンスである、請求項22に記載の非一時的コンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
[優先権の主張]
本出願は、2017年10月27日に出願された米国仮特許出願第62/577,970号の優先権の利益を主張しており、その全内容は参照により本明細書に組み込まれている。
【背景技術】
【0002】
普及したビデオ・オン・デマンド方式の携帯電話アプリケーション及びウェブサイト(例えばyoutube.com)によって、人々は多様なオンラインソースから従来にないほどの量のビデオにアクセスすることができる。このために、ビデオメタデータ(例えば映画のシーンの注釈)の抽出は、有効な検索及び推奨を促進する際に重要な役割を果たす。例えば映画の推奨システムは、映画のクリップシーンの情緒的な情報を識別し、ユーザのリクエストまたは興味に基づいてそれを対応するユーザに差し向ける必要がある。
【0003】
しかしながら、あるシーンが面白いか、そうでないかなどの映画のシーンの情緒的ラベルは、さらに長い時間尺度にわたって明らかになることが多いため、ほとんどの信頼できる映画の注釈はいまだに手作業で作成されている。人の注釈者が、映画のシーンの情緒的ラベルを識別しようと試みるとき、より長い前後関係を考慮に入れる必要がある。人の注釈工程のこのような複雑な非線形性質を1つの特有のアルゴリズムを用いてシミュレートすることは簡単な作業ではない。加えて、映画の情緒的ラベルの推定は、十分に準備された標準的な感情データベースを用いることによる感情の推定よりもずっと難易度が高く複雑なタスクである。さらにシーンレベルの情緒的ラベルは、複数の様式から生じることが多い。例えば、映画は、視覚チャネル、音響チャネル及び語彙チャネルからの情報を含んでいる。注釈者がある映画のシーンを面白いとラベル付けした場合、その評価は、男優または女優の顔の表情が理由である、彼らが用いる字訳が理由である、または単にバックグラウンドミュージックが理由である可能性がある。より一般的には、注釈者は典型的には、全てのこのような情報を一緒に集めてあるシーンが面白いか、そうでないかを評価する。利用可能な映画の音声リソースは大量に在るが、正確なシーンレベルの注釈を有するものは、注釈の著作権及びコストのために量が厳しく制限されることが多い。よって映画のシーンに対する情緒的分類は依然として、技術的アルゴリズムならびにデータ収集の両方の点において複雑で難易度の高いタスクである。
【0004】
多くの関連する研究活動は、映画の情緒的コンテンツの分析に焦点を合わせている。近年、一般レベルの表現を抽出し、情緒的ビデオの理解にそれを適用するのに畳み込みニューラルネットワーク(CNN)などの深層学習法が使用されている。この分野における関連する研究活動のほとんどは、教師あり機械学習手法を使用してきた。
【発明の概要】
【0005】
本開示の態様が生じるのは、この文脈の範囲内である。
【図面の簡単な説明】
【0006】
図1】本開示の態様による、映画の情緒的ラベルの推定において提案されるRLフレームワークを例示する概略図である。
図2】本開示の態様による、提案される映画のシーケンスの作成法を例示する概略図である。
図3】本開示の態様による、ビデオシーンのシーケンスレベルの推定を実行するための方法を例示するフロー図である。
図4】本開示の態様による、ビデオシーンのシーケンスレベルの推定を実行するためのシステムを例示するブロック図である。
【発明を実施するための形態】
【0007】
[導入]
高いレベルにおいて、本開示の背後にある概念は、トライアンドエラー機構を通して情緒的ラベルでビデオコンテンツに注釈を付けるためのシステムを改善するために人工知能(AI)アプローチを使用することである。強化学習(RL)は、経験依存型自律学習法のためのフレームワークである。RLの範囲において、すなわち規定された分野において深層学習を用いることで、「深層強化学習」(DRL)は、機械学習の分野において革命的な役割を果たしている。DRLの台頭は主に2つの側面から生じている。第1の側面は、ディープニューラルネットワーク(DNN)の強力な関数近似と、表現学習特性である。DNNによって、高次元のデータ(例えば画像、音声及びテキスト)から低次元の特徴表現を取得することができ、これにより、DRLが高次元の状態及び行動空間によって意思決定の問題を解決することが可能になる。第2の側面は、RLの「探索と搾取」の特性である。探索は、より多くの情報を集めることに関連しており、このことはシステムが、それらが以前に試したものよりも優れているかどうか知るために様々な可能性のある試みを探索することを意味している。搾取は、システムが、現在の情報が与えられたならば最適な決定をすることを保証しており、これは、システムが、過去に最も上手くいった方法を記憶することを意味している。これら2つの利点は、多くの他の従来の教師あり学習法に対するかなりの進歩である。
【0008】
本開示の態様は、例えば映画などのビデオコンテンツ、テレビジョンプログラムなどにおいてシーケンスレベルの推定を実行するために深層強化学習(DRL)を利用する新たな手法を対象としている。グラウンドトゥルースラベルの形態での指示は、1つのシーケンスの終わりに提供されるのみであるが、それ自体のラベルは全体のシーケンスに関係している。この問題は、DRLエージェントが、現在の時間ステップまでのデータのみに与えられる全体的なラベルを「推測」することを試みるゲームなどとして明確に示されてよい。このような「推測」は、エージェントのラベルに関する主観的見解を表しており、エージェントが行ういかなる別の決定にも影響を及ぼす。このような見解は追加として、DRLアルゴリズムをトレーニングする際に役立つ報酬関数を計算するのにも使用される。報酬関数を計算するための様々な方法が探求されており、DRLなどのあまり管理されてない手法は、全体的なレベルで注釈を付けることがより容易であり得る感情の推定などのタスクにおいて有益であり得ることを示している。本開示の一態様による1つの実施態様は、映画のシーンの情緒的ラベルの推定を実施するためのアルゴリズムを含んでいる。この例では、アルゴリズムは、特定の映画のシーンが面白いか、そうでないかを知るために、事前にトレーニングされた畳み込みネットワークを利用してシーンにおける俳優の顔から複雑な人の情緒的情報を捕らえる。従来のDRLフレームワークは、このようなタスクに直接適用することはできない。従来のDRLでは、各フレームにおいて生じた決定は、環境と相互に作用し、例えばピンポンゲームまたはアルファ碁においてその状態を変える必要がある。映画のシーンのデータシーケンスは既に確定されているため、各フレームの推定された情緒的ラベルの決定は、環境と相互作用することができない。アルゴリズムによって実施されるわずかに修正されたDRLフレームワークは、DRLエージェントが環境の状態と相互作用することを可能にする。これは以下に詳細に説明する。
【0009】
[方法論]
映画のシーンのクリップは、異なる様式に従うデータサンプルのシーケンスとみなすことができる。例えば、発話様式から、クリップは音声信号を含んでよく、視覚様式からは、各映画のシーンのクリップの範囲内の画像フレームのシーケンスが存在してよい。情緒的ラベルの推定タスクの場合、人の注釈者は、正確なラベルを取得するために動的な時間的な情緒的情報を処理する必要がある。RL利用の場合、エージェントの行動決定は、強力な時間的な相関関係も含んでおり、報酬と合わせた現在の行動決定はまた、これ以前のステップにも依存している。よって、映画のクリップに関する情緒的ラベルを推定するためにRLを利用することが試みられている。
【0010】
限定ではなく例として、一セットのビデオフレームからの画像シーケンスを入力として利用するビデオデータに焦点が限定される場合がある。修正されたDRLアルゴリズムは、各ムービーフレームにおける1つまたは複数の俳優の顔の分析に基づいて情緒的シーンのラベルを推定することを試みる。
【0011】
[提案される方法のためのフレームワーク]
本開示の態様によると、新規のDRLフレームワークには、環境の状態とエージェントの行動との間の相互作用が含まれる。提案されるRLフレームワークが、図1に概略的に例示されている。
【0012】
映画のシーンにおけるビデオ情報は、顔が描かれた各フレームのシーケンスとして表されてよい。各時間ステップtにおいて、環境の状態は2つの構成要素を有しており、時間ステップtにおけるビデオフレームと、前の時間ステップt-1からの推定される情緒的情報である。これらの情報を一緒に考慮することによって、機械学習アルゴリズムによって制御されるエージェントが行動A(t)を取る。行動の出力は、時間ステップtにおける情緒的ラベルの推定を表しており、例えば面白いか、面白くないかを表している。関数Gをその後使用して、{A(i):i≦t}である限り、推定される行動のプールを次の時間ステップt+1における推定される情緒的履歴に変換する。このような情報は、次の時間ステップのための環境の状態の一部として含まれ、時間t+1において次の行動を生み出すためにエージェントによって同様に使用される。各ステップにおいて、それらを、対応する人間が注釈を付けた映画のシーンの情緒的ラベルと比較することによって、現在の時間ステップtまでの推定される行動に基づく関数Hによって報酬が生成される。
【0013】
この提案されるRL構造では、関数Gを使用して、前の時間ステップからの推定をエージェントの行動から現在の環境の状態に加え、これにより、エージェントの行動と環境の状態との間に関係を確立する。提案されるRL構造によって、異なる関数G及び関数Hを様々な用途のために設計することができる。
【0014】
[ビデオデータ処理]
情緒的ラベルの分類データセットが、元のビデオデータ、例えば元の映画と、対応する注釈ファイルから作成されてよい。一例として、映画におけるシーンの面白いか、そうでないなどのラベル付けは、映画のビデオチャネルに描かれる特定の特徴、具体的にはキャラクタの顔に焦点を合わせる場合がある。このような顔の画像のシーケンスは、ビデオから事前に抽出され、我々のシステムへの入力として利用される。各フレームにおいて顔を検出するために、dlib及びopenCVなどの標準的な顔検出ライブラリを使用して、各連続するフレームにおいて元のビデオから顔の画像を抽出してよい。1つのフレームが複数の顔を含んでいる場合、フレームの中心に最も近いものが選択されてよい。このような選択の裏にある直感的知識は、複数の顔がスクリーン上で示されるとき、そのシーンの情緒的情報を独占するためにメインキャラクタの顔がスクリーンの中央に位置決めされる可能性がかなり高いというものである。加えて、このような基準によって選択された顔はまた、他の検出された顔と比べて所定の範囲において最も大きくなる場合が多い。
【0015】
1つのフレーム内に複数の顔がある場合、そのシーンの情緒的情報を独占するためにメインキャラクタがスクリーンの中央に位置決めされる確率が高いため、最も中央の位置にある顔が選択されてよく、このように選択された顔は、全ての他の検出された顔の中で最も大きいものであることが多い。
【0016】
別の処理タスクは、トレーニングシーケンスを生成することである。注釈付きの映画のデータの量は、利用できる映画の数が制限されており、人の注釈工程は費用がかかるために極めて少ない。フレーム間にほとんど時間の空白がないため、1つのフレームから次のフレームまでの顔の違いは極めて小さい。学習で使用されるより多くのシーケンスを取得するために、各映画のシーンの顔のシーケンスは以下のやり方で生成されてよい。各シーンに関して、フレームシーケンスは、例えばフレームの1つのシーケンスを得るために18のフレーム間隔でダウンサンプルされてよい。また、1つのシーンを介してより多くのトレーニングデータを取得するために、全ての以前のサンプリングインデックスは2つのフレーム毎にシフトされ、同一のビデオシーンから生成された全てのサンプルは、同一の情緒的ラベルを共有する。こうすることによって、全てのシーケンスにおける顔の動的な変化が考慮され、またそれと同時に、限定されたビデオデータに基づいてより多くのトレーニングサンプルが取得される。このプロセスは図2に示されている。
【0017】
[顔の表現の埋め込み]
映画からトリミングした顔の画像からの直接のトレーニングの代わりに、追加の顔の表現のデータセットを使用して、顔の表現の埋め込みを生成してもよい。限定ではなく例として、異なる顔の表現ラベルを分類するために、畳み込みニューラルネットワーク(CNN)でトレーニングされたニューラルネットワークが使用されてもよい。
【0018】
[情緒的ラベルの推定のRL]
一実施態様では、本開示の態様に従って、ディープQ-ネットワーク(DQN)がRLフレームワークと共に使用されてよい。DQNの入力には、2つの部分が含まれてよく、a)上記で考察した顔の埋め込みモデルの事前にトレーニングされたCNNの最後から2番目の層の出力であり得る顔の表現の埋め込みと、2)推定される情緒的情報の入力ベクトルであり、これには、上記で考察したように、時間ステップtにおけるビデオフレームデータと、前の時間ステップt-1からの推定される情緒的情報とが含まれる。情緒的情報の入力の2つの完全に接続された層が加えられ、顔の表現の埋め込みと連結されて3つの追加の全結合層とさらに接続される。DQNの最後の層において、ネットワークは、別個の二次元行動を出力してよい。そのような実施態様では、情緒的ラベルの推定は、情緒的ラベルに関する二進法の分類決定として機能し、例えば面白いか、面白くないかのワンホット二次元ベクトルとして機能する。
【0019】
情緒的情報を表現するのに、いくつかの異なるタイプの関数Gが使用されてもよい。例えば行動埋め込み出力は、DQNの最後から2番目の層の出力であり、全ての前の状態記憶を有する1つの高次元の特徴表現ベクトルとみなされてもよい。あるいは、前の時間ステップの行動決定ラベル、例えば面白いか、面白くないかを示す、DQN出力によって識別されたワンホット分類ラベルを直接使用する場合もある。
【0020】
RLでは、報酬値を使用してQ値を更新するため、報酬関数の設定が重要であり、DQNは、現在のフレームtに関するスコアと前のフレームt-1に関するスコアとの差である報酬を使用して行動決定を学習する。一部の実施態様の注釈付きのラベルが、ビデオシーンの各フレームに対して利用できない場合がある。代わりに、各トレーニングシーケンスサンプルに対して、全体的なトレーニングシーケンスに関する人が注釈を付けたラベルのみを利用できる場合がある。各顔のシーケンスにおいて、フレームレベルの情緒的ラベルは利用することができない。そのような実施態様では、報酬を生成する関数Hは、各フレームシーケンストレーニングサンプルの中で、報酬値が、人が注釈を付けた最後のフレームから現在のフレームtまでのフレームレベルの結果の過半数の票に基づくように設計されてよい。報酬値はまた、フレームレベルの結果の最小のパーセンテージの票に基づく場合もある。例えば20%またはそれ以上のフレームレベルの結果が「面白い」であり、かつ最終的な人のラベルも「面白い」であるならば、報酬は+1であってよい。このような設計に基づいて、報酬は、単に全部のシーケンスの終わりではなく、各フレームステップにおいて割り当てられてよい。代替の実施態様では、人の注釈が利用可能になるときまで、いかなる報酬もない場合もある。
【0021】
報酬値は、本開示の態様に従ってRLを使用するシーケンスレベルの推定の有効性に対して重要であり得る。報酬値が大きすぎたり、小さすぎたりする場合、RLシステムは収束せず、情緒的情報を学習できない。また中間ステップ及び最後のステップの報酬についての重み係数を考慮することも重要である。
【0022】
1つのトレーニングシーケンスに関して、エージェントによって生じる最後の行動は、全ての画像を考慮に入れている。それだけではなく、グラウンドトルースラベルも利用可能である。よって、報酬に関する大きな値Rendが割り当てられるべきである。しかしながら中間の時間ステップにおいて、各フレームのトーンラベルがシーケンスラベルと同一になるはずであることは保証されない。
【0023】
このような推定は、共通理解と一致している。例えばある人がある映画のシーンを面白いと思った場合、そのシーンの全てのフレームが面白い情報を含むことは保証されていない。情緒的ラベルは、全部のフレームシーケンスを通して蓄積されるため、中間の時間ステップにおける報酬は、Rinterとして表され、不確実性及び低い優先度を示すためにより小さい値に割り当てられるべきである。
【0024】
このような関数の可能な実験及び設計の構成のさらなる詳細は、「A DEEP REINFORCEMENT LEARNING FRAMEWORK FOR IDENTIFYING FUNNY SCENES IN MOVIES」Haoqi Li,Naveen Kumar,Ruxin Chenによる、2018IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP)、3116-3120ページに見出すことができ、これは参照により本明細書に組み込まれ、添付書類として本開示の一部として含まれている。
【0025】
[方法]
図3に示されるフロー図は、本開示の態様による、ビデオシーンのシーケンスレベルの推定を実行するための方法の一例を描いている。方法は、ビデオシーンにおけるビデオ情報を特徴が描かれた各フレームのシーケンスとして表すことによって302において始まる。限定ではなく例として、特徴のシーケンスは、ビデオシーンに現れる顔のシーケンスであってよい。顔のシーケンスは、ビデオシーンにおける個々のキャラクタの顔のシーケンスであってよい。複数の顔がビデオシーンに示される場合、顔のシーケンスは、そのシーンの中央に位置する顔のシーケンスであってよい。次に、304に示すように、各フレームに対応する各時間ステップtに関する環境の状態が、時間ステップtに関するビデオ情報と、前の時間ステップt-1からの推定される情緒的情報とによって表される。306に示すように、ステップtにおけるフレームに関して、機械学習アルゴリズムによって制御されるエージェントによって行動A(t)が取られる。行動A(t)の出力は、時間ステップtにおけるフレームに関する情緒的ラベルの推定を表している。限定ではなく例として、時間ステップtにおける情緒的ラベルの推定は、そのビデオシーンが面白いか、面白くないかを表してもよい。しかしながら代替の実施態様では、情緒的ラベルの推定は、そのビデオシーンが悲しいか、悲しくないかを表す場合もある。
【0026】
308に示すように、例えばシーンの最初のフレームから時間ステップtにおける現在のフレームまでの推定される行動のプールがその後、次の時間ステップt+1における推定される情緒的履歴に変換される。310に示すように、推定の情緒的履歴は、次の時間ステップt+1に関する環境の状態の一部として含まれる。312に示すように、それらを対応する注釈付きの映画のシーンの情緒的ラベルと比較することによって、現在の時間ステップtまでの推定される行動に対して報酬Rが生成される。一部の実施態様では、報酬Rの値は、時間ステップtにおける現在のフレームまでのフレームレベルの情緒的ラベルの推定結果の過半数の票に基づいてもよい。
【0027】
[システム]
図4は、図3に示されるものと同様の方法を実施するためのシステムを描いている。システムは、ユーザ入力デバイス402に結合されたコンピューティングデバイス400を含んでもよい。ユーザ入力デバイス402は、コントローラ、タッチスクリーン、マイクロフォン、キーボード、マウス、ジョイスティック、または音データを含めた情報をユーザがシステムに入力するのを可能にする他のデバイスであってもよい。ユーザ入力デバイスは、触覚フィードバックデバイス421に結合されてもよい。触覚フィードバックデバイス421は、例えば、振動モータ、力フィードバックシステム、超音波フィードバックシステムまたは空気圧フィードバックシステムであってもよい。
【0028】
コンピューティングデバイス400は、1つまたは複数の処理装置403を含んでもよく、これは、例えばシングルコア、デュアルコア、クワッドコア、マルチコア、プロセッサ-コプロセッサ、セルプロセッサなどのよく知られたアーキテクチャに従って構成されてよい。コンピューティングデバイスはまた、1つまたは複数の記憶装置404(例えばランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、リードオンリメモリ(ROM)など)を含んでもよい。
【0029】
処理装置403は、1つまたは複数のプログラムを実行してもよく、その一部は、メモリ404に記憶されてもよく、プロセッサ403は、例えばデータバス405を介してメモリにアクセスすることによって、メモリに動作可能に結合されてよい。メモリは、ビデオシーンに関するビデオフレームを格納するバッファ408を含んでもよい。プログラムは、上記で考察したようにビデオフレームから特徴409を抽出し、ラベル推定410に属するとみなすように構成された機械学習アルゴリズム421を含んでもよい。追加として、メモリ404は、ニューラルネットワークのトレーニングを実施するプログラムを含む場合もある。メモリ404はまた、トレーニングされたデータ、例えば既知のラベルを有するビデオシーンを有するデータベース422を含む場合もある。データベース422は、大容量記憶装置415の中のデータ418として格納される場合、またはネットワークインターフェース414を通してアクセスされるネットワーク420に結合されたサーバに格納される場合がある。
【0030】
入力されたビデオもまた、大容量記憶装置415の中のデータ418として格納されてもよい。処理装置403は、上述した方法300をプロセッサに実行させる、大容量記憶装置415またはメモリ404に格納された1つまたは複数のプログラム417を実行するようにさらに構成される。
【0031】
コンピューティングデバイス400はまた、入力/出力(I/O)407、回路、電力供給源(P/S)411、クロック(CLK)412及びキャッシュ413などのよく知られたサポート回路を含んでもよく、これらは、例えばバス405を介して、システムの他のコンポーネントと通信してもよい。コンピューティングデバイスは、ネットワークインターフェース414を含んでもよい。処理装置403及びネットワークインターフェース414は、例えばPANの場合のブルートゥース(登録商標)などの好適なネットワークプロトコルを介してローカルエリアネットワーク(LAN)またはパーソナルエリアネットワーク(PAN)を実現するように構成されてよい。コンピューティングデバイスは任意選択で、ディスクドライブ、CD-ROMドライブ、テープドライブ、フラッシュメモリなどの大容量ストレージデバイス415を含んでもよく、大容量ストレージデバイスは、プログラム及び/またはデータを格納してもよい。コンピューティングデバイスはまた、システムとユーザとの間の相互作用を促進するためにユーザインターフェース416を含む場合もある。ユーザインターフェースには、モニタ、テレビジョンスクリーン、スピーカー、ヘッドフォン、またはユーザに情報を伝達する他のデバイスが含まれてよい。
【0032】
コンピューティングデバイス400は、電子通信ネットワーク420を介した通信を促進するためにネットワークインターフェース414を含んでもよい。ネットワークインターフェース414は、ローカルエリアネットワーク、及びインターネットなどのワイドエリアネットワークを介して有線または無線通信を実現するように構成されてよい。デバイス400は、ネットワーク420を介して1つまたは複数のメッセージパケットによってファイルに関するデータ及び/またはリクエストを送受信してよい。ネットワーク420を介して送信されるメッセージパケットは、メモリ404内のバッファに一時的に格納されてよい。分類された音のデータベースは、ネットワーク420を通して利用することが可能であり、使用するためにメモリ404にある程度格納されてもよい。
【0033】
本開示の態様は、ラベル推定エージェントと環境の状態との間で所望される相互作用を達成するために従来のRL構造を修正することによって、顔の画像を用いてビデオ内のシーンにラベル付けするためにRL法を利用する問題に対処している。本明細書で考察するようなビデオシーンのシーケンスレベルの推定を利用することで、情緒的ラベルの出力をリアルタイムで生成することができる。説明したシーケンスレベルの推定は、様々な方法を試してそれらが以前に試したものよりも優れているかどうかを知ることによって、探索と搾取を通してそのポリシーを学習しようと試みる。説明したシーケンスレベルの推定はまた、それが、過去に最も上手く機能したものを試すことを可能にするメモリ機構も有する。このような特性は通常、普通の教師あり学習法によって達成することは不可能であり、教師あり学習法は通常、純粋に搾取するのみである。
【0034】
上記は、本発明の好ましい実施形態の完全な説明であるが、種々の代替形態、修正形態及び均等物を利用することが可能である。したがって本発明の範囲は、上記の説明を参照して決定されるべきではなく、代わりに、それぞれの均等物の全範囲と共に、添付の特許請求の範囲を参照して決定されるべきである。好ましかろうがそうでなかろうが本明細書に記載されるいかなる特徴も、好ましかろうがそうでなかろうが本明細書に記載される何らかの他の特徴と組み合わされる場合もある。不定冠詞「A」または「An」は、そうでないことが明らかに述べられている場合を除いて、その冠詞の後にくるアイテムの1つまたは複数の分量を指している。添付の特許請求の範囲は、フレーズ「means for」を用いてミーンズプラスファンクション限定が所与のクレームに明白に列挙されていなければ、そのような限定を含めるように解釈すべきではない。
図1
図2
図3
図4