特表2024-509854 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ インターナショナル・ビジネス・マシーンズ・コーポレーションの特許一覧

特表2024-509854効率的な映像認識方法、システム、プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5A
5B
5C
5D
5E
5F
5G
5H
5I
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-03-05

(54)【発明の名称】効率的な映像認識方法、システム、プログラム

(51)【国際特許分類】

G06N 20/00 20190101AFI20240227BHJP

G06T 7/00 20170101ALI20240227BHJP

G06V 20/70 20220101ALI20240227BHJP

G06V 10/80 20220101ALI20240227BHJP

【ＦＩ】

G06N20/00

G06T7/00 350B

G06V20/70

G06V10/80

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2023553611

(86)(22)【出願日】2022-03-10

(85)【翻訳文提出日】2023-09-04

(86)【国際出願番号】 CN2022080147

(87)【国際公開番号】W WO2022188838

(87)【国際公開日】2022-09-15

(31)【優先権主張番号】17/199,307

(32)【優先日】2021-03-11

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】390009531

【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション

【氏名又は名称原語表記】ＩＮＴＥＲＮＡＴＩＯＮＡＬＢＵＳＩＮＥＳＳＭＡＣＨＩＮＥＳＣＯＲＰＯＲＡＴＩＯＮ

【住所又は居所原語表記】ＮｅｗＯｒｃｈａｒｄＲｏａｄ，Ａｒｍｏｎｋ，ＮｅｗＹｏｒｋ１０５０４，ＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ

(74)【代理人】

【識別番号】100112690

【弁理士】

【氏名又は名称】太佐種一

(74)【代理人】

【識別番号】100120710

【弁理士】

【氏名又は名称】片岡忠彦

(72)【発明者】

【氏名】パンダ、ラメスワー

(72)【発明者】

【氏名】チェン、リチャード

(72)【発明者】

【氏名】ファン、カンフ

(72)【発明者】

【氏名】フェリス、ロジェリオシュミット

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096AA02

5L096AA06

5L096BA08

5L096BA16

5L096BA18

5L096DA02

5L096HA02

5L096HA13

5L096JA13

5L096JA16

5L096JA22

(57)【要約】

効率的な映像認識方法、システム、プログラムが提供される。まず映像セグメントのシーケンスを含む入力映像を複数のデータ・モダリティで受信し、シーケンスの映像セグメントについて映像セグメントを表現するデータに基づいてデータ・モダリティを選択する。ここで選択された各データ・モダリティは映像セグメントの映像認識に最適である。次に選択されたデータ・モダリティごとに映像セグメントを選択されたデータ・モダリティで表現するデータ入力を選択されたデータ・モダリティに対応する機械学習モデルに提供し、機械学習モデルを介して映像セグメントを代表する第１のタイプの予測を生成する。そして生成されたすべての第１のタイプの予測を集約することによって入力映像全体を代表する第２のタイプの予測を決定する。

【特許請求の範囲】

【請求項1】

映像認識のための方法であって、
映像セグメントのシーケンスを含む入力映像を複数のデータ・モダリティで受信することと、
前記シーケンスの映像セグメントについて、前記映像セグメントを表現するデータに基づいて、前記複数のデータ・モダリティから１つまたは複数のデータ・モダリティを選択することであって、選択された各データ・モダリティが、前記映像セグメントの映像認識に最適である、前記選択することと、
選択されたデータ・モダリティごとに、前記映像セグメントを前記選択されたデータ・モダリティで表現する少なくとも１つのデータ入力を、前記選択されたデータ・モダリティに対応する機械学習モデルに提供し、前記機械学習モデルを介して前記映像セグメントを代表する第１のタイプの予測を生成することと、
生成されたすべての第１のタイプの予測を集約することによって、前記入力映像全体を代表する第２のタイプの予測を決定することであって、前記第２のタイプの予測が、前記入力映像中でキャプチャされたオブジェクトまたはアクティビティを示す、前記決定することと
を含む、方法。

【請求項2】

前記複数のデータ・モダリティが、ＲＧＢモダリティ、オプティカル・フロー・モダリティ、および音声モダリティのうちの少なくとも１つを含む、請求項１に記載の方法。

【請求項3】

前記映像セグメントを表現する前記データが、１つまたは複数のＲＧＢフレーム、１つまたは複数のＲＧＢ差フレーム、および１つまたは複数の音声フレームのうちの少なくとも１つを含む、請求項１に記載の方法。

【請求項4】

前記複数のデータ・モダリティの各データ・モダリティが、前記複数のデータ・モダリティの１つまたは複数の他のデータ・モダリティに対応する１つまたは複数の他の機械学習モデルと併せて訓練される、対応する機械学習モデルを有する、請求項１に記載の方法。

【請求項5】

前記複数のデータ・モダリティの各データ・モダリティに対応する各機械学習モデルが、サブネットワークを含む、請求項４に記載の方法。

【請求項6】

前記選択された１つまたは複数のデータ・モダリティが、映像認識精度と計算効率との間で最適なトレードオフを実現する、請求項１に記載の方法。

【請求項7】

結合特徴抽出器を介して、前記映像セグメントを前記複数のデータ・モダリティで表現する前記データ入力から結合特徴を抽出することと、
前記抽出された結合特徴に部分的に基づいて、長短期記憶（ＬＳＴＭ）を介して、前記映像セグメントについての隠れ状態を計算することと、
前記複数のデータ・モダリティのデータ・モダリティごとに、
前記映像セグメントについての前記隠れ状態に基づいて、対応するポリシ分布を推定することと、
前記対応するポリシ分布にＧｕｍｂｅｌ－Ｓｏｆｔｍａｘ操作を適用して、前記映像セグメントの前記映像認識のために前記データ・モダリティを選択するかどうかを示す対応する二分決定をサンプリングすることと
をさらに含む、請求項１に記載の方法。

【請求項8】

選択されなかった前記複数のデータ・モダリティの各データ・モダリティが、前記映像セグメントの前記映像認識には冗長である、請求項１に記載の方法。

【請求項9】

映像認識のためのシステムであって、
少なくとも１つのプロセッサと、
命令を記憶する非一過性のプロセッサ可読メモリ・デバイスであって、前記命令が前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサに
映像セグメントのシーケンスを含む入力映像を複数のデータ・モダリティで受信することと、
前記シーケンスの映像セグメントについて、前記映像セグメントを表現するデータに基づいて、前記複数のデータ・モダリティから１つまたは複数のデータ・モダリティを選択することであって、選択された各データ・モダリティが、前記映像セグメントの映像認識に最適である、前記選択することと、
選択されたデータ・モダリティごとに、前記映像セグメントを前記選択されたデータ・モダリティで表現する少なくとも１つのデータ入力を、前記選択されたデータ・モダリティに対応する機械学習モデルに提供し、前記機械学習モデルを介して前記映像セグメントを代表する第１のタイプの予測を生成することと、
生成されたすべての第１のタイプの予測を集約することによって、前記入力映像全体を代表する第２のタイプの予測を決定することであって、前記第２のタイプの予測が、前記入力映像中でキャプチャされたオブジェクトまたはアクティビティを示す、前記決定することと
を含む動作を実行させる、前記非一過性のプロセッサ可読メモリ・デバイスと
を備える、システム。

【請求項10】

前記複数のデータ・モダリティが、ＲＧＢモダリティ、オプティカル・フロー・モダリティ、および音声モダリティのうちの少なくとも１つを含む、請求項９に記載のシステム。

【請求項11】

前記映像セグメントを表現する前記データが、１つまたは複数のＲＧＢフレーム、１つまたは複数のＲＧＢ差フレーム、および１つまたは複数の音声フレームのうちの少なくとも１つを含む、請求項９に記載のシステム。

【請求項12】

前記複数のデータ・モダリティの各データ・モダリティが、前記複数のデータ・モダリティの１つまたは複数の他のデータ・モダリティに対応する１つまたは複数の他の機械学習モデルと併せて訓練される、対応する機械学習モデルを有する、請求項９に記載のシステム。

【請求項13】

前記複数のデータ・モダリティの各データ・モダリティに対応する各機械学習モデルが、サブネットワークを含む、請求項１２に記載のシステム。

【請求項14】

前記選択された１つまたは複数のデータ・モダリティが、映像認識精度と計算効率との間で最適なトレードオフを実現する、請求項９に記載のシステム。

【請求項15】

前記命令が、
結合特徴抽出器を介して、前記映像セグメントを前記複数のデータ・モダリティで表現する前記データ入力から結合特徴を抽出することと、
前記抽出された結合特徴に部分的に基づいて、長短期記憶（ＬＳＴＭ）を介して、前記映像セグメントについての隠れ状態を計算することと、
前記複数のデータ・モダリティのデータ・モダリティごとに、
前記映像セグメントについての前記隠れ状態に基づいて、対応するポリシ分布を推定することと、
前記対応するポリシ分布にＧｕｍｂｅｌ－Ｓｏｆｔｍａｘ操作を適用して、前記映像セグメントの前記映像認識のために前記データ・モダリティを選択するかどうかを示す対応する二分決定をサンプリングすることと
をさらに含む、請求項９に記載のシステム。

【請求項16】

選択されなかった前記複数のデータ・モダリティの各データ・モダリティが、前記映像セグメントの前記映像認識には冗長である、請求項９に記載のシステム。

【請求項17】

映像認識のためのコンピュータ・プログラム製品であって、前記コンピュータ・プログラム製品は、プログラム命令が具体化されたコンピュータ可読記憶媒体を含み、プロセッサによって実行可能な前記プログラム命令は、前記プロセッサに
映像セグメントのシーケンスを含む入力映像を複数のデータ・モダリティで受信することと、
前記シーケンスの映像セグメントについて、前記映像セグメントを表現するデータに基づいて、前記複数のデータ・モダリティから１つまたは複数のデータ・モダリティを選択することであって、選択された各データ・モダリティが、前記映像セグメントの映像認識に最適である、前記選択することと、
選択されたデータ・モダリティごとに、前記映像セグメントを前記選択されたデータ・モダリティで表現する少なくとも１つのデータ入力を、前記選択されたデータ・モダリティに対応する機械学習モデルに提供し、前記機械学習モデルを介して前記映像セグメントを代表する第１のタイプの予測を生成することと、
生成されたすべての第１のタイプの予測を集約することによって、前記入力映像全体を代表する第２のタイプの予測を決定することであって、前記第２のタイプの予測が、前記入力映像中でキャプチャされたオブジェクトまたはアクティビティを示す、前記決定することと
を行わせる、コンピュータ・プログラム製品。

【請求項18】

前記複数のデータ・モダリティが、ＲＧＢモダリティ、オプティカル・フロー・モダリティ、および音声モダリティのうちの少なくとも１つを含む、請求項１７に記載のコンピュータ・プログラム製品。

【請求項19】

前記映像セグメントを表現する前記データが、１つまたは複数のＲＧＢフレーム、１つまたは複数のＲＧＢ差フレーム、および１つまたは複数の音声フレームのうちの少なくとも１つを含む、請求項１７に記載のコンピュータ・プログラム製品。

【請求項20】

前記複数のデータ・モダリティの各データ・モダリティが、前記複数のデータ・モダリティの１つまたは複数の他のデータ・モダリティに対応する１つまたは複数の他の機械学習モデルと併せて訓練される、対応する機械学習モデルを有する、請求項１７に記載のコンピュータ・プログラム製品。

【発明の詳細な説明】

【技術分野】

【0001】

本発明の実施形態の分野は、一般的に映像認識に関する。

【背景技術】

【0002】

映像認識は、機械学習（ＭＬ）ベースのコンピュータ・ビジョン・タスクであり、映像などの視覚的ソースから入ってくるデータを、取得すること、処理すること、および分析することを伴う。映像認識では、マルチモーダルな学習が広く使用される。マルチモーダルな学習は、モデルのパフォーマンスを改善するために多様なデータ・モダリティを利用する。マルチモーダルな学習を介して訓練されたモデルは、様々なデータ・モダリティの結合表現を表す。最も従来型の深層マルチモーダル・モデルは、複数のデータ・モダリティからの情報をどうやって融合するかにフォーカスを当てている。しかしながら、マルチモーダルな学習を利用した従来の映像認識ソリューションは、通常、データの冗長な／無関係な部分を含め、視覚的ソースから入ってくるすべてのデータを処理するため、計算コストが高い。例えば、従来のソリューションは、映像内で行われるアクティビティ（すなわち、アクション）を認識するために、ＲＧＢストリームおよび音声ストリームなど、映像を異なるデータ・モダリティで表現する複数のデータ・ストリームの全体を分析する場合がある。しかしながら、映像内で行われるアクティビティを認識するために、映像のすべての映像セグメントについて複数のデータ・ストリームを分析する必要はない場合がある。入力に基づいて映像の各映像セグメントの映像認識に最適なオンザフライのデータ・モダリティを選択することによって（すなわち、映像セグメントごとの、異なるデータ・モダリティのデータ依存選択）、映像認識の効率を向上させ（すなわち、計算効率を上げる）、計算において顕著な節約を実現し（すなわち、計算コストを下げる）、映像認識の精度を高める（すなわち、予測／分類の精度／品質を改善する）、適応的でマルチモーダルな学習フレームワークを提供する必要がある。

【発明の概要】

【0003】

本発明の実施形態は、一般的に映像認識に関し、より詳細には、効率的な映像認識のためのデータ・モダリティの適応的選択のための方法およびシステムに関する。

【0004】

本発明の一実施形態は、映像認識のための方法を提供する。方法は、映像セグメントのシーケンスを含む入力映像を複数のデータ・モダリティで受信することを含む。方法は、シーケンスの映像セグメントについて、映像セグメントを表現するデータに基づいて、複数のデータ・モダリティから１つまたは複数のデータ・モダリティを選択することをさらに含む。選択された各データ・モダリティは、映像セグメントの映像認識に最適である。方法は、選択されたデータ・モダリティごとに、映像セグメントを選択されたデータ・モダリティで表現する少なくとも１つのデータ入力を、選択されたデータ・モダリティに対応する機械学習モデルに提供し、機械学習モデルを介して映像セグメントを代表する第１のタイプの予測を生成することをさらに含む。方法は、生成されたすべての第１のタイプの予測を集約することによって、入力映像全体を代表する第２のタイプの予測を決定することをさらに含む。第２のタイプの予測は、入力映像中でキャプチャされたオブジェクトまたはアクティビティを示す。他の実施形態は、映像認識のためのシステム、および映像認識のためのコンピュータ・プログラム製品を含む。これらの特徴は、映像認識精度と計算効率との間で最適なトレードオフを実現するという利点に寄与する。

【0005】

以下の特徴のうちの１つまたは複数が含まれてもよい。

【0006】

一部の実施形態では、複数のデータ・モダリティの各データ・モダリティは、複数のデータ・モダリティの１つまたは複数の他のデータ・モダリティに対応する１つまたは複数の他の機械学習モデルと併せて訓練される、対応する機械学習モデルを有する。一部の実施形態では、複数のデータ・モダリティの各データ・モダリティに対応する各機械学習モデルは、サブネットワークを含む。これらの任意選択的な特徴は、映像を認識することにおいて、より計算効率の良いデータ・モダリティの選択を優先する決定ポリシを学習するという利点に寄与する。

【0007】

本発明の実施形態の、これらのおよび他の、態様、特徴、および利点は、本明細書の図面および詳細な説明を参照して理解することができ、また添付の特許請求の範囲で特に指摘される様々な要素および組合せにより実現されよう。前述の一般的な説明と、後述の図面の簡単な説明および本発明の実施形態の詳細な説明との両方は、本発明の好ましい実施形態の例示的で説明的なものであり、特許請求されるように本発明の実施形態を限定するものではないことを理解されたい。

【0008】

本発明の実施形態と考えられる主題は、明細書の結論部分における特許請求の範囲において特に指摘され、明確に特許請求される。本発明の実施形態の、前述、ならびに他の目的、特徴および利点は、添付の図面と併せて以下の詳細な説明から明らかである。

【図面の簡単な説明】

【0009】

【図1】本発明の実施形態による、効率的な映像認識のためのデータ・モダリティの適応的選択を実装するための、例示のコンピューティング・アーキテクチャである。

【図2】本発明の実施形態による、例示の適応的でマルチモーダルな学習システムの図である。

【図3】本発明の実施形態による、システムに含まれる決定ポリシ・ネットワークおよび映像認識ネットワークの例示のコンポーネントの図である。

【図4】本発明の実施形態による、システムを伴う例示の適用シナリオの図である。

【図5A】本発明の実施形態による、異なるモダリティでの映像セグメントの第１のシーケンスの図である。

【図5B】本発明の実施形態による、異なるモダリティでの映像セグメントの第２のシーケンスの図である。

【図5C】本発明の実施形態による、異なるモダリティでの映像セグメントの第３のシーケンスの図である。

【図5D】本発明の実施形態による、異なるモダリティでの映像セグメントの第４のシーケンスの図である。

【図5E】本発明の実施形態による、異なるモダリティでの映像セグメントの第５のシーケンスの図である。

【図5F】本発明の実施形態による、異なるモダリティでの映像セグメントの第６のシーケンスの図である。

【図5G】本発明の実施形態による、異なるモダリティでの映像セグメントの第７のシーケンスの図である。

【図5H】本発明の実施形態による、異なるモダリティでの映像セグメントの第８のシーケンスの図である。

【図5I】本発明の実施形態による、異なるモダリティでの映像セグメントの第９のシーケンスの図である。

【図6】本発明の実施形態による、効率的な映像認識のためのデータ・モダリティの適応的選択のための、例示のプロセスのフローチャートである。

【図7】本発明の実施形態による、クラウド・コンピューティング環境の図である。

【図8】本発明の実施形態による、抽象的なモデル・レイヤの図である。

【図9】本発明の実施形態を実装するのに有用な情報処理システムを示す、高次ブロック図である。

【発明を実施するための形態】

【0010】

詳細な説明では、例として図面を参照して、本発明の好ましい実施形態を利点および特徴と併せて説明する。

【0011】

本発明の実施形態は、一般的に映像認識に関し、より詳細には、効率的な映像認識のためのデータ・モダリティの適応的選択のための方法およびシステムに関する。本発明の一実施形態は、映像認識のための方法を提供する。方法は、映像セグメントのシーケンスを含む入力映像を複数のデータ・モダリティで受信することを含む。方法は、シーケンスの映像セグメントについて、映像セグメントを表現するデータに基づいて、複数のデータ・モダリティから１つまたは複数のデータ・モダリティを選択することをさらに含む。選択された各データ・モダリティは、映像セグメントの映像認識に最適である。方法は、選択されたデータ・モダリティごとに、映像セグメントを選択されたデータ・モダリティで表現する少なくとも１つのデータ入力を、選択されたデータ・モダリティに対応する機械学習モデルに提供し、機械学習モデルを介して映像セグメントを代表する第１のタイプの予測を生成することをさらに含む。方法は、生成されたすべての第１のタイプの予測を集約することによって、入力映像全体を代表する第２のタイプの予測を決定することをさらに含む。第２のタイプの予測は、入力映像中でキャプチャされたオブジェクトまたはアクティビティを示す。

【0012】

本発明の別の実施形態は、映像認識のためのシステムを提供する。システムは、少なくとも１つのプロセッサと、少なくとも１つのプロセッサによって実行されると、少なくとも１つのプロセッサに動作を実行させる命令を記憶する非一過性のプロセッサ可読メモリ・デバイスとを備える。動作は、映像セグメントのシーケンスを含む入力映像を複数のデータ・モダリティで受信することを含む。動作は、シーケンスの映像セグメントについて、映像セグメントを表現するデータに基づいて、複数のデータ・モダリティから１つまたは複数のデータ・モダリティを選択することをさらに含む。選択された各データ・モダリティは、映像セグメントの映像認識に最適である。命令は、選択されたデータ・モダリティごとに、映像セグメントを選択されたデータ・モダリティで表現する少なくとも１つのデータ入力を、選択されたデータ・モダリティに対応する機械学習モデルに提供し、機械学習モデルを介して映像セグメントを代表する第１のタイプの予測を生成することをさらに含む。命令は、生成されたすべての第１のタイプの予測を集約することによって、入力映像全体を代表する第２のタイプの予測を決定することをさらに含む。第２のタイプの予測は、入力映像中でキャプチャされたオブジェクトまたはアクティビティを示す。

【0013】

本発明の一実施形態は、映像認識のためのコンピュータ・プログラム製品を提供する。コンピュータ・プログラム製品は、プログラム命令が具体化されるコンピュータ可読記憶媒体を備える。プログラム命令は、プロセッサに、映像セグメントのシーケンスを含む入力映像を複数のデータ・モダリティで受信することを行わせるように、プロセッサによって実行可能である。プログラム命令は、プロセッサに、シーケンスの映像セグメントについて、映像セグメントを表現するデータに基づいて、複数のデータ・モダリティから１つまたは複数のデータ・モダリティを選択することをさらに行わせるように、プロセッサによって実行可能である。選択された各データ・モダリティは、映像セグメントの映像認識に最適である。プログラム命令は、プロセッサに、選択されたデータ・モダリティごとに、映像セグメントを選択されたデータ・モダリティで表現する少なくとも１つのデータ入力を、選択されたデータ・モダリティに対応する機械学習モデルに提供し、機械学習モデルを介して映像セグメントを代表する第１のタイプの予測を生成することをさらに行わせるように、プロセッサによって実行可能である。プログラム命令は、プロセッサに、生成されたすべての第１のタイプの予測を集約することによって、入力映像全体を代表する第２のタイプの予測を決定することをさらに行わせるように、プロセッサによって実行可能である。第２のタイプの予測は、入力映像中でキャプチャされたオブジェクトまたはアクティビティを示す。

【0014】

図１は、本発明の実施形態による、効率的な映像認識のためのデータ・モダリティの適応的選択を実装するための、例示のコンピューティング・アーキテクチャ３００である。一実施形態では、コンピューティング・アーキテクチャ３００は、中央集権化されたコンピューティング・アーキテクチャである。別の実施形態では、コンピューティング・アーキテクチャ３００は、分散型のコンピューティング・アーキテクチャである。

【0015】

一実施形態では、コンピューティング・アーキテクチャ３００は、１つまたは複数のプロセッサ・ユニット３１０および１つまたは複数のストレージ・ユニット３２０などの計算リソースを含むが、それに限定されない。１つまたは複数のアプリケーションは、コンピューティング・アーキテクチャ３００の計算リソースを利用して、コンピューティング・アーキテクチャ３００で実行／動作することができる。一実施形態では、コンピューティング・アーキテクチャ３００上のアプリケーションは、限定はしないが適応的でマルチモーダルな学習システム３３０を含む。本明細書において後に詳述するように、システム３３０は、効率的な映像認識のために、異なるモダリティのデータ依存選択用に構成される。

【0016】

一実施形態では、システム３３０は、１つもしくは複数の電子デバイス３５０と、または１つもしくは複数のリモート・サーバ・デバイス３６０と、あるいはその組合せと、接続（例えば、Ｗｉ－Ｆｉ接続もしくはセルラ・データ接続などの無線接続、有線接続、またはその２つの組合せ）上でデータを交換するように構成される。

【0017】

一実施形態では、電子デバイス３５０は、限定はしないが１つまたは複数のプロセッサ・ユニット３５１および１つまたは複数のストレージ・ユニット３５２などの１つまたは複数の計算リソースを含む。１つまたは複数のアプリケーションは、限定はしないが電子デバイス３５０にロードまたはダウンロードされる１つまたは複数のソフトウェア・アプリケーション３５４など、電子デバイス３５０の１つまたは複数の計算リソースを利用して、電子デバイス３５０上で実行／動作することができる。ソフトウェア・アプリケーション３５４の例としては、限定はしないが人工知能（ＡＩ）アプリケーションなどが挙げられる。

【0018】

電子デバイス３５０の例としては、限定はしないが、デスクトップ・コンピュータ、モバイル電子デバイス（例えば、タブレット、スマートフォン、ラップトップなど）、ウェアラブル・デバイス（例えば、スマート・ウォッチなど）、モノのインターネット（ＩｏＴ）デバイスなどが挙げられる。

【0019】

一実施形態では、電子デバイス３５０は、電子デバイス３５０に一体化または結合された、キーボード、キーパッド、タッチ・インターフェース、ディスプレイ・スクリーンなどの、１つまたは複数の入出力（Ｉ／Ｏ）ユニット３５３を含む。ユーザは、電子デバイス３５０のＩ／Ｏモジュール３５３を利用して、１つまたは複数のユーザ設定を構成する、１つまたは複数のパラメータを設定する、入力を与える、などができる。

【0020】

一実施形態では、電子デバイス３５０またはリモート・サーバ・デバイス３６０あるいはその両方は、以下のうちの少なくとも１つのソースであってもよい：入力映像、訓練映像。

【0021】

一実施形態では、システム３３０は、リモート・サーバ・デバイス３６０上でホストされる１つもしくは複数のオンライン・サービス（例えば、ＡＩサービス）、または電子デバイス３５０上で動作中の１つもしくは複数のソフトウェア・アプリケーション３５４（例えば、ＡＩアプリケーション）、あるいはその両方によって、アクセスまたは利用される場合がある。例えば、一実施形態では、仮想アシスタント、サーチ・エンジン、または電子デバイス３５０上で動作中の別のタイプのソフトウェア・アプリケーション３５４は、システム３３０を呼び出してＡＩタスクを実行することができる。

【0022】

図２は、本発明の実施形態による、例示の適応的でマルチモーダルな学習システム３３０の図である。入力映像は、１つまたは複数のデータ・モダリティで、映像セグメント４００のシーケンスを含む。データ・モダリティの例としては、限定はしないが、ＲＧＢモダリティ、音声モダリティ、オプティカル・フロー・モダリティなどが挙げられる。

【0023】

映像セグメント４００のシーケンスは、１つまたは複数のデータ・ストリームとして表現される。各データ・ストリームは、映像セグメント４００のシーケンスを特定のデータ・モダリティで表現する、データ入力のシーケンスを含む。データ・ストリームの例としては、限定はしないが、ＲＧＢ入力のシーケンス（すなわち、映像セグメント４００のＲＧＢフレーム）を含むＲＧＢストリーム、音声入力のシーケンス（すなわち、映像セグメント４００の音声フレーム）を含む音声ストリーム、オプティカル・フロー入力のシーケンス（すなわち、映像セグメント４００のオプティカル・フロー・フレーム）を含むオプティカル・フロー・ストリーム、または、ＲＧＢ差入力のシーケンス（すなわち、映像セグメント４００のＲＧＢ差フレーム）を含むＲＧＢ差ストリーム、あるいはその組合せが挙げられる。

【0024】

一実施形態では、システム３３０は、マルチモーダル決定ポリシ・ネットワーク４１０および映像認識ネットワーク４３０を備える。映像認識ネットワーク４３０は、複数のデータ・モダリティで異なる映像セグメント４００の映像認識のために訓練された、複数の機械学習モデルを含む。一実施形態では、複数の機械学習モデルは、異なるサブネットワーク４３５（図３）を含む。異なるサブネットワーク４３５の各サブネットワーク４３５は、異なるサブネットワーク４３５の別のサブネットワーク４３５が対応する別のデータ・モダリティとは異なる、特定のデータ・モダリティに対応する。各サブネットワーク４３５は、映像セグメント４００を対応するデータ・モダリティで表現するデータ入力を受信して、処理するように構成される。

【0025】

一実施形態では、マルチモーダル決定ポリシ・ネットワーク４１０は、（１）映像セグメント４００のシーケンスを含む入力映像を受信することと、（２）入力映像の映像セグメント４００ごとに、映像セグメント４００を複数のデータ・モダリティで表現するデータ入力に基づいて、複数のデータ・モダリティから、映像セグメント４００の映像認識に最適な１つまたは複数のデータ・モダリティ４２０を適応的に選択することとを行うように構成される。入力映像の映像セグメント４００ごとに、マルチモーダル決定ポリシ・ネットワーク４１０は、映像セグメント４００を複数のデータ・モダリティで表現するデータ入力を条件として、映像セグメントの映像認識に最適なオンザフライの１つまたは複数のデータ・モダリティ４２０を選択する。入力映像の映像セグメント４００ごとに、マルチモーダル決定ポリシ・ネットワーク４１０は、映像セグメント４００の映像認識に好適なデータ・モダリティ４２０の適応的選択を実装するが、この選択はデータ依存的である。映像認識の間、選択された各データ・モダリティ４２０は、データ・ストリーム中で見るべき所（データ・ストリームがＲＧＢストリームまたはオプティカル・フロー・ストリームの場合）、またはデータ・ストリーム中で聞くべき所（データ・ストリームが音声ストリームの場合）にフォーカスするのを助ける。

【0026】

一実施形態では、入力映像の映像セグメント４００ごとに、映像認識ネットワーク４３０は、（１）（例えば、決定ポリシ・ネットワーク４１０から）映像セグメント４００の映像認識に最適な、１つまたは複数の選択されたデータ・モダリティ４２０を受信することと、（２）映像セグメント４００を１つまたは複数の選択されたデータ・モダリティ４２０で表現する１つまたは複数のデータ入力を、１つまたは複数の選択されたデータ・モダリティ４２０に対応する１つまたは複数のサブネットワーク４３５に転送することと、（３）１つまたは複数のサブネットワーク４３５を介して１つまたは複数のデータ入力を処理することによって、映像セグメント４００を代表する１つまたは複数の第１のタイプの予測（すなわち、分類）を生成することとを行うように構成される。具体的には、選択されたデータ・モダリティ４２０ごとに、映像セグメント４００を選択されたデータ・モダリティ４２０で表現する少なくとも１つのデータ入力が、選択されたデータ・モダリティ４２０に対応するサブネットワーク４３５にルーティングされる。映像セグメント４００の映像認識の間、映像セグメント４００を１つまたは複数の選択されたデータ・モダリティ４２０で表現するデータ入力のみが、１つまたは複数のサブネットワーク４３５を介して処理され、映像セグメント４００を選択されないデータ・モダリティ４２１（図３）で表現するデータ入力は、スキップ／バイパスされる（つまり、処理されない）。それぞれ選択されたデータ・モダリティ４２０は、映像セグメント４００の映像認識に関連があるが、それぞれ選択されないデータ・モダリティ４２１は、映像認識には冗長／無関係である。選択されないデータ・モダリティ４２１をスキップする／バイパスすることで、入力映像を異なるデータ・モダリティで表現する複数のデータ・ストリームの全体を処理する必要がなくなり、それにより計算効率が上がり、計算コストが下がり、映像認識の精度が改善される。

【0027】

一実施形態では、映像セグメント４００を代表する第１のタイプの予測は、異なるサブネットワーク４３５が認識するように訓練された映像セグメント４００中でキャプチャされたオブジェクトまたはアクティビティを示す、セグメントレベルの予測である。

【0028】

一実施形態では、映像認識ネットワーク４３０は、融合ユニット４３６（図３）を含む。融合ユニット４３６は、（１）入力映像の映像セグメント４００ごとに、映像セグメント４００を代表する１つまたは複数の第１のタイプの予測（すなわち、セグメントレベルの予測）を（例えば、異なるサブネットワーク４３５の１つまたは複数から）受信することと、（２）入力映像のすべての映像セグメント４００で受信したすべての第１のタイプの予測を平均する（すなわち、集約する）ことによって、入力映像全体を代表する第２のタイプの予測４４０を決定することとを行うように構成される。

【0029】

一実施形態では、入力映像全体を代表する第２のタイプの予測４４０は、異なるサブネットワーク４３５が認識するように訓練された入力映像中でキャプチャされたオブジェクトまたはアクティビティを示す、映像レベルの予測である。

【0030】

一実施形態では、異なるサブネットワーク４３５は、（例えば、学習可能な重みを持つ後期融合を介して）共に訓練される。

【0031】

図３は、本発明の実施形態による、決定ポリシ・ネットワーク４１０および映像認識ネットワーク４３０の例示のコンポーネントの図である。一般的に、Ｖは、Ｋ個のデータ・モダリティ｛Ｍ_１，Ｍ_２，…，Ｍ_Ｋ｝で映像セグメント｛ｓ_１，ｓ_２，…，ｓ_Ｔ｝のシーケンスを含む入力映像を表すものとする。入力映像Ｖの映像セグメントごとに、決定ポリシ・ネットワーク４１０は、計算効率を考慮しつつ映像認識の精度（すなわち、予測／分類の精度／品質）を改善するために、Ｋ個のデータ・モダリティのうちのどれを映像セグメントの映像認識に利用するかを決定するように構成される。

【0032】

一実施形態では、決定ポリシ・ネットワーク４１０は、ある入力映像Ｖにおいて異なる時間ステップに渡って因果関係をモデル化するように構成されるユニット４１５を含む。一実施形態では、ユニット４１５は、（ａ）対応する訓練可能パラメータθ_Φを有する結合特徴抽出器と、（２）対応する訓練可能パラメータθ_ＬＳＴＭを有する長短期記憶（ＬＳＴＭ）とを含む。各時間ステップｔにおいて、結合特徴抽出器は、（１）現在の映像セグメントｓ_ｔをＫ個のデータ・モダリティで表現するデータ入力（例えば、ＲＧＢ入力、ＲＧＢ差入力、または音声入力あるいはその組合せ）を受信することと、（２）データ入力から、現在の映像セグメントｓ_ｔに対応する結合特徴ｆ_ｔを抽出することとを行うように構成される。

【0033】

各時間ステップｔにおいて、ＬＳＴＭは、以下で与えられる方程式（１）に従って、（１）現在の映像セグメントｓ_ｔに対応する結合特徴ｆ_ｔ（例えば、結合特徴抽出器から）、以前の隠れ状態ｈ_ｔ－１およびセル出力ｏ_ｔ－１を受信することと、（２）現在の隠れ状態ｈ_ｔおよびセル出力ｏ_ｔを計算することとを行うように構成される：
ｈ_ｔ，ｏ_ｔ＝ＬＳＴＭ（ｆ_ｔ；ｈ_ｔ－１；ｏ_ｔ－１）（１）

【0034】

一実施形態では、決定ポリシ・ネットワーク４１０は、対応する訓練可能パラメータ

【数1】

，…，

【数2】

を有するＫ個の完全結合（ＦＣ）レイヤ４１６を含み、Ｋ個のデータ・モダリティのそれぞれは対応するＦＣレイヤ４１６を有する。

【0035】

一実施形態では、各時間ステップｔにおいて、Ｋ個のデータ・モダリティのデータ・モダリティｋごとに（ｋ∈［１，…，Ｋ］）、決定ポリシ・ネットワーク４１０は、（１）現在の隠れ状態ｈ_ｔに基づいて、対応するポリシ分布を推定することと、（２）対応するポリシ分布にＧｕｍｂｅｌ－Ｓｏｆｔｍａｘ操作を適用して、対応する二分決定ｕ_ｔ，ｋをサンプリングする（すなわち、Ｇｕｍｂｅｌ－Ｓｏｆｔｍａｘ分布からサンプリングする）こととを行うように構成され、二分決定ｕ_ｔ，ｋは、現在の映像セグメントｓ_ｔに対してデータ・モダリティｋを選択するか、それともスキップ／バイパスするか（すなわち、データ・モダリティｋに対する決定ポリシ）を示す。例えば、二分決定ｕ_ｔ，ｋが１の場合、データ・モダリティｋが現在の映像セグメントｓ_ｔに起因して選択され、それにより、現在の映像セグメントｓ_ｔをデータ・モダリティｋで表現するデータ入力は、処理のために映像認識ネットワーク４３０にルーティングされる（すなわち、データ・モダリティｋは、選択されたデータ・モダリティ４２０である）。二分決定ｕ_ｔ，ｋが０の場合、データ・モダリティｋは現在の映像セグメントｓ_ｔにはスキップ／バイパスされ、それにより、現在の映像セグメントｓ_ｔをデータ・モダリティｋで表現するどのデータ入力も、処理のために映像認識ネットワーク４３０にルーティングされない（すなわち、データ・モダリティｋは、選択されないデータ・モダリティ４２１である）。現在の映像セグメントｓ_ｔを、現在の映像セグメントｓ_ｔに対してそれぞれの選択されたデータ・モダリティ４２０で表現するデータ入力のみが、処理のために映像認識ネットワーク４３０に転送される。

【0036】

例えば、一実施形態では、各時間ステップｔにおいて、Ｋ個のデータ・モダリティのデータ・モダリティｋごとに、決定ポリシ・ネットワーク４１０は、（１）対応するＦＣレイヤ４１６を介して、ＦＣレイヤ４１６に対応する現在の隠れ状態ｈ_ｔおよび訓練可能なパラメータθ_ＦＣｋに基づいて、ポリシ・ロジットを含む対応するポリシ分布ｚ_ｋを生成することであって、ただし

【数3】

であり、かつｚ_ｋ＝ＦＣ（ｈ_ｔ，θ_ＦＣｋ）である、生成することと、（２）Ｇｕｍｂｅｌ－Ｓｏｆｔｍａｘ操作を対応するポリシ分布ｚ_ｋに適用して、Ｇｕｍｂｅｌ－Ｓｏｆｔｍａｘ分布から、以下で与えられる方程式（２）に従って、対応する二分決定ｕ_ｔ，ｋを表現する離散サンプルを導くこととを行うように構成される：

【数4】

ただしｉ∈｛０，１｝であり、Ｇ_ｉ，ｋは標準的なＧｕｍｂｅｌ分布Ｇ_ｉ，ｋ＝－ｌｏｇ（－ｌｏｇＵ_ｉ，ｋ）であり、Ｕ_ｉ，ｋは一様なｉ．ｉ．ｄ分布Ｕｎｉｆ（０，１）からサンプリングされる。

【0037】

一実施形態では、

【数5】

は、ｏｎｅ－ｈｏｔなベクトルとして表現され、ｏｎｅ－ｈｏｔなコーディングは緩和されて、以下で与えられる方程式（３）に従って実数値ベクトルＰ_ｋを計算する：

【数6】

ただし、τは、Ｐ_ｋの離散性を制御する温度パラメータである。

【0038】

一実施形態では、映像認識ネットワーク４３０は、対応する訓練可能パラメータ

【数7】

，…，

【数8】

を有するＫ個のサブネットワーク４３５を含み、Ｋ個のデータ・モダリティのそれぞれは対応するサブネットワーク４３５を有する。

【0039】

一実施形態では、システム３３０は、Ｋ個のサブネットワーク４３５が共に訓練される訓練フェーズ、および得られる訓練されたＫ個のサブネットワーク４３５が映像認識用に展開される干渉フェーズという、少なくとも２つの異なる動作フェーズを有する。

【0040】

一実施形態では、映像認識の精度（すなわち、予測／分類の精度／品質）を高めるために、ならびにさらなる計算を必要とするデータ・モダリティの選択を最小限にして計算効率を高めるために、訓練フェーズは、以下で与えられる方程式（４）に従って表現される損失を最小化することを含む：

【数9】

ただし、Ρ（Ｖ；Θ）は訓練映像Ｖの予測であり、ｙは訓練映像Ｖのためのｏｎｅ－ｈｏｔな符号化グラウンド・トゥルース・ラベルであり、λ_ｋはデータ・モダリティｋを処理することに関連付けられるコストであり、Ｕ_ｋはデータ・モダリティｋについての決定ポリシであり、Ｃ_ｋは予測が正しい場合にデータ・モダリティｋを選択した合計Ｃの映像セグメントのうちの映像セグメントの割合の測定値であり、γは不正確な予測にペナルティを与えるパラメータである。γおよびλ_ｋは、映像認識の精度と計算効率との間のトレードオフを制御するために併せて使用される。例えば、γとλ_ｋの両方を０にセットすると、計算効率の損失のない訓練となる。方程式（４）の第１の部分は、標準的な交差エントロピー損失を表現して映像認識精度を測定し、方程式（４）の第２の部分は映像認識ネットワーク４３０を駆動して、映像認識においてより計算効率の良いデータ・モダリティの選択を優先する決定ポリシを学習する（例えば、ＲＧＢ入力の処理は、音声入力よりも多くの計算を必要とする）。

【0041】

入力映像Ｖが芝を刈る様子をキャプチャしており、入力映像ＶがＲＧＢモダリティ、オプティカル・フロー・モダリティ、および音声モダリティで映像セグメントのシーケンスを含むものと仮定する。具体的には、映像セグメントのシーケンスは、映像セグメントをＲＧＢモダリティで表現するＲＧＢ入力（すなわち、映像セグメントのＲＧＢフレーム）のシーケンスを含むＲＧＢストリーム、映像セグメントをオプティカル・フロー・モダリティで表現するオプティカル・フロー入力（すなわち、映像セグメントのオプティカル・フロー・フレーム）のシーケンスを含むオプティカル・フロー・ストリーム、および映像セグメントを音声モダリティで表現する音声入力（すなわち、映像セグメントの音声フレーム）のシーケンスを含む音声ストリームとして表現される。一実施形態では、映像セグメントごとにオプティカル・フロー・モダリティを選択するかどうかを判定する際、決定ポリシ・ネットワーク４１０は、オプティカル・フロー・ストリームＤの代わりに、ＲＧＢ差入力のシーケンスを含むＲＧＢ差ストリーム（すなわち、映像セグメントのＲＧＢ差フレーム）を利用して、計算コストを下げる。

【0042】

図３に示されるように、時間ステップｔにおいて、現在の映像セグメントｓ_ｔに対して、決定ポリシ・ネットワーク４１０は、（１）ＲＧＢストリームから、現在の映像セグメントｓ_ｔをＲＧＢモダリティで表現するＲＧＢ入力ｓ_{ｔ，ｒｇｂ}を受信することと、（２）ＲＧＢ差ストリームから、現在の映像セグメントｓ_ｔをオプティカル・フロー・モダリティで表現するＲＧＢ差入力ｓ_{ｔ，ｒｇｂｄ}を受信することと、（３）音声ストリームから、現在の映像セグメントｓ_ｔを音声モダリティで表現する音声入力ｓ_{ｔ，ａｕｄ}を受信することと、（４）受信した入力に部分的に基づいて、対応する二分決定ポリシ・ベクトルを生成することとを行うように構成される。二分決定ポリシ・ベクトルの各要素は、ＲＧＢ、オプティカル・フロー、および音声モダリティのうちの１つに対応するバイナリ値（例えば、二分決定）であり、要素は、現在の映像セグメントｓ_ｔについて、対応するデータ・モダリティを選択するか、それともスキップ／バイパスするかどうかを表現する。例えば、ＲＧＢモダリティに対応する二分決定ポリシ・ベクトルの要素が１である場合、ＲＧＢモダリティが現在の映像セグメントｓ_ｔに対して選択されたデータ・モダリティ４２０であり、そうではなく要素が０である場合、ＲＧＢモダリティは選択されないデータ・モダリティ４２１である。

【0043】

映像認識ネットワーク４３０が、ＲＧＢモダリティに対応する第１のサブネットワーク４３５（「サブネット１」）、オプティカル・フロー・モダリティに対応する第２のサブネットワーク４３５（「サブネット２」）、および音声モダリティに対応する第３のサブネットワーク４３５（「サブネット３」）を含むものと仮定する。現在の映像セグメントｓ_ｔに対応する二分決定ポリシ・ベクトルが、現在の映像セグメントｓ_ｔに対してＲＧＢ、オプティカル・フロー、および音声モダリティがすべて選択されたデータ・モダリティ４２０であることを示すものと仮定する。現在の映像セグメントｓ_ｔでは、映像認識ネットワーク４３０は、（１）ＲＧＢ入力ｓ_{ｔ，ｒｇｂ}を処理のためにサブネット１に転送することによって、サブネット１を介して、第１のセグメントレベルの予測を生成することと、（２）現在の映像セグメントｓ_ｔをオプティカル・フロー・モダリティで表現するオプティカル・フロー入力ｓ_ｔ，ｏｆを（オプティカル・フロー・ストリームから）処理のためにサブネット２に転送することによって、サブネット２を介して、第２のセグメントレベルの予測を生成することと、（３）音声入力ｓ_{ｔ，ａｕｄ}を処理のためにサブネット３に転送することによって、サブネット３を介して、第３のセグメントレベルの予測を生成することとを行うように構成される。

【0044】

融合ユニット４３６は、（１）入力映像Ｖのすべての映像セグメント（現在の映像セグメントｓ_ｔを含む）についてサブネット１、サブネット２、またはサブネット３あるいはその組合せによって生成されたすべてのセグメントレベルの予測を受信することと、（２）受信したすべてのセグメントレベルの予測を平均する（すなわち、集約する）ことによって入力映像Ｖ全体で映像レベルの予測を決定することとを行うように構成される。図３に示されるように、入力映像Ｖは芝を刈る様子をキャプチャしているため、入力映像Ｖ全体について決定される映像レベルの予測は「芝を刈っている」であり得る。

【0045】

図４は、本発明の実施形態による、システム３３０を伴う例示の適用シナリオの図である。システム３３０に与えられる入力映像Ｖが犬が吠えている様子をキャプチャしており、入力映像ＶがＲＧＢモダリティおよび音声モダリティで映像セグメントのシーケンスｓ_１，ｓ_２，…，ｓ_Ｃを含むものと仮定する。具体的には、映像セグメントのシーケンスは、（１）映像セグメントをＲＧＢモダリティで表現するＲＧＢ入力ｓ_{１，ｒｇｂ}，ｓ_{２，ｒｇｂ}，…，ｓ_{Ｃ，ｒｇｂ}のシーケンスを含むＲＧＢストリーム、および（２）映像セグメントを音声モダリティで表現する音声入力ｓ_{１，ａｕｄ}，ｓ_{２，ａｕｄ}，…，ｓ_{Ｃ，ａｕｄ}のシーケンスを含む音声ストリームとして表現される。

【0046】

各時間ステップｔにおいて、決定ポリシ・ネットワーク４１０は、（１）現在の映像セグメントｓ_ｔをＲＧＢモダリティで表現する（ＲＧＢストリームからの）ＲＧＢ入力ｓ_{ｔ，ｒｇｂ}に基づいて、ＲＧＢモダリティに対応するポリシ・ロジットを含むポリシ分布ｚ_ｒｇｂを生成することと、（２）現在の映像セグメントｓ_ｔを音声モダリティで表現する（音声ストリームからの）音声入力ｓ_{ｔ，ａｕｄ}に基づいて、音声モダリティに対応するポリシ・ロジットを含むポリシ分布ｚ_ａｕｄを生成することと、（３）現在の映像セグメントｓ_ｔに対してＲＧＢモダリティを選択するか、それともスキップ／バイパスするかどうかを示す二分決定ｕ_{ｔ，ｒｇｂ}をサンプリングするためにＧｕｍｂｅｌ－Ｓｏｆｔｍａｘ操作をポリシ分布ｚ_ｒｇｂに適用することと、（４）現在の映像セグメントｓ_ｔに対して音声モダリティを選択するか、それともスキップ／バイパスするかどうかを示す二分決定ｕ_{ｔ，ａｕｄ}をサンプリングするためにＧｕｍｂｅｌ－Ｓｏｆｔｍａｘ操作をポリシ分布ｚ_ａｕｄに適用することとを行うように構成される。

【0047】

図４に示されるように、二分決定ｕ_{２，ｒｇｂ}、ｕ_{５，ｒｇｂ}、およびｕ_{Ｃ，ｒｇｂ}が１である場合、ＲＧＢモダリティは映像セグメントｓ_２、ｓ_５、およびｓ_Ｃのためだけに選択されたデータ・モダリティ４２０であり、それにより、映像セグメントｓ_２、ｓ_５、およびｓ_ＣをＲＧＢモダリティで表現する（ＲＧＢストリームからの）ＲＧＢ入力ｓ_{２，ｒｇｂ}、ｓ_{５，ｒｇｂ}、およびｓ_{Ｃ，ｒｇｂ}だけが（図の分かりやすさのために強調四角で強調する）、ＲＧＢモダリティに対応する第１のサブネットワーク４３５に転送される。第１のサブネットワーク４３５は、ＲＧＢ入力ｓ_{２，ｒｇｂ}、ｓ_{５，ｒｇｂ}、およびｓ_{Ｃ，ｒｇｂ}を処理することによって、それぞれ映像セグメントｓ_２、ｓ_５、およびｓ_Ｃに対するセグメントレベルの予測を生成する。図４でさらに示されるように、二分決定ｕ_{２，ａｕｄ}、ｕ_{３，ａｕｄ}、およびｕ_{Ｃ，ａｕｄ}が１である場合、音声モダリティは映像セグメントｓ_２、ｓ_３、およびｓ_Ｃのためだけに選択されたデータ・モダリティ４２０であり、それにより、映像セグメントｓ_２、ｓ_３、およびｓ_Ｃを音声モダリティで表現する（音声ストリームからの）音声入力ｓ_{２，ａｕｄ}、ｓ_{３，ａｕｄ}、およびｓ_{Ｃ，ａｕｄ}だけが（図の分かりやすさのために強調四角で強調する）、音声モダリティに対応する第２のサブネットワーク４３５に転送される。第２のサブネットワーク４３５は、音声入力ｓ_{２，ａｕｄ}、ｓ_{３，ａｕｄ}、およびｓ_{Ｃ，ａｕｄ}を処理することによって、それぞれ映像セグメントｓ_２、ｓ_３、およびｓ_Ｃに対するセグメントレベルの予測を生成する。

【0048】

図４に示されるように、融合ユニット４３６は、第１および第２のサブネットワーク４３５によって生成されたすべてのセグメントレベルの予測を受信し、受信したすべてのセグメントレベルの予測を平均する（すなわち、集約する）ことによって、入力映像Ｖ全体についての映像レベルの予測を決定する。図４に示されるように、入力映像Ｖは犬が吠えている様子をキャプチャしているため、入力映像Ｖ全体について決定される映像レベルの予測は「吠えている」である。

【0049】

図５Ａは、本発明の実施形態による、異なるモダリティでの映像セグメントの第１のシーケンス５００の図である。システム３３０に与えられる入力映像Ｖがフェンシングをしている様子をキャプチャしており、入力映像ＶがＲＧＢモダリティおよび音声モダリティで映像セグメントの第１のシーケンス５００を含むものと仮定する。例えば、図５Ａに示されるように、映像セグメントの第１のシーケンス５００は、（１）映像セグメントをＲＧＢモダリティで表現するＲＧＢ入力のシーケンスを含むＲＧＢストリーム５０１、および（２）映像セグメントを音声モダリティで表現する音声入力のシーケンスを含む音声ストリーム５０２として表現される。

【0050】

図５Ａに示されるように、システム３３０は、入力映像Ｖの第２および第３の映像セグメントのためだけにＲＧＢモダリティを選択し、それにより、第２および第３の映像セグメントを表現するＲＧＢ入力だけが、映像認識のためにシステム３３０によって処理される。図５Ａでさらに示されるように、システム３３０は、入力映像Ｖの映像セグメントすべてについての音声モダリティをスキップ／バイパスし、それにより、音声ストリーム５０２全体が、映像認識のために処理されない。入力映像Ｖはフェンシングをしている様子をキャプチャしているため、入力映像Ｖ全体についてシステム３３０によって決定される映像レベルの予測は、「フェンシングをしている」であり得る。

【0051】

図５Ｂは、本発明の実施形態による、異なるモダリティでの映像セグメントの第２のシーケンス５１０の図である。システム３３０に与えられる入力映像Ｖがピアノを弾く様子をキャプチャしており、入力映像ＶがＲＧＢモダリティおよび音声モダリティで映像セグメントの第２のシーケンス５１０を含むものと仮定する。例えば、図５Ｂに示されるように、映像セグメントの第２のシーケンス５１０は、（１）映像セグメントをＲＧＢモダリティで表現するＲＧＢ入力のシーケンスを含むＲＧＢストリーム５１１、および（２）映像セグメントを音声モダリティで表現する音声入力のシーケンスを含む音声ストリーム５１２として表現される。

【0052】

図５Ｂに示されるように、システム３３０は、入力映像Ｖの第２の映像セグメントのためだけにＲＧＢモダリティを選択し、それにより、第２の映像セグメントを表現するＲＧＢ入力だけが、映像認識のためにシステム３３０によって処理される。図５Ｂでさらに示されるように、システム３３０は、入力映像Ｖの映像セグメントすべてについての音声モダリティを選択し、それにより、音声ストリーム５１２全体が、映像認識のためにシステム３３０によって処理される。入力映像Ｖはピアノを弾く様子をキャプチャしているため、入力映像Ｖ全体についてシステム３３０によって決定される映像レベルの予測は、「ピアノを弾いている」であり得る。

【0053】

図５Ｃは、本発明の実施形態による、異なるモダリティでの映像セグメントの第３のシーケンス５２０の図である。システム３３０に与えられる入力映像Ｖが木を割る様子をキャプチャしており、入力映像ＶがＲＧＢモダリティおよびオプティカル・フロー・モダリティで映像セグメントの第３のシーケンス５２０を含むものと仮定する。例えば、図５Ｃに示されるように、映像セグメントの第３のシーケンス５２０は、（１）映像セグメントをＲＧＢモダリティで表現するＲＧＢ入力のシーケンスを含むＲＧＢストリーム５２１、および（２）映像セグメントをオプティカル・フロー・モダリティで表現するオプティカル・フロー入力のシーケンスを含むオプティカル・フロー・ストリーム５２２として表現される。

【0054】

図５Ｃに示されるように、システム３３０は、入力映像Ｖの第１および第３の映像セグメントのためだけにＲＧＢモダリティを選択し、それにより、第１および第３の映像セグメントを表現するＲＧＢ入力だけが、映像認識のためにシステム３３０によって処理される。図５Ｃでさらに示されるように、システム３３０は、入力映像Ｖの第２および第３の映像セグメントのためだけにオプティカル・フロー・モダリティを選択し、それにより、第２および第３の映像セグメントを表現するオプティカル・フロー入力だけが、映像認識のためにシステム３３０によって処理される。入力映像Ｖは木を割る様子をキャプチャしているため、入力映像Ｖ全体についてシステム３３０によって決定される映像レベルの予測は、「木を割っている」であり得る。

【0055】

図５Ｄは、本発明の実施形態による、異なるモダリティでの映像セグメントの第４のシーケンス５３０の図である。システム３３０に与えられる入力映像Ｖが紙を破る様子をキャプチャしており、入力映像ＶがＲＧＢモダリティおよびオプティカル・フロー・モダリティで映像セグメントの第４のシーケンス５３０を含むものと仮定する。例えば、図５Ｄに示されるように、映像セグメントの第４のシーケンス５３０は、（１）映像セグメントをＲＧＢモダリティで表現するＲＧＢ入力のシーケンスを含むＲＧＢストリーム５３１、および（２）映像セグメントをオプティカル・フロー・モダリティで表現するオプティカル・フロー入力のシーケンスを含むオプティカル・フロー・ストリーム５３２として表現される。

【0056】

図５Ｄに示されるように、システム３３０は、入力映像Ｖの第１、第２、および第３の映像セグメントのためだけにＲＧＢモダリティを選択し、それにより、第１、第２、および第３の映像セグメントを表現するＲＧＢ入力だけが、映像認識のためにシステム３３０によって処理される。図５Ｄでさらに示されるように、システム３３０は、入力映像Ｖの第２の映像セグメントのためだけにオプティカル・フロー・モダリティを選択し、それにより、第２の映像セグメントを表現するオプティカル・フロー入力だけが、映像認識のためにシステム３３０によって処理される。入力映像Ｖは紙を破る様子をキャプチャしているため、入力映像Ｖ全体についてシステム３３０によって決定される映像レベルの予測は、「紙を破っている」であり得る。

【0057】

図５Ｅは、本発明の実施形態による、異なるモダリティでの映像セグメントの第５のシーケンス５４０の図である。システム３３０に与えられる入力映像Ｖがアコーディオンを弾く様子をキャプチャしており、入力映像ＶがＲＧＢモダリティ、オプティカル・フロー・モダリティ、および音声モダリティで映像セグメントの第５のシーケンス５４０を含むものと仮定する。例えば、図５Ｅに示されるように、映像セグメントの第５のシーケンス５４０は、（１）映像セグメントをＲＧＢモダリティで表現するＲＧＢ入力のシーケンスを含むＲＧＢストリーム５４１、（２）映像セグメントをオプティカル・フロー・モダリティで表現するオプティカル・フロー入力のシーケンスを含むオプティカル・フロー・ストリーム５４２、および（３）映像セグメントを音声モダリティで表現する音声入力のシーケンスを含む音声ストリーム５４３として表現される。

【0058】

図５Ｅに示されるように、システム３３０は、入力映像Ｖの第１および第４の映像セグメントのためだけにＲＧＢモダリティを選択し、それにより、第１および第４の映像セグメントを表現するＲＧＢ入力だけが、映像認識のためにシステム３３０によって処理される。図５Ｅでさらに示されるように、システム３３０は、入力映像Ｖの第６の映像セグメントのためだけにオプティカル・フロー・モダリティを選択し、それにより、第６の映像セグメントを表現するオプティカル・フロー入力だけが、映像認識のためにシステム３３０によって処理される。図５Ｅでさらに示されるように、システム３３０は、入力映像Ｖの第１～第６の映像セグメントのためだけに音声モダリティを選択し、それにより、第１～第６の映像セグメントを表現する音声入力だけが、映像認識のためにシステム３３０によって処理される。入力映像Ｖはアコーディオンを弾く様子をキャプチャしているため、入力映像Ｖ全体についてシステム３３０によって決定される映像レベルの予測は、「アコーディオンを弾いている」であり得る。

【0059】

図５Ｆは、本発明の実施形態による、異なるモダリティでの映像セグメントの第６のシーケンス５５０の図である。システム３３０に与えられる入力映像Ｖがチアリーディングをしている様子をキャプチャしており、入力映像ＶがＲＧＢモダリティおよび音声モダリティで映像セグメントの第６のシーケンス５５０を含むものと仮定する。例えば、図５Ｆに示されるように、映像セグメントの第６のシーケンス５５０は、（１）映像セグメントをＲＧＢモダリティで表現するＲＧＢ入力のシーケンスを含むＲＧＢストリーム５５１、および（２）映像セグメントを音声モダリティで表現する音声入力のシーケンスを含む音声ストリーム５５２として表現される。

【0060】

図５Ｆに示されるように、システム３３０は、入力映像Ｖの第１および第２の映像セグメントのためだけにＲＧＢモダリティを選択し、それにより、第１および第２の映像セグメントを表現するＲＧＢ入力だけが、映像認識のためにシステム３３０によって処理される。図５Ｆでさらに示されるように、システム３３０は、入力映像Ｖの第１および第２の映像セグメントのためだけに音声モダリティを選択し、それにより、第１および第２の映像セグメントを表現する音声入力だけが、映像認識のためにシステム３３０によって処理される。入力映像Ｖはチアリーディングをしている様子をキャプチャしているため、入力映像Ｖ全体についてシステム３３０によって決定される映像レベルの予測は、「チアリーディングをしている」であり得る。

【0061】

図５Ｇは、本発明の実施形態による、異なるモダリティでの映像セグメントの第７のシーケンス５６０の図である。システム３３０に与えられる入力映像Ｖがハーモニカを吹く様子をキャプチャしており、入力映像ＶがＲＧＢモダリティおよび音声モダリティで映像セグメントの第７のシーケンス５６０を含むものと仮定する。例えば、図５Ｇに示されるように、映像セグメントの第７のシーケンス５６０は、（１）映像セグメントをＲＧＢモダリティで表現するＲＧＢ入力のシーケンスを含むＲＧＢストリーム５６１、および（２）映像セグメントを音声モダリティで表現する音声入力のシーケンスを含む音声ストリーム５６２として表現される。

【0062】

図５Ｇに示されるように、システム３３０は、入力映像Ｖの第３の映像セグメントのためだけにＲＧＢモダリティを選択し、それにより、第３の映像セグメントを表現するＲＧＢ入力だけが、映像認識のためにシステム３３０によって処理される。図５Ｇでさらに示されるように、システム３３０は、入力映像Ｖの映像セグメントすべてについての音声モダリティを選択し、それにより、音声ストリーム５６２全体が、映像認識のためにシステム３３０によって処理される。入力映像Ｖはハーモニカを吹く様子をキャプチャしているため、入力映像Ｖ全体についてシステム３３０によって決定される映像レベルの予測は、「ハーモニカを吹いている」であり得る。

【0063】

図５Ｈは、本発明の実施形態による、異なるモダリティでの映像セグメントの第８のシーケンス５７０の図である。システム３３０に与えられる入力映像Ｖが木を割る様子をキャプチャしており、入力映像ＶがＲＧＢモダリティおよびオプティカル・フロー・モダリティで映像セグメントの第８のシーケンス５７０を含むものと仮定する。例えば、図５Ｈに示されるように、映像セグメントの第８のシーケンス５７０は、（１）映像セグメントをＲＧＢモダリティで表現するＲＧＢ入力のシーケンスを含むＲＧＢストリーム５７１、および（２）映像セグメントをオプティカル・フロー・モダリティで表現するオプティカル・フロー入力のシーケンスを含むオプティカル・フロー・ストリーム５７２として表現される。

【0064】

図５Ｈに示されるように、システム３３０は、入力映像Ｖの第２の映像セグメントのためだけにＲＧＢモダリティを選択し、それにより、第２の映像セグメントを表現するＲＧＢ入力だけが、映像認識のためにシステム３３０によって処理される。図５Ｈでさらに示されるように、システム３３０は、入力映像Ｖの第２および第３の映像セグメントのためだけにオプティカル・フロー・モダリティを選択し、それにより、第２および第３の映像セグメントを表現するオプティカル・フロー入力だけが、映像認識のためにシステム３３０によって処理される。入力映像Ｖは木を割る様子をキャプチャしているため、入力映像Ｖ全体についてシステム３３０によって決定される映像レベルの予測は、「木を割っている」であり得る。

【0065】

図５Ｉは、本発明の実施形態による、異なるモダリティでの映像セグメントの第９のシーケンス５８０の図である。システム３３０に与えられる入力映像Ｖがタップ・ダンスをしている様子をキャプチャしており、入力映像ＶがＲＧＢモダリティ、オプティカル・フロー・モダリティ、および音声モダリティで映像セグメントの第９のシーケンス５８０を含むものと仮定する。例えば、図５Ｉに示されるように、映像セグメントの第９のシーケンス５８０は、（１）映像セグメントをＲＧＢモダリティで表現するＲＧＢ入力のシーケンスを含むＲＧＢストリーム５８１、（２）映像セグメントをオプティカル・フロー・モダリティで表現するオプティカル・フロー入力のシーケンスを含むオプティカル・フロー・ストリーム５８２、および（３）映像セグメントを音声モダリティで表現する音声入力のシーケンスを含む音声ストリーム５８３として表現される。

【0066】

図５Ｉに示されるように、システム３３０は、入力映像Ｖの第１の映像セグメントのためだけにＲＧＢモダリティを選択し、それにより、第１の映像セグメントを表現するＲＧＢ入力だけが、映像認識のためにシステム３３０によって処理される。図５Ｉでさらに示されるように、システム３３０は、入力映像Ｖの第２の映像セグメントのためだけにオプティカル・フロー・モダリティを選択し、それにより、第２の映像セグメントを表現するオプティカル・フロー入力だけが、映像認識のためにシステム３３０によって処理される。図５Ｉでさらに示されるように、システム３３０は、入力映像Ｖの映像セグメントすべてについての音声モダリティを選択し、それにより、音声ストリーム５８３全体が、映像認識のためにシステム３３０によって処理される。入力映像Ｖはタップ・ダンスをしている様子をキャプチャしているため、入力映像Ｖ全体についてシステム３３０によって決定される映像レベルの予測は、「タップ・ダンスをしている」であり得る。

【0067】

図６は、本発明の実施形態による、効率的な映像認識のためのデータ・モダリティの適応的選択のための、例示のプロセス６００のフローチャートである。プロセス・ブロック６０１は、映像セグメントのシーケンスを含む入力映像を複数のデータ・モダリティで受信することを含む。プロセス・ブロック６０２は、シーケンスの映像セグメントについて、映像セグメントを表現するデータに基づいて、複数のデータ・モダリティから１つまたは複数のデータ・モダリティを選択することを含み、選択された各データ・モダリティは、映像セグメントの映像認識に最適である。プロセス・ブロック６０３は、選択されたデータ・モダリティごとに、映像セグメントを選択されたデータ・モダリティで表現する少なくとも１つのデータ入力を、選択されたデータ・モダリティに対応する機械学習モデル（例えば、サブネットワーク）に提供し、機械学習モデルを介して映像セグメントを代表する第１のタイプの予測（例えば、セグメントレベルの予測）を生成することを含む。プロセス・ブロック６０４は、生成されたすべての第１のタイプの予測を集約することによって、入力映像全体を代表する第２のタイプの予測（例えば、映像レベルの予測）を決定することを含み、第２のタイプの予測は、入力映像中でキャプチャされたオブジェクトまたはアクティビティを示す。

【0068】

一実施形態では、プロセス・ブロック６０１～６０４は、システム３３０の１つまたは複数のコンポーネントによって実施される。

【0069】

本開示はクラウド・コンピューティングについての詳細な説明を含むが、本明細書で述べられる教示の実装形態はクラウド・コンピューティング環境に限定されないことを理解されたい。むしろ本発明の実施形態は、現在既知の、または後に開発されるあらゆる他のタイプのコンピューティング環境と併せて実装することができる。

【0070】

クラウド・コンピューティングは、構成可能なコンピューティング・リソースの共有プール（例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想機械、およびサービス）への便利でオンデマンドのネットワーク・アクセスを可能とするためのサービス提供のモデルであり、最小限の管理努力で、またはサービスのプロバイダとの対話で迅速にプロビジョニングおよびリリースすることができる。一実施形態では、このクラウド・モデルは、少なくとも５つの特徴、少なくとも３つのサービス・モデル、および少なくとも４つの展開モデルを含む。

【0071】

特徴は以下のとおりである：

【0072】

オンデマンドのセルフサービス：クラウド消費者は、サービスのプロバイダとの人間対話を要求することなく必要に応じて自動的に、サーバ時間およびネットワーク・ストレージなどのコンピューティング機能を一方的にプロビジョニングすることができる。

【0073】

幅広いネットワーク・アクセス：機能はネットワーク上で利用可能であり、異種のシン・クライアントまたはシック・クライアントのプラットフォーム（例えば、携帯電話、ラップトップ、および携帯情報端末）による使用を促進する標準的なメカニズムを通じてアクセスされる。

【0074】

リソースのプール：プロバイダのコンピューティング・リソースは、マルチテナント・モデルを使用して複数の消費者にサービス提供するためにプールされ、異なる物理的および仮想的なリソースが需要に応じて動的に割り当ておよび再割り当てされる。一実施形態では、消費者が提供されるリソースの正確な場所についての制御または情報を一般的に持たない点で、場所の独立性の意味があるが、より高い抽象レベルにおいて場所（例えば、国、州、またはデータセンタ）を特定できる。

【0075】

迅速な柔軟性：機能は迅速かつ柔軟にプロビジョニングすることができ、場合によっては自動的に、素早くスケール・アウトされ、迅速にリリースされて素早くスケール・インされる。消費者にとって、プロビジョニングに利用可能な機能は、しばしば無制限に見え、いつでもいくらでも購入することができる。

【0076】

サービスの計測：クラウド・システムは、サービスのタイプ（例えば、ストレージ、処理、帯域幅、およびアクティブなユーザ・アカウント）に適当な何らかの抽象レベルにおいて計測機能を活用することによりリソースの使用を自動的に制御し、最適化する。リソースの使用は、監視、制御、および報告することができ、利用されるサービスのプロバイダおよび消費者の両方にとって透明性を与えている。

【0077】

サービス・モデルは以下のとおりである：

【0078】

サービスとしてのソフトウェア（ＳｏｆｔｗａｒｅａｓａＳｅｒｖｉｃｅ（ＳａａＳ））：消費者に提供される機能は、クラウド・インフラストラクチャで実行中のプロバイダのアプリケーションを使用することである。アプリケーションは、ウェブ・ブラウザなどのシン・クライアント・インターフェース（例えば、ウェブ・ベースの電子メール）を通じて様々なクライアント・デバイスからアクセス可能である。消費者は、ネットワーク、サーバ、オペレーティング・システム、ストレージ、またはさらには個々のアプリケーション機能を含む基礎となるクラウド・インフラストラクチャを管理または制御することはなく、例外として限定されたユーザ固有のアプリケーション構成設定が可能である。

【0079】

サービスとしてのプラットフォーム（ＰｌａｔｆｏｒｍａｓａＳｅｒｖｉｃｅ（ＰａａＳ））：消費者に提供される機能は、プロバイダによってサポートされるプログラミング言語およびツールを使用して作成された、消費者作成の、または既成のアプリケーションをクラウド・インフラストラクチャ上に展開することである。消費者は、ネットワーク、サーバ、オペレーティング・システム、またはストレージを含む基礎となるクラウド・インフラストラクチャの管理または制御をしないが、展開されたアプリケーション、および場合によっては環境構成をホストするアプリケーションについての制御を有する。

【0080】

サービスとしてのインフラストラクチャ（ＩｎｆｒａｓｔｒｕｃｔｕｒｅａｓａＳｅｒｖｉｃｅ（ＩａａＳ））：消費者に提供される機能は、消費者が任意のソフトウェアを展開および実行することができる処理、ストレージ、ネットワーク、および他の基本的なコンピューティング・リソースをプロビジョニングすることであり、これにはオペレーティング・システムおよびアプリケーションが含まれ得る。消費者は、基礎となるクラウド・インフラストラクチャの管理または制御をしないが、オペレーティング・システム、ストレージ、展開されたアプリケーションの制御、および場合によっては選択ネットワーキング・コンポーネント（例えば、ホスト・ファイヤウォール）の限定された制御を有する。

【0081】

展開モデルは以下のとおりである：

【0082】

プライベート・クラウド：クラウド・インフラストラクチャは、ある組織のためだけに運用される。一実施形態では、その組織またはサード・パーティによって管理され、オンプレミスまたはオフプレミスで存在する。

【0083】

コミュニティ・クラウド：クラウド・インフラストラクチャは、いくつかの組織によって共有され、共有される事案（例えば、ミッション、セキュリティ要件、ポリシ、およびコンプライアンス検討）を有する特定のコミュニティをサポートする。一実施形態では、組織またはサード・パーティによって管理され、オンプレミスまたはオフプレミスで存在する。

【0084】

パブリック・クラウド：クラウド・インフラストラクチャは、一般公衆または大規模な業界団体に対して利用可能とされ、クラウド・サービスを販売する組織によって所有される。

【0085】

ハイブリッド・クラウド：クラウド・インフラストラクチャは、一意なエンティティのままである２つ以上のクラウド（プライベート、コミュニティ、またはパブリック）を組合せたものであるが、データおよびアプリケーションのポータビリティを可能にする標準化された、または専有的な技術（例えば、クラウド間でロード・バランシングを行うためのクラウド・バースト）によって結合される。

【0086】

クラウド・コンピューティング環境は、ステートレス性、低い結合性、モジュール性、および意味論的な相互運用性に焦点を当てたサービス指向である。クラウド・コンピューティングの中心は、相互接続されたノードのネットワークを含むインフラストラクチャである。

【0087】

図７は、本発明の実施形態による、クラウド・コンピューティング環境５０の図である。示されるように、一実施形態では、クラウド・コンピューティング環境５０は、例えば、携帯情報端末（ＰＤＡ）もしくは携帯電話５４Ａ、デスクトップ・コンピュータ５４Ｂ、ラップトップ・コンピュータ５４Ｃ、または自動車コンピュータ・システム５４Ｎあるいはその組合せなど、クラウドの消費者によって使用されるローカルのコンピューティング・デバイスと通信する１つまたは複数のクラウド・コンピューティング・ノード１０を含む。一実施形態では、ノード１０は互いに通信する。一実施形態では、これらは、本明細書において上述したようなプライベート、コミュニティ、パブリック、もしくはハイブリッドのクラウド、またはそれらの組合せなど、１つまたは複数のネットワークにおいて、物理的または仮想的にグループ化される（図示せず）。これにより、クラウド・コンピューティング環境５０は、クラウドの消費者がローカルのコンピューティング・デバイスでリソースを維持する必要がない、インフラストラクチャ、プラットフォーム、またはソフトウェアあるいはその組合せをサービスとして提供することができる。図５に示されるコンピューティング・デバイス５４Ａ～Ｎのタイプは、単に例示的であることを意図されており、コンピューティング・ノード１０およびクラウド・コンピューティング環境５０は、あらゆるタイプのネットワーク上またはネットワーク・アドレス可能接続で（例えば、ウェブ・ブラウザを使用して）あるいはその両方で、あらゆるタイプのコンピュータ化されたデバイスと通信することができることが理解されよう。

【0088】

図８は、本発明の実施形態による、クラウド・コンピューティング環境５０によって提供される機能的な抽象レイヤのセットを示す図である。図８に示されるコンポーネント、レイヤ、および機能は、単に例示的であることを意図されており、本発明の実施形態はそれに限定されないことが、予め理解されるべきである。描かれるように、以下のレイヤおよび対応する機能が提供される：

【0089】

ハードウェアおよびソフトウェア・レイヤ６０は、ハードウェアおよびソフトウェア・コンポーネントを含む。ハードウェア・コンポーネントの例として、以下が挙げられる：メインフレーム６１、ＲＩＳＣ（縮小命令セット・コンピュータ）アーキテクチャ・ベースのサーバ６２、サーバ６３、ブレード・サーバ６４、ストレージ・デバイス６５、ならびにネットワークおよびネットワーキング・コンポーネント６６。いくつかの実施形態において、ソフトウェア・コンポーネントとしては、ネットワーク・アプリケーション・サーバ・ソフトウェア６７、およびデータベース・ソフトウェア６８が挙げられる。

【0090】

一実施形態では、仮想化レイヤ７０は、仮想エンティティの以下の例が提供される抽象化レイヤを提供する：仮想サーバ７１、仮想ストレージ７２、仮想プライベート・ネットワークを含む仮想ネットワーク７３、仮想アプリケーションおよびオペレーティング・システム７４、ならびに仮想クライアント７５。

【0091】

一実施形態では、管理レイヤ８０は以下で説明される機能を提供する。リソース・プロビジョニング８１は、コンピューティング・リソースおよびクラウド・コンピューティング環境内でタスクを実施するために利用される他のリソースの、動的な調達を提供する。計測および課金８２は、クラウド・コンピューティング環境内でリソースが利用される際のコスト追跡、およびこれらのリソースの消費についての課金または請求書発行を提供する。一実施形態では、これらのリソースはアプリケーション・ソフトウェア・ライセンスを含む。セキュリティは、クラウド消費者およびタスクについての識別情報の検証、ならびにデータおよび他のリソースについての保護を与える。ユーザ・ポータル８３は、クラウド・コンピューティング環境へのアクセスを消費者およびシステム管理者に提供する。サービス水準管理８４は、要求されるサービス水準が満たされるように、クラウド・コンピューティング・リソース割り当ておよび管理を提供する。サービス水準合意（ＳＬＡ）計画および遂行８５は、ＳＬＡに従って将来的な要求が予期されるクラウド・コンピューティング・リソースについての事前申し合わせ、およびクラウド・コンピューティング・リソースの調達を提供する。

【0092】

一実施形態では、ワークロード・レイヤ９０は、クラウド・コンピューティング環境が利用される機能性の例を提供する。一実施形態では、このレイヤからもたらされるワークロードおよび機能の例として以下が挙げられる：マッピングおよびナビゲーション９１、ソフトウェア開発およびライフサイクル管理９２、仮想授業教育配信９３、データ・アナリティクス処理９４、トランザクション処理９５、およびＡＩ９６（例えば、適応的でマルチモーダルな学習システム３３０（図１））。

【0093】

図９は、本発明の一実施形態を実装するのに有用な情報処理システム７００を示す、高次ブロック図である。コンピュータ・システムは、プロセッサ７０２などの１つまたは複数のプロセッサを含む。プロセッサ７０２は、通信インフラストラクチャ７０４（例えば、通信バス、クロスオーバ・バー、またはネットワーク）に接続される。

【0094】

コンピュータ・システムは、グラフィック、テキスト、および他のデータを、ディスプレイ・ユニット７０８での表示用に音声通信インフラストラクチャ７０４から（または、図示されないフレーム・バッファから）転送する、ディスプレイ・インターフェース７０６を含むことができる。一実施形態では、コンピュータ・システムはまた、主メモリ７１０、好ましくはランダム・アクセス・メモリ（ＲＡＭ）を含み、また二次メモリ７１２も含む。一実施形態では、二次メモリ７１２は、例えばハード・ディスク・ドライブ７１４または、例えばフロッピ・ディスク・ドライブ、磁気テープ・ドライブ、もしくは光ディスク・ドライブを表すリムーバブルのストレージ・ドライブ７１６あるいはその両方を含む。リムーバブルのストレージ・ドライブ７１６は、当業者によく知られたやり方で、リムーバブルのストレージ・ユニット７１８から／へ読み取りまたは書込みあるいはその両方を行う。リムーバブルのストレージ・ユニット７１８は、リムーバブルのストレージ・ドライブ７１６によって読み取られ、またリムーバブルのストレージ・ドライブ７１６に書き込まれる、例えばフロッピ・ディスク、コンパクト・ディスク、磁気テープ、または光学ディスクなどを表す。諒解されるように、リムーバブルのストレージ・ユニット７１８は、コンピュータ・ソフトウェアまたはデータあるいはその両方が記憶されたコンピュータ可読媒体を含む。

【0095】

代替的な実施形態では、二次メモリ７１２は、コンピュータ・プログラムまたは他の命令をコンピュータ・システムにロードできるようにするための他の類似の手段を含む。そのような手段としては、例えばリムーバブルのストレージ・ユニット７２０およびインターフェース７２２が挙げられる。そのような手段の例としては、プログラム・パッケージおよびパッケージ・インターフェース（ビデオ・ゲーム機に見られるようなもの）、リムーバブルのメモリ・チップ（ＥＰＲＯＭまたはＰＲＯＭなど）と関連ソケット、および他のリムーバブルのストレージ・ユニット７２０とインターフェース７２２が挙げられ、これらはソフトウェアおよびデータをリムーバブルのストレージ・ユニット７２０からコンピュータ・システムに移動できるようにする。

【0096】

一実施形態では、コンピュータ・システムはまた、通信インターフェース７２４を含む。通信インターフェース７２４は、ソフトウェアとデータをコンピュータ・システムと外部デバイスとの間で移動できるようにする。一実施形態では、通信インターフェース７２４の例としては、モデム、ネットワーク・インターフェース（イーサネット（Ｒ）・カードなど）、通信ポート、またはＰＣＭＣＩＡスロットおよびカードなどが挙げられる。一実施形態では、通信インターフェース７２４を介して移動されるソフトウェアおよびデータは、通信インターフェース７２４によって受信することが可能な、例えば電子信号、電磁信号、光信号、または他の信号の形態である。これらの信号は、通信パス（すなわち、チャネル）７２６を介して通信インターフェース７２４に提供される。一実施形態では、この通信パス７２６は信号を搬送し、電線もしくはケーブル、光ファイバ、電話線、携帯電話リンク、ＲＦリンク、または他の通信チャネルあるいはその組合せを使用して実装される。

【0097】

本発明の実施形態は、あらゆる可能な統合の技術的詳細レベルにおける、システム、方法、またはコンピュータ・プログラム製品あるいはその組合せであってもよい。コンピュータ・プログラム製品は、プロセッサに本発明の実施形態の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体（複数可）を含むことができる。

【0098】

コンピュータ可読記憶媒体は、命令実行デバイスによる使用のための命令を保持および記憶することができる有形のデバイスであり得る。コンピュータ可読記憶媒体は、例えば、電子ストレージ・デバイス、磁気ストレージ・デバイス、光学ストレージ・デバイス、電磁気ストレージ・デバイス、半導体ストレージ・デバイスまたは前述のあらゆる好適な組合せであってもよいが、それに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的な列挙としては、以下が挙げられる：ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュ・メモリ）、静的ランダム・アクセス・メモリ（ＳＲＡＭ）、ポータブル・コンパクト・ディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、デジタル・バーサタイル・ディスク（ＤＶＤ）、メモリ・スティック、フロッピ（Ｒ）・ディスク、命令が記録されたパンチカードまたは溝に刻まれた構造などの機械的にエンコードされたデバイス、および前述のあらゆる好適な組合せ。本明細書において使用される場合、コンピュータ可読記憶媒体は、電波もしくは他の自由に伝搬する電磁波、導波路もしくは他の伝送媒体を介して伝搬する電磁波（例えば、光ファイバ・ケーブルを通過する光パルス）、または電線を介して伝送される電気的信号など、一過性の信号そのものであると解釈されてはならない。

【0099】

本明細書において説明されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から個別のコンピューティング／処理デバイスに、あるいは、例えばインターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワークもしくは無線ネットワークまたはその組合せなどのネットワークを介して、外部のコンピュータまたは外部のストレージ・デバイスに、ダウンロードすることができる。ネットワークは、銅の伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイヤウォール、スイッチ、ゲートウェイ・コンピュータまたはエッジ・サーバあるいはその組合せを含むことができる。それぞれのコンピューティング／処理デバイスのネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、個別のコンピューティング／処理デバイス内のコンピュータ可読記憶媒体に記憶するためにコンピュータ可読プログラム命令を転送する。

【0100】

本発明の実施形態の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路用の設定データ、あるいはスモールトーク（Ｒ）、Ｃ＋＋などのオブジェクト指向プログラミング言語、および「Ｃ」プログラミング言語などの手続き型プログラミング言語もしくは類似するプログラミング言語を含む１つまたは複数のプログラミング言語のあらゆる組合せで記述された、ソース・コードまたはオブジェクト・コードのいずれかであってもよい。コンピュータ可読プログラム命令は、すべてユーザのコンピュータ上で、一部はユーザのコンピュータ上でスタンドアロンのソフトウェア・パッケージとして、一部はユーザのコンピュータ上および一部はリモート・コンピュータ上で、またはすべてリモート・コンピュータ上もしくはサーバ上で、実行することができる。後者のシナリオにおいて、遠隔のコンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）もしくはワイド・エリア・ネットワーク（ＷＡＮ）を含むあらゆるタイプのネットワークを介してユーザのコンピュータに接続することができ、または接続は（例えば、インターネット・サービス・プロバイダを使用してインターネットを通じて）外部のコンピュータに対してなされてもよい。一部の実施形態において、例えば、プログラマブル・ロジック回路、フィールドプログラマブル・ゲート・アレイ（ＦＰＧＡ）、またはプログラマブル・ロジック・アレイ（ＰＬＡ）を含む電子回路は、本発明の実施形態の態様を実施するために、コンピュータ可読プログラム命令の状態情報を利用することによってコンピュータ可読プログラム命令を実行して、電子回路を個別化することができる。

【0101】

本発明の実施形態の態様は、本明細書では、本発明の実施形態による方法、装置（システム）、およびコンピュータ・プログラム製品のフローチャート図またはブロック図あるいはその両方を参照しながら説明される。フローチャート図またはブロック図あるいはその両方のそれぞれのブロック、およびフローチャート図またはブロック図あるいはその両方におけるブロックの組合せは、コンピュータ可読プログラム命令によって実装されることが理解されよう。

【0102】

これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラマブル・データ処理装置のプロセッサを介して実行する命令が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックに指定される機能／作用を実装する手段を作成すべく、コンピュータ、または他のプログラマブル・データ処理装置のプロセッサに提供されて機械を作るものであってよい。これらのコンピュータ可読プログラム命令はまた、命令が記憶されているコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックに指定される機能／作用の態様を実装するための命令を含む製造物品を備えるべく、コンピュータ、プログラマブル・データ処理装置、または他のデバイスあるいはその組合せに特定のやり方で機能するように指示することができるコンピュータ可読記憶媒体に記憶されてもよい。

【0103】

コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラマブル装置、または他のデバイスで実行する命令が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックに指定される機能／作用を実装するように、コンピュータ実装プロセスを作るべく、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイス上にロードされ、コンピュータ、他のプログラマブル装置、または他のデバイス上で一連の動作ステップを実施させるものであってもよい。

【0104】

図面中のフローチャートおよびブロック図は、本発明の様々な実施形態に従って、システム、方法、およびコンピュータ・プログラム製品の可能な実装形態の、アーキテクチャ、機能、および動作を図示している。この点において、フローチャートまたはブロック図のそれぞれのブロックは、指定される論理機能を実装するための１つまたは複数の実行可能な命令を含む、命令のモジュール、セグメント、または部分を表現することができる。一部の代替的な実装形態では、ブロックで示される機能は図面で示した順とは異なって発生してもよい。例えば、連続して示される２つのブロックは、実際には１つのステップとして遂行されてもよく、同時に、実質的に同時に、部分的もしくは全体的に時間的に重なるやり方で実行されてもよく、またはブロックは関与する機能性によっては、時に逆の順で実行されてもよい。ブロック図またはフローチャート図あるいはその両方のそれぞれのブロック、およびブロック図またはフローチャート図あるいはその両方のブロックの組合せは、指定される機能もしくは作用を実施する、または特殊目的ハードウェアとコンピュータ命令との組合せを実行する、特殊目的ハードウェア・ベースのシステムによって実装されることにも留意されたい。

【0105】

上記説明より、本発明の実施形態が、本発明の実施形態を実装するための、システム、コンピュータ・プログラム製品、および方法を提供することが分かる。本発明の実施形態は、本発明の実施形態を実装するための非一過性のコンピュータ使用可能記憶媒体をさらに提供する。非一過性のコンピュータ使用可能記憶媒体は、コンピュータ可読プログラムを有し、このプログラムはコンピュータ上で処理されると、そのコンピュータに本明細書において説明される本発明の実施形態のステップを実施させる。特許請求項において単数形の要素への言及は、明示的にそのように述べられない限りは「１つだけ」を意味するように意図されておらず、むしろ「１つまたは複数」を意味するように意図されている。当業者に現在既知のまたは後に知られることになる、上述の例示的な実施形態の要素へのすべての構造的および機能的な等価物は、本特許請求項によって包含されるよう意図されている。本明細書におけるいかなる特許請求の要素も、要素が「のための手段（ｍｅａｎｓｆｏｒ）」または「のためのステップ（ｓｔｅｐｆｏｒ）」という表現を用いて明示的に述べられない限り、米国特許法第１１２条第６段落の規定の下で解釈されてはならない。

【0106】

本明細書で使用される用語は、特定の本発明の実施形態を説明することだけを目的としており、限定的であることを意図されていない。本明細書で使用される場合、コンテキストが明確にそうではないと指示しない限り、単数形「１つの（ａ）」、「１つの（ａｎ）」および「その（ｔｈｅ）」は複数形を同様に含むように意図されている。用語「を含む（ｃｏｍｐｒｉｓｅ）」または「を含む（ｃｏｍｐｒｉｓｉｎｇ）」あるいはその両方は、本明細書で使用される場合、述べられた特徴、整数、ステップ、動作、要素、またはコンポーネントあるいはその組合せの存在を明示するが、１つまたは複数の他の特徴、整数、ステップ、動作、要素、コンポーネントまたはそのグループあるいはその組合せの、存在または追加を排除しないことが、さらに理解されよう。

【0107】

以下の特許請求の範囲におけるすべての手段またはステップ・プラス・ファンクション要素の対応する構造体、材料、作用、および等価物は、具体的に特許請求されるように、他の特許請求される要素と組合せて機能を実施するための、あらゆる構造体、材料、または作用を含むことを意図されている。

【0108】

例示を目的として本発明の様々な実施形態の説明を提示してきたが、網羅的であること、または開示された実施形態に限定することは意図されていない。説明された実施形態の範囲から逸脱することなく、多くの変更形態および変形形態が当業者にとって明らかとなろう。本明細書において使用される用語法は、実施形態の原理、実践的な用途もしくは市場で見られる技術より優れた技術的な改善を最良に説明するため、または当業者の他の者が本明細書において開示される実施形態を理解できるように選ばれたものである。

【図1】