【文献】
REN,Mengye、他2名,Exploring Models and Data for Image Question Answering,arXiv,米国,Cornell University Library,2015年 6月25日,1505.02074v3,pp.1-11,URL,https://arxiv.org/pdf/1505.02074v3.pdf
【文献】
MALINOWSKI, Mateusz、他2名,Ask Your Neurons: A Neural-based Approach to Answering Questions about Images,arXix,米国,Cornell University Library,2015年10月 1日,150501121v3,pp.1-9,URL,https://arxiv.org/pdf/1505.01121v3.pdf
【文献】
ANTOL, Stanislaw、他6名,VQA:Visual Question Answering,arXiv,米国,Cornell University Library,2015年10月15日,1505.00468v3,pp.1-16,URL,https://arxiv.org/pdf/1505.00468v3.pdf
(58)【調査した分野】(Int.Cl.,DB名)
前記質問ガイド注目マップ生成部は、設定可能な畳み込みカーネルを含み、前記設定可能な畳み込みカーネルが、前記質問埋め込みを意味空間から視覚空間に射影することによって生成され、前記画像特徴マップと畳み込んで前記質問でガイドされた注目マップを生成することに用いられる
ことを特徴とする請求項1に記載のコンピュータ実施方法。
前記空間的に重み付けることは、前記画像特徴マップと前記質問でガイドされた注目マップの各チャンネル間の要素ごとの積によって実現される請求項12に記載の方法。
【発明を実施するための形態】
【0009】
以下の説明では、解釈のために、細部を説明して本発明の理解を与える。なお、当業者にとっては、これらの細部がない場合でも本発明を実施できることが明らかである。また、本発明の下記実施形態を、プロセス、装置、システム、機器又は手段のような様々な方式で非一時的コンピュータ可読媒体において実施できることを当業者は理解すべきである。
【0010】
図面に示す構成要素又はモジュールは本出願の例示的な実施形態の説明であり、本出願の混乱を避けるためものである。理解すべきであることは、明細書全体において、構成要素が単独な機能ユニット(サブユニットを含んでもよい)と記述されてもよいが、当業者は、各構成要素又はその部材が単独な構成要素に区分されることができ、又は統合される(単一のシステム又は構成要素の内部に集積されることを含む)ことができることを認識すべきである。本文に議論された機能又は操作が構成要素として実現されることができることを理解すべきである。なお、本明細書で論述される機能又は操作は構成要素として実施してもよい。構成要素はソフトウェア、ハードウェア、又はそれらの組み合わせで実施してもよい。
【0011】
なお、図面内の構成要素又はシステムの間の接続は直接接続に限定されない。より具体的には、これらの校正要素の間のデータは中間校正要素で変更され、再フォーマットされ、又は他の方式で改変されてもよい。また、付加的接続又はより少ない接続を利用してもよい。また、用語「連結」、「接続」又は「通信連結」が直接接続、1つ又は複数の中間設備で実現される非直接接続及び無線接続を含むことを理解すべきである。
【0012】
明細書において、「1つの実施形態」、「好ましい実施形態」、「実施形態」又は「各実施形態」とは、実施形態を合わせて説明した具体的な特徴、構造、特性又は機能が本出願の少なくとも1つの実施形態に含まれ、且つ1つの以上の実施形態に存在してもよいことを意味する。また、本明細書における複数の箇所において、上記フレーズは必ずしもすべて同一の1つ又は複数の実施形態を参照しない。
【0013】
明細書における各箇所において、一部の用語の使用は例示するためであり、限定と解釈されるべきではない。サービス、機能又はリソースは単一のサービス、機能又はリソースに限定されず、これら用語の使用は、関連サービス、機能又はリソースの分散又は集約型のグループ化も意味することができる。用語「含む」、「含んでいる」、「備える」、「備えている」は、オープンエンドの用語と理解すべきであり、その後にリストされるいかなる内容は例示だけであり、リストされる項目に限定されることを意味しない。用語「画像」は静的画像又はビデオ画像を含む。本明細書で用いられている見出しは全て構成上の目的だけであり、明細書又は特許請求の範囲を限定するものではないと理解すべきである。本特許で言及される全ての参照文献は全文として援用することによって本明細書に組み込まれる。
【0014】
更に、(1)一部のステップが選択的に実施されてもよい、(2)ステップは本明細書で説明される特定順番に制限されなくてもよい、(3)一部のステップは異なる順番で実行してもよい、及び(4)一部のステップは同時に実行してもよいことを、当業者が理解すべきである。
【0015】
A.
紹介
視覚質問応答(VQA)はコンピュータ視覚化、自然言語処理及び機械学習の積極的な学際的研究分野である。画像及び画像に関連する自然言語の質問を提供して、VQAは自然言語文で質問を回答する。VQAは人工知能を構築する基本的なステップだけでなく、多数のアプリケーション(例えば画像検索、視覚障害者ナビゲーションや早期幼児教育)にも非常に重要である。VQAは挑戦的な作業であり、それは画像を深く理解するのに複雑な計算視覚技術が必要であり、更に質問の意味を抽出するのに先進的な自然言語処理技術が必要であり、且つ視覚情報と意味情報を効果的に統合するのに統一されたフレームワークが必要であるためである。
【0016】
従来、ほとんどの従来技術のVQAモデルは、視覚部分、自然言語部分及び解答生成部分を含む。視覚部分は、深層畳み込みニューラルネットワーク(CNN)(例えばY・A・レソン(Y.A.LeCun)、L・ボットウ(L.Bottou)、G・B・オル(G.B.Orr)及びK・R・ミュラー(K.R.Muller)の、「効果的なBackProp」(Efficient Backprop)、『ニューラルネットワーク:コツ』(Neural networks: Tricks of the trade))、ページ9〜48、スプリンガー社(Springer)、2012を参照)又は従来の視覚特徴抽出器を使用して入力画像から視覚特徴を抽出する。自然言語部分は、Bag−of−Wordモデル又はリカレントニューラルネットワーク(RNN)(例えばS・ホッホライ(S.Hochreiter)とJ・シュミットヒューバー(J.Schmidhuber)の、「長期短期記憶(Long short−term memory)」、『ニューラル計算』(Neural computation)、9(8):1735〜1780、1997を参照)モデルを使用して密集質問埋め込み(dense question embedding)を学習して質問の意味をコーディングする。解答生成部分は、視覚的特徴と質問埋め込みが提供された条件下で解答を生成する。解答は、マルチクラス分類器で生成された単語解答でもよく、別のRNNデコーダーで生成された完全文でもよい。グローバル視覚的特徴と密集質問埋め込みは、線形/非線形結合射影によって統合されることができる。このような統合は通常視覚部分と質問理解部分の間の関係を十分に活用できない。
【0017】
本明細書では、統一されたフレームワークとして新規な注目に基づく設定可能な畳み込みニューラルネットワーク(ABC−CNN)の実施形態を提供し、VQAの視覚情報と意味情報を統合する。人は画像に関連する質問を回答する時に、回答する前に質問の意図に基づく情報領域に注意を合わせる傾向がある。例えば、
図1中、「コートが何色ですか?」と聞かれたら、コートの色を判断して解答を出す前にコートの領域を見つけるのが一般的である。当該当領域を見つけるメカニズムは質問でガイドされた注目と呼ばれ、これら領域は画像及び画像に関連する質問の両方で決定されるためである。
【0018】
画像及び画像に関連する質問が提供された条件下で、提案されたフレームワークは自然言語解答を生成するだけでなく、質問でガイドされた注目情報を質問を回答するための重要な証拠として提供する。実施形態では、VQAタスクは単語解答を取るが、実施形態は例えばRNNデコーダーで完全文を生成するように簡単に拡張できる。
【0019】
これら質問を処理するために、注目に基づく設定可能な畳み込みニューラルネットワーク(ABC−CNN)が提案された。本出願のいくつかの実施形態に係る例示的なABC−CNNフレームワーク200は
図2に示される。ABC−CNNフレームワークは、視覚部分(画像特徴マップ抽出部分とも呼ばれる)、質問理解部分、解答生成部分及び注目抽出部分を含む。図示した実施形態において、ボックス205は視覚部分又は視覚構成要素、ボックス210は質問理解部分又は質問理解構成要素、ボックス215は設定可能な畳み込みを有する注目抽出部分又は注目抽出構成要素、ボックス220は注目重み付け画像特徴マップ222に対してマルチクラス分類を応用する解答生成部分又は解答生成構成要素を示す。
【0020】
実施形態において、畳み込みニューラルネットワーク(CNN)207は視覚部分から視覚的特徴を抽出することに用いられる。シングルグローバル視覚的特徴を抽出する代わりに、スライドウィンドウにおいてCNNを応用したり、完全畳み込みニューラルネットワークを利用したりすることで、空間特徴マップを抽出して重要な空間的情報を保留する。実施形態において、長期短期記憶(LSTM)モデル214は質問理解部分において質問埋め込み212を取得ることに用いられ、且つ、マルチクラス分類器は解答生成部分において解答を生成することに用いられる。視覚部分と質問理解部分は質問でガイドされた注目を活用させることで統合される。
【0021】
実施形態において、質問でガイドされた注目情報は注目抽出部分215において質問でガイドされた注目マップ218として示され、注目抽出部分215はABC−CNNフレームワークのコアである。それは設定可能な畳み込みニューラルネットワークによって実現されるものであり、畳み込みカーネル216は質問埋め込みを意味空間から視覚空間に射影することによって生成される。設定可能な畳み込みカーネルは質問意味に基づいて決定された視覚情報に対応する。例えば、
図1において、質問「傘が何色ですか?」は「傘」の視覚的特徴に対応した畳み込みカーネルを生成する。設定可能な畳み込みカーネルと画像特徴マップとの畳み込みは適応的に各領域の与えられた質問の応答に対する重要性を質問でガイドされた注目マップ218として表示する。質問でガイドされた注目マップ218は空間的に視覚的特徴マップを重みづけて、ノイズと独立した情報をフィルタリングすることに用いられる。実施形態において、ABC−CNNは、画像における注目領域に対する手動ラベリングを一切必要とせずに画像と言語理解を効果的に統合してエンドツーエンドの方式で訓練されることができる、統一されたフレームワークである。
【0022】
実験では、本出願によるABC−CNNアーキテクチャの実施形態は三つの基準VQAデータセットについて評価され、即ち:Toronto COCOQA(M・レン(M.Ren)、R・キロス(R.Kiros)及びR・ゼメル(R.Zemel)の、「画像質問応答用のモデル及びデータの探索」(Exploring models and data for image question answering)、arXiv:1505.02074.2015を参照)、DAQUAR(M・マリナウスキ(M.Malinowski)とM・フリツー(M.Fritz)の、「不確定な入力に基づいて実世界のシーンについての質問応答を行う多世界性アプローチ」(A multi−world approach to question answering about real−world scenes based on uncertain input)、『ニューラル情報処理システムの発展』(Advances in Neural Information Processing Systems)、ページ1682〜1690、2014を参照)、及びVQA(S・アントール(S.Antol)、A・アグラワール(A.Agrawal)、J・ルー(J.Lu)、M・ミッチェル(M.Mitchell)、D・バトラ(D.Batra)、C・L・ジットニック(C.L.Zitnick)及びD・パリーク(D.Parikh)の、「VQA:視覚質問応答」(VQA:Visual question answering)、arXivプレプリントarXiv:1505.00468、2015を参照)。実験から明らかなように、ABC−CNNフレームワークは従来の技術方法より遥かに優れる。視覚化は、ABC−CNNアーキテクチャが質問で質問される領域をよく反映する注目マップを生成できることを実証する。
【0023】
要約すれば、統一されたABC−CNNフレームワークは質問でガイドされた注目によって視覚情報と意味情報を効果的に統合してVQAに用いるものとして開示される。質問でガイドされた注目はVQAシステムの性能を著しく改良するだけでなく、質問応答過程を更に良く理解することに寄与する。
【0024】
B.
関連作業
VQA&画像キャプション:この二つの質問は視覚的内容の推論及び自然言語の結果の表示の点について類似性が存在する。VQA及び画像キャプションについての従来の最先端の方法はCNNで視覚的特徴を抽出し且つLSTMモデルをデコーダーとして解答又はキャプションを生成する傾向がある。一部の方法はLSTMデコーダーに解答又はキャプションが生成される期間においてマルチモデルレイヤを使用して結合射影によって視覚的特徴と単語埋め込みベクトルを組み合わせる。ほかの方法の少なくとも一種(P・セルマネット(P.Sermanet)、A・フローム(A.Frome)及びE・リール(E.Real)の、「精細分類用の注目」(Attention for fine−grained categorization)、arXivプレプリントXiv:1412.7054、2014を参照)は射影された画像特徴をLSTMデコーダーの初期状態とし、これはシーケンスツーシーケンス学習(I・スツケベル(I.Sutskever)、O・ビニャルス(O.Vinyals)及びQ・V・リ(Q.V.Le)の、「ニューラルネットワークを用いるシーケンス−シーケンス学習」(Sequence to sequence learning with neural networks)、『ニューラル情報処理システムの発展』(Advances in neural information processing systems)、ページ3104-3112、2014を参照)におけるコーデック−デコーダーフレームワークに類似する。画像特徴をグローバル視覚的特徴として処理する場合、質問中の有用な情報を活用してこれらの注目を画像における対応領域に合わせることができない。
【0025】
注目モデル:注目モデルは、対象検出、精細画像分類、精細視覚認識及び画像キャプションを含む多数のコンピュータ視覚タスクに用いている。注目情報は画像中の注目領域シーケンスとしてモデリングできる。リカレントニューラルネットワークはカレント注目領域の位置及び視覚的特徴に基づいて次の注目領域を予測することに用いる。当該フレームワークをそれぞれ対象認識、対象検出及び精細対象認識に用いることがある。更に、画像キャプション用の注目に基づくモデルが開発されており、当該モデルはリカレントニューラルネットワークを生成器とすることで、文の異なる単語を生成する時に、モデルはその注目を異なる画像領域に合わせる。前記モデルは各画像における一組の提案領域を抽出し、且つ注目重みは復号化LSTM生成器の隠れ状態と各提案領域から抽出された視覚的特徴によって学習される。一つの場合では(T・Y・リン(T.Y.Lin)、A・ロイ・チョードリー(A.Roy Chowdhury)及びS・マジ(S.Maji)の、「精細視覚認識用の双線形CNNモデル」(Bilinear CNN models for fine−grained visual recognition)、arXivプレプリントarXiv:1504.07889、2015を参照)、双線形CNN構造が位置とコンテンツを組み合わせて精細画像分類に用いることが提案されている。注目がこれらの視覚タスクに成功的に応用されることに示唆され、ABC−CNNは質問でガイドされた注目を使用してVQAの性能を改良する。
【0026】
設定可能な畳み込みニューラルネットワーク:小範囲天気予報用の動的畳み込みアーキテクチャ(B・クライン(B.Klein)、L・ウルフ(L.Wolf)及びY・クライン(Y.クライン)の、「小範囲天気予報用の動的畳み込みアーキテクチャ」A dynamic convolutional layer for short range weather prediction)、『IEEEコンピュータ視覚及びパターン認識プロシーディング』(Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition)ページ4840〜4848、2015を参照)が提案された。動的畳み込みレイヤ中の畳み込みカーネルはニューラルネットワークによって前の時間ステップで天気画像情報をコーディングすることによって決定される。VQAでは、注目領域を決定するための最も重要な手がかりは質問である。従って、ABC−CNNフレームワークの実施形態における設定可能な畳み込みカーネルは質問埋め込みによって決定される。
【0027】
C.
注目に基づく設定可能なCNN
図2にはABC−CNNフレームワークの実施形態が示される。実施形態において、単語解答を有するQAペアは本明細書の主な例であり、それはタスクがマルチクラス分類の問題とみなされてよいためであり、それによって評価指標を簡略化させるとともに質問でガイドされた注目モデルの開発に焦点を合わせることを可能にする。しなしながら、注目モデルの実施形態は、マルチクラス分類モデルの代わりとしてLSTMデコーダーを使用して多単語文を生成して解答とするように簡単に広げられる。
【0028】
図2に示されるように、図示したABC−CNN実施形態は、画像特徴抽出部分205、質問理解部分210、注目抽出部分215及び解答生成部分220の四つの構成要素を含む。画像特徴抽出部分205では、実施形態において、深層畳み込みニューラルネットワーク207はそれぞれの画像に対して画像特徴マップI 208を抽出して画像表示とする。実施形態において、1000クラスImageNet分類挑戦2012データセット(J・とう(J.Deng)、W・董(W.Dong)、R・ソッチ(R.Socher)、L・J・李(L.−J.Li)、K・李(K.Li)及び李菲菲(L.Fei−Fei)の、「画像ネットワーク:大規模階層型データベース」(A large−scale hierarchical image database)、『IEEEコンピュータ視覚及びパターン認識2009 CVPR2009プロシーディング』(Computer Vision and Pattern Recognition, 2009.CVPR2009.IEEE Conference on)、ページ248-255、IEEE、2009を参照)において予め訓練されたVGG−19深層畳み込みニューラルネットワーク(K・シモンヤン(K.Simonyan)とA・ジッセルマン(A.Zisserman)の、「大規模画像認識用の非常に深い畳み込みネットワーク」(A very deep convolutional networks for large−scale image recognition)、arXivプレプリント)arXiv:1409.1556、2014を参照)、及びPASCAL 2007セグメンテーションデータセットにおいて予め訓練された完全畳み込み分割ニューラルネットワーク(L・C・陳(L.C.Chen)、G・パパンドレウ(G.Papandreou)、I・コッキンノス(I.Kokkinos)、A・K・マーフィー(K.Murphy)及びA・L・ユール(A.L.Yuille)の、「深層畳み込みネットワークと完全に接続されたCRFSを用いるセマンティクス画像分割」(Semantic image segmentation with deep convolutional nets and fully connected CRFS)、arXivプレプリントarXiv:1412.7062、2014を参照)が使用される。実施形態において、質問理解部分210はLSTMレイヤ214を使用して密集質問埋め込みs213を学習して、画像に関連する質問の意味情報をコーディングする。実施形態において、ABC−CNNフレームワークのコア構成要素は注目抽出部分215である。実施形態において、注目抽出部分は密集質問埋め込みに基づき一組の畳み込みカーネル216が設置される。問題において質問される対象を特徴付けする視覚的特徴の畳み込みカーネル216は画像特徴マップ208に用いられて、質問でガイドされた注目マップ218を生成する。実施形態において、画像特徴マップI208、注目重み付け画像特徴マップ222及び密集質問埋め込み213の融合による改良に基づき、解答生成部分220はマルチクラス分類器で質問を回答する。本章の残り部分では、ABC−CNNフレームワークの各構成要素の実施形態を詳細に説明する。
【0029】
1.
注目抽出
実施形態において、質問でガイドされた注目マップm(問題で質問される画像領域を反映する)は設定可能な畳み込みニューラルネットワークで各画像−質問ペアから生成される。設定可能な畳み込みニューラルネットワークにおける畳み込みカーネルは密集質問埋め込みsに基づいて密集質問埋め込みsを意味空間から視覚空間に射影することで設定されることができる。
【数1】
ただし、σ(.)はsigmoid関数である。
【0030】
実施形態において、密集質問表現sは問題で質問されるセマンティクス対象情報をコーディングする。実施形態において、射影が意味情報を対応した視覚情報に変換して、画像特徴マップIの数と同じチャンネルを有する質問で設定されたカーネルとする。例えば、質問が「傘が何色ですか?」であれば、質問で設定されたカーネルkは傘の視覚的特徴すべきある。
【0031】
実施形態において、質問でガイドされた注目マップは質問で設定されたカーネルkを画像特徴マップIに応用することで生成されることができる。
【数2】
ただし、m
ijは位置(i,j)での質問でガイドされた注目の要素であり、且つ符号*は畳み込み演算を示す。実施形態において、Softmax正規化は空間注目分布を発生させて質問でガイドされたマップとする。実施形態において、畳み込みは注目マップmが画像特徴マップIと同じサイズを有することを確保するために埋め込まれる。質問でガイドされた注目マップは問題で質問される領域に集中する。例えば、質問「傘が何色ですか?」によれば、画像中の傘領域に集中する注目マップを生成でき、それは畳み込みカーネルは質問に応じて傘の視覚的特徴として設定されるためである。
【0032】
以下の原因で、注目マップmを使用することによって、すべての四種類の質問について質問応答の正確度は改善できる。
・ カウント質問として、例えば「対象にいくつかの自動車があるか?」について、注目マップは無関係の領域をフィルタリングすることによって、画像中の対象の数を簡単に推定することを可能にさせる。
・ 色の質問として、例えば「コートが何色ですか?」について、関連対象に焦点を合わせることで特定対象の色は更に効果的に応答されることができる。
・ 対象質問として、例えば「机の上に何が置かれていますか?」について、注目マップは関連性が低い領域、例えば背景をフィルタリングして、且つ空間関係に基づいて対象を見付けるより有益な位置が推測されることができる。
・ 位置質問として、例えば「画像中の自動車がどこにありますか?」について、注目マップが対象の画像での位置を明らかに説明するため、正確な解答を生成するのに重要である。
【0033】
2.
質問理解
質問理解は視覚質問応答に対して重要なことである。質問の意味論的意味は解答生成に最も重要な手がかりを提供するだけでなく、設定可能な畳み込みカーネルを確定して注目マップを生成するのに用いられることができる。
【0034】
最近、長期短期記憶(LSTM)モデルが言語理解について効率よく作用できることが明らかになる。実施形態において、LSTMモデルは密集質問埋め込みを生成して質問の意味論的意味を特徴付けするのに用いられる。実施形態において、質問qはまず単語列{v
t}にトークン化される。実施形態において、すべての大文字が小文字に変換され、且つすべての句読点が削除される。訓練セットにおいて現れるがテストセットにおいて現れていない単語は特殊な符号(例えば#OOV#)で置換され、且つ特殊符号#B#と#E#はシーケンスの先頭とシーケンスの末端に追加されている。質問辞書に基づき、それぞれの単語は密集単語埋め込みベクトルとして示される。実施形態において、LSTMは単語埋め込みシーケンスに用いてメモリゲート(memory gate)c
tと忘却ゲート(forget gate)f
tの使用によって各ベクトルv
tから隠れ状態h
t(式3、以下のように示される)を生成する:
【数3】
ただし、φは双曲線正接関数であり、且つ
【数4】
は2つのベクトル間の要素ごとの積を示す(以下、本文中では当該記号を「◎」と表記する)。
図3には、質問プロセスに用いられるLSTMフレームワークの実施形態の詳細が示される。入力問題qの意味情報sはすべての時間ステップにおいてLSTM状態{h
t}の平均値を求めることで取得される。
【0035】
3.
画像特徴抽出
実施形態において、それぞれの画像中の視覚情報はN×N×Dの画像特徴マップとして示される。特徴マップは画像をN×Nのグリッドに分けてグリッド中の各セルからD次元特徴ベクトルfを抽出することによって抽出されることができる。実施形態において、原画像と左・右反転画像のそれぞれのセルの中心、左上角、右上角、左下角及び右下角で五個(5個)のウィンドウを抽出して、更にそれぞれのセルに対して合計で十個(10個)のウィンドウを生成させる。実施形態において、VGG−19深層畳み込みニューラルネットワークは各ウィンドウについてD次元特徴を抽出する。実施形態において、各セルのD次元特徴ベクトルはすべての十個(10個)のD次元特徴ベクトルの平均である。最後のN×N×D画像特徴マップはN×N×D次元特徴ベクトルの連結である。
【0036】
また、完全畳み込みニューラルネットワークアーキテクチャを使用して更に効果的に画像特徴マップを抽出することもできる。実施形態において、PASCAL 2007セグメンテーションデータセットにおいて予め訓練された分割モデル(L・C・陳(L.C.Chen)、G・パパンドレウ(G.Papandreou)、I・コッキンノス(I.Kokkinos)、A・K・マーフィー(K.Murphy)及びA・L・ユール(A.L.Yuille)の、「深層畳み込みネットワークと完全に接続されたCRFSを用いるセマンティクス画像分割」(Semantic image segmentation with deep convolutional nets and fully connected CRFS)、arXivプレプリントarXiv:1412.7062、2014を参照)は使用され、且つわずかに良好な性能を達成させる。
【0037】
4.
解答生成
実施形態において、解答生成部分は原画像特徴マップ、密集質問埋め込み及び注目重み付け画像特徴マップ用のマルチクラス分類器である。実施形態において、注目マップは画像特徴マップIを空間的に重み付けることに用いられる。重み付けられた画像特徴マップは質問に対応した対象に集中する。実施形態において、空間的な重み付けは画像特徴マップと注目マップのそれぞれのチャンネル間の要素ごとの積によって実現される。
【数5】
ただし、◎は要素ごとの積、I’
iとI
iはそれぞれ注目重み付け画像特徴マップI’
iと原画像特徴マップIのi番目のチャンネルを示す。注目重み付け画像特徴マップは質問に無関係の領域の重みを低下させる。実施形態において、オーバーフィッティングを防止するために、1×1畳み込みを注目重み付け特徴画像マップに用いてチャンネルの数を減少させ、それによって減少された特徴マップI
rを取得する。実施形態において、問題又は質問する意味情報、画像特徴マップI及び減少された特徴マップI
rは非線形射影によって融合される:
【数6】
ただし、hは最終射影特徴を示し、且つ
【数7】
は要素に応じて一つずつスケーリングされた双曲線正接関数:
【数8】
である。当該関数で勾配が値の最も非線形な範囲に入って、より高い訓練速度を実現する。
【0038】
実施形態において、Softmax活性化を有するマルチクラス分類器は最終射影特徴hにおいて訓練される。解答idは解答辞書において指定されることができる。ABC−CNNが生成する解答は最大確率を有する単語:
【数9】
である。
ただし
【数10】
は解答辞書中のすべての単語のセットである。
【0039】
なお、実施形態では、質問と解答用の辞書は共有するものではない。それは、質問と解答によって同一単語の表現が異なる可能性がある意味とする。
【0040】
図4は本出願の実施形態に係るABC−CNNアーキテクチャを使用して解答を生成する例示的なフローチャートを示す。実施形態において、ABC−CNNアーキテクチャはステップ405において深層畳み込みニューラルネットワークで複数の画素を含む入力画像から画像特徴マップを抽出し、且つステップ410において長期短期記憶(LSTM)レイヤで入力画像に関連する入力問題から密集質問埋め込みを取得する。ステップ415において、密集質問埋め込みを意味空間から視覚空間に射影することで複数の質問で設定されたカーネルを生成する。ステップ420において、質問で設定されたカーネルと画像特徴マップを畳み込むことによって質問でガイドされた注目マップを生成する。ステップ425において、質問でガイドされた注目マップで空間的に画像特徴マップを重み付けることによって、マルチクラス分類器で注目重み付け画像特徴マップを取得する。注目重み付け画像特徴マップは質問に無関係の領域の重みを低下させ、又は質問に関連する領域に焦点を合わせることに用いられる。実施形態において、空間的な重み付けは画像特徴マップと質問でガイドされた注目マップの各チャンネル間の要素ごとの積によって実現される。最後に、ステップ430において、画像特徴マップ、深層質問埋め込み及び注目加重画像特徴マップの融合に基づいて質問の解答を生成する。
【0041】
図5は本出願の実施形態に係るABC−CNNアーキテクチャを使用して質問でガイドされた注目マップを生成する例示的なフローチャートを示す。実施形態において、注目マップ生成部分はステップ505において画像入力から抽出された画像特徴マップを受信し、且つステップ510においてLSTMを使用して問題入力から取得した密集質問埋め込みを受信する。ステップ515において、質問埋め込みを意味空間から視覚空間に射影することで、一組の設定可能な畳み込みカーネルを生成させる。ステップ520において、空間的な注目分布は、質問で設定されたカーネルと画像特徴マップの間の畳み込み演算によって生成される。実施形態において、ABC−CNNフレームワークは初期重みを有し、当該初期重みは予備訓練期間においてABC−CNNフレームワーク内のすべてのレイヤ(CNNレイヤやLSTMレイヤ等を含む)の各次元における活性化が0平均値及び一つの標準偏差を有することを確保するようにランダムに調整される。ステップ525において、Softmax正規化を空間的な注目分布に用いて質問でガイドされた注目マップを生成する。
【0042】
5.
訓練及びテスト
実施形態において、フレームワークの全体は、確率的な勾配降下とadadelta(M・D・ゼイラー(M.D.Zeiler)の、「Adadelta:適応学習速度法」(Adadelta: An adaptive learning rate method)、arXivプレプリントarXiv:1212.5701、2012を参照)アルゴリズムを使用してエンドツーエンド方式で訓練する。各バッチの確率的な勾配降下は、独立してランダムに64個の画像質問ペアをサンプリングし、且つバックプロパゲーションを使用してABC−CNNアーキテクチャのすべての重みを学習することができる。実施形態において、すべてのレイヤの初期重みは、すべてのレイヤの各次元の活性化が0平均値及び一つの標準偏差を有するようにランダムに調整されることができる。実施形態において、初期学習速度を0.1に設定する。実験では、ABC−CNN実施形態においてエンドツーエンド方式ですべての重みを訓練することが可能であるが、画像特徴抽出部分中の重みはより高い訓練速度を可能にするために一定であってもよい。
【0043】
テスト段階では、実施形態において、各画像に対して画像特徴マップを抽出する。実施形態において、質問が与えられた場合、当該質問の密集質問埋め込みを生成させ、且つ質問埋め込みは畳み込みカーネルを構成して、注目マップを生成するのに用いる。実施形態において、マルチクラス分類器は原特徴マップ、質問埋め込み及び注目重み付け画像特徴マップの融合によって解答を生成する。
【0044】
D. 実験
本モデルの実施形態は以下のデータセットについて評価され、即ち:Toronto COCOQAデータセット(M・レン(M.Ren)、R・キロス(R.Kiros)及びR・ゼメル(R.Zemel)の、「画像質問応答用のモデル及びデータの探索」(Exploring models and data for image question answering)、arXiv: 1505.02074.2015を参照)、DAQUARデータセット(M・マリナウスキ(M.Malinowski)及びM・フリツー(M.Fritz)の、「不確定な入力に基づいて実世界のシーンについての質問応答を行う多世界性アプローチ」(A multi−world approach to question answering about real−world scenes based on uncertain input)、『ニューラル情報処理システムの発展』(Advances in Neural Information Processing Systems)、第1682〜1690ページ、2014を参照)、及びVQAデータセット(S・アントール(S.Antol)、A・アグラワール(A.Agrawal)、J・ルー(J.Lu)、M・ミッチェル(M.Mitchell)、D・バトラ(D.Batra)、C・L・ジットニック(C.L.Zitnick)及びD・パリーク(D.Parikh)の、「VQA:視覚質問応答」(VQA: Visual question answering)、arXivプレプリントarXiv:1505.00468、2015を参照)。実施形態は単語解答を有するQAペアについて評価し、それぞれToronto−QAデータセット、VQAデータセット及びDAQUARデータセットの(100%、85%、90%)を考慮する。それはM・レン(M.Ren)、R・キロス(R.Kiros)及びR・ゼメル(R.Zemel)の、「画像質問応答用のモデル及びデータ」(Exploring models and data for image question answering)(arXiv: 1505.02074.2015を参照)での評価に合致する。その上、ABC−CNNフレームワークの実施形態は、解答生成部分においてRNNデコーダーで完全文を生成して解答とするように簡単に広げられる。
【0045】
なお、本特許文献に引用された実験及び結果(本章又は任意のほかの章において)は説明の形として提供され、且つ具体的な実施形態又は複数の具体的な実施形態によって具体的な条件下で実行され、従って、これら実験又はその結果は、本特許文献に開示されている範囲を制限するものではない。
【0046】
1.
実施詳細
実験では、ATT−SEG−HSVモデル以外、画像特徴マップと注目マップの両方の解像度として3×3を選択し、当該ATT−SEG−HSVモデルは完全畳み込み分割ネットワークから抽出された特徴(16×16)を使用する。各画像セルは予め訓練されたVGGネットワーク[K・チャットフィールド、K・シモンヤン、A・ベダルディ及びA・ゼッセルマン、「悪魔が細部に隠されている:畳み込みネットワークの深層探求」(Return of the devil in the details: Delving deep into convolutional nets)、arXivプレプリントarXiv:1405.3531、2014を参照]を使用して4096次元画像特徴ベクトルを生成する。すべての画像セルからの画像特徴ベクトルは4096×3×3次元を有する画像特徴マップを構成する。オーバーフィッティングを防止するために、画像特徴マップの次元は1×1畳み込みによって256×3×3まで減少される。密集質問埋め込みの次元は256である。また、HSV色特徴マップは画像特徴マップ(ATT−HSV)に追加される。各セルにおける色特徴は当該各セル中の画素のHSVヒストグラムとしてコーディングされる。PASCAL 2007セグメンテーションデータセットにおいて予め訓練された完全畳み込みニューラルネットワーク(L・C・陳(L.C.Chen)、G・パパンドレウ(G.Papandreou)、I・コッキンノス(I.Kokkinos)、A・K・マーフィー(K.Murphy)及びA・L・ユール(A.L.Yuille)の、「深層畳み込みネットワークと完全に接続されたCRFSを用いるセマンティクス画像分割」(Semantic image segmentation with deep convolutional nets and fully connected CRFS)、arXivプレプリントarXiv:1412.7062、2014を参照)も16×16×1024特徴マップの生成に用いられ、且つそれらとHSV色特徴マップを連結して画像特徴マップ(ATT−SEG−HSV)にする。4個のK40 Nvidia GPUを使用してToronto COCO−QAデータセットにおいてネットワークATT−HSVを訓練するのに約24時間がかかる。システムは単一のK40 GPUにおいて各質問に対して9.89msの速度で解答を生成できる。
【0047】
2.
データセット
本出願のモデルによる実施形態は三つのデータセットについて評価され、即ち:DAQUAR、Toronto COCO−QA及びVQA。
【0048】
DAQUARデータセットは2種類のバージョンを有し、即ち:完全なデータセット(DQ−Full)と減少されたデータセット(DQ−Reduced)。DQ−Reducedは894個のオブジェクトクラスを有するDQ−Fullデータセットのサブセットである37個のオブジェクトクラスの質問応答ペアを有する。2種類のバージョンは、NYU−Depth V2データセット(N・シルベルマン(N.Silberman)、D・ホイエム(D.Hoiem)、P・コーリ(P.Kohli)及びR・ファーガス(R.Fergus)の、RGBD画像からの室内分割及びサポート推論(Indoor segmentation and support inference from RGBD images)、コンピュータ視覚−ECCV 2012、ページ746〜760、スプリンガー出版社、2012(Computer Vision-ECCV 2012,pages746〜760.Springer,2012)を参照)からの室内シーン画像を使用する。DQ−Fullデータセットは6794個のQAペアを有する795個の訓練画像と5674個のQAペアを有する654個のテスト画像を有する。DQ−Reducedデータセットは3825個のQAペアを有する781個の訓練画像と286個のQAペアを有する25個のテスト画像を有する。実験では、DAQUARデータセットは単語解答を有するQAペアだけについてテスト及び訓練を行い、それはレン(Ren)等の人(M・レン(M.Ren)、R・キロス(R.Kiros)及びR・ゼメル(R.Zemel)の、「画像質問応答用のモデル及びデータの探索」(Exploring models and data for image question answering)、arXiv: 1505.02074.2015を参照)による評価に合致する。このようなQAペアは、それぞれDQ−FullデータセットとDQ−Reducedデータセットに対する訓練セットとテストセットの(90.6%,89.5%)と(98.7%,97.6%)を構成する。
【0049】
Toronto COCO−QAデータセットはMicrosoft COCOデータセット(MS−COCO)からの画像を使用する。そのQAペアは単語解答だけを含む。その基本統計は表1にまとめられる。
【0050】
表1.Toronto COCO−QA質問タイプの分解(P・セルマネット(P.Sermanet)、A・フローム(A.Frome)及びE・リール(E.Real)の、「精細分類用の注目」(Attention for fine−grained categorization)、arXivプレプリントXiv:1412.7054、2014を参照)。
【表1】
【0051】
VQAデータセットは最近に収集してMS−COCOデータセット中の画像で構築されるデータセットである。VQAデータセット中のVQA実像(オープンエンド型)タスクの提案モデルは評価される。それは82783個の訓練画像、40504個の認証画像及び81434個のテスト画像を有する。MS−COCOデータセットにおける各画像は三個(3個)の質問が注釈され、且つ各質問は十個(10)の候補解答を有する。訓練、テスト及び認証用QAペアの総数はそれぞれ248349、121512、244302である。本モデルの実施形態はVQAデータセット中の単語解答QAペアについて評価し、単語解答QAペアはデータセットにおけるQAペアの総数の86.88%を構成する。
図6において、三個のデータセットからのいくつかのサンプルが示される。
【0052】
3.
評価メトリクス
VQAモデルの性能は「解答の正確性」及び「呉−パーマー類似性測度セット(Wu−Palmer similarity measure Set)(WUPS)」スコアに基づいて評価される。解答の正確さ(ACC)はグランドトゥルース解答と正確にマッチングする、生成された解答の百分率を計算する。WUPSスコアは呉−パーマー(WUP)類似性[Z・呉(Z.Wu)とM・パーマー(M.Palmer)の、「動詞セマンティクス及び字句選択」(Verbs semantics and lexical selection)、『計算言語協会の32回目のプロシーディング』(Proceedings of the 32nd annual meeting on Association for Computational Linguistics)、ページ133〜138、計算言語協会出版、1994を参照]から得られ、値が[0,1]の範囲である。WUP類似性は2つの単語の分類ツリーにおける最下位の共通祖先の深さに基づいて2つの単語の類似性を測定する。閾値を有するWUPスコアは、全ての生成された解答とグランドトゥルース解答の重み低下されたWUPSスコアの平均値である。2つの単語のWUPSスコアS
wupsが閾値より低い場合、重み低下されたWUPSスコアは0.1S
wupsである。2つの単語のWUPSスコアS
wupsが閾値の以上である場合、重み低下されたWUPSはS
wupsである。実験では、閾値0.0と0.9を有するWUPSスコアは使用される。
【0053】
4.
ベースライン方法
本方法の実施形態と異なる基準方法を比較する。以下、すべてのベースラインモデルを示す:
1.VIS+LSTM (VL):それはレン(Ren)等の人が提案したフレームワーク(M・レン(M.Ren)、R・キロス(R.Kiros)及びR・ゼメル(R.Zemel)の、「画像質問応答用のモデル及びデータの探索」(Exploring models and data for image question answering)、arXiv: 1505.02074.2015を参照)であり、当該フレームワークは画像特徴を抽出するCNNを有し、当該CNNの後に次元削減レイヤが続く。次に、画像特徴を質問単語埋め込みシーケンスのヘッダに挿入して質問LSTMの入力とする。
2.2−VIS+BLSTM (2VB):画像特徴は単語埋め込みシーケンスの先頭及び末端でコーディングされる。その上、レン(Ren)等が提案したフレームワークにおけるLSTMは前方と後方へ入るように設定される。
3.IMG+BOW (IB):レン(Ren)等の人はBag−of−Words特徴を使用して密集質問埋め込みを生成する。
4.IMG:画像特徴だけが質問応答に用いられる。それは「聴覚障害」モデルと呼称される。
5.LSTM:LTMからの密集質問埋め込みだけで解答を生成する。それは「視覚障害」モデルと呼称される。
6.ENSEMBLE:レン(Ren)等の人は以上のすべての方法を使用して融合モデルを評価する。
7.Q+I:アントール(Antol)等の人(S・アントール(S.Antol)、A・アグラワール(A.Agrawal)、J・ル(J.Lu)、M・ミッチェル(M.Mitchell)、D・バトラ(D.Batra)、C・L・ジットニック(C.L.Zitnick)及びD・パリーク(D.Parikh)の、「VQA:視覚質問応答」(VQA: Visual question answering)、arXivプレプリントarXiv:1505.00468、2015を参照)は密集質問埋め込みと画像特徴の両方を使用してマルチクラス分類器を訓練して質問応答を実現する。
8.Q+I+C:Q+Iモデルと類似して、Q+I+Cモデルはラベルされた画像キャプションの密集埋め込みを追加入力とする。
9.ASK:マリナウスキ(Malinowski)等の人(M・マリナウスキ(M.Malinowski)及びM・フリツー(M.Fritz)、「君のニューラルに質問する:画像に関する質問応答用のニューラルに基づく方法(Ask your neurons: A neural−based approach to answering questions about images)、arXivプレプリントarXiv:1505.01121、2014を参照」はLSTMデコーダーにおいてCNN特徴と質問埋め込みを線形結合することで解答を生成する。
【0054】
5.
結果及び分析
表2、4及び5は各モデルのToronto COCO−QAデータセット、DQ−Reducedデータセット及びDQ−Fullデータセットでの性能を示す。表3は各クラスにおける異なる方法のToronto COCO−QAデータセットでの性能を分解する。
【0055】
表2には、VGG特徴マップ(AYY)だけが使用されているABC−CNNはレン(Ren)等の人(M・レン(M.Ren)、R・キロス(R.Kiros)及びR・ゼメル(R.Zemel)の、「画像質問応答用のモデル及びデータの探索」(Exploring models and data for image question answering)、arXiv: 1505.02074.2015を参照)による単一モデルのうちの大多数より優れる。HSV特徴マップとVGG特徴マップ(ATT−HSV)を組み合わせることによって、ABC−CNNの性能はすべてのベースラインモデルより優れる。単一モデルだけを使用するが、ABC−CNNは解答正確性がENSEMBLEモデルに比べて0.2%高い。質問でガイドされた注目が質問セマンティクス及び画像中のコンテキスト情報を活用させて質問を回答するため、ABC−CNNは「対象」、「数」及び「位置」分類においてベースライン方法より優れる。ABC−CNNの正確さは「色」分類においてIBとENSEMBLEモデルよりやや低い。
【0056】
更に、完全畳み込みモデルATT−SEG−HSVの性能がVGGモデルATT−HSVより優れるが、完全畳み込みニューラルネットワークによる特徴マップ抽出の速度がはるかに高いことが発見された。VGG、SEG及びHSV特徴(ATT−VGG−SEG−HSV)の組み合わせによって最適な性能が得られる。具体的には、完全畳み込みモデルの追加は正確に位置質問を回答することに寄与する。ABC−CNNにおける注目(NO−ATT)もアブレーション実験(ablative experiment)として除去され、且つそれによって、正確さについて1.34%、0.85%及び0.35%低下させることと、WUPS0.9及びWUPS0.0のスコアになることとをそれぞれ引き起こす。
【0057】
表4には、ABC−CNNモデルとベースラインモデルをDQ−Reducedデータセットにおいて比較される。ABC−CNNモデルの性能はすべてのメトリクスにおいてすべての単一モデルより高い。WUPS0.9測定では、ABC−CNNモデルはENSEMBLEモデルより0.53%しか低下しない。
【0058】
DQ−FullとVQAデータセットにおいて、ABC−CNNは表5と表6のデータセットにおいて従来の技術案より優れる。DQ−Fullデータセットにおいて、ABC−CNNモデルはToronto COCO−QAデータセットとDQ−Reducedデータセットにおけるモデルと同様である。VQAデータセットにおいて、公正に評価するため、アントール(Antol)等の人(S・アントール(S.Antol)、A・アグラワール(A.Agrawal)、J・ル(J.Lu)、M・ミッチェル(M.Mitchell)、D・バトラ(D.Batra)、C・L・ジットニック(C.L.Zitnick)及びD・パリーク(D.Parikh)の、「VQA:視覚質問応答」(VQA: Visual question answering)、arXivプレプリントarXiv:1505.00468、2015を参照)のように1000個の最頻出解答(ATT 1000)を含む解答辞書が使用される。ABC−CNNモデルは更に、すべての解答(ATT Full)を含む解答辞書で評価される。
【0059】
図7には、生成された質問でガイドされた注目マップ及びそれに対応した画像と質問の一部が示される。異なる注目領域を有する異なる質問の意図が質問でガイドされた注目マップでうまくキャプチャーされることが観察される。これら注目マップを使用して、注目の焦点を重要な領域に合わせて無関係の情報をフィルタリングすることによって、ABC−CNNは更に正確な解答を生成できる。原特徴マップが解答を予測する時にも提供されるため、質問対象が画像中の対象(例えば「山坂の草に横になっているのは何ですか?」)だけである場合、ABC−CNNは注目マップを使用せずに質問を回答することができる。
【0064】
E.
システムの実施形態
実施形態において、本特許文献の様々様態は情報処理システム/計算システムに関してもよく、情報処理システム/計算システムにおいて実施されてもよい。本出願の目的として、計算システムは、商業、科学、制御又は他の目的に基づいて解答、計算、確定、分類、処理、輸送、受信、検索、開始、ルーティング、切替、記憶、表示、伝送、出現、検出、記録、コピー、操作又は任意の様態として操作された情報、インテリジェンス又はデータの任意の装置又は装置セットを含んでもよい。例えば、計算システムはパーソナルコンピュータ(例えば、ラップトップコンピュータ)、タブレットコンピュータ、タブレット電話、パーソナルディジタルアシスタント(PDA)、スマートフォン、スマート腕時計、スマートパッケージング、サーバー(例えば、ブレードサーバー又はラックマウント型サーバー)、ネットワーク記憶設備又は任意の他の適切な設備であってもよく、更に大きさ、形状、性能、機能及び価格が変化してもよい。計算システムはランダムアクセスメモリ(RAM)、1つ又は複数の処理リソース(例えば、中央処理装置(CPU)又はハードウェア又はソフトウェア制御ロジック)、ROM及び/又は他のタイプのメモリを含んでもよい。計算システムにおける付加的構成要素は1つ又は複数のディスクドライブ、外部設備と通信するための1つ又は複数のネットワークポート、及び例えばキーボード、マウス、タッチスクリーン及び/又はビデオディスプレーの各種の入力及び出力(I/O)設備を含んでもよい。計算システムは更に各ハードウェア校正要素の間で通信できるように操作される可能な1つ又は複数のバスを含んでもよい。
【0065】
図8は、本出願の実施形態に係る計算設備/情報処理システム(又は計算システム)の簡略化したブロック図を示す。情報処理システムが異なって配置されてもよく、異なるアセンブリを含んでもよいことを理解することができるが、システム800に示す機能に対して情報処理システムをサポートする各実施形態に操作されてもよいことを理解すべきである。
【0066】
図8に示すように、システム800は、計算リソースを提供するとともにコンピュータを制御する1つ又は複数の中央処理装置(CPU)801を含む。CPU801はマイクロプロセッサ等を利用して実現されてもよく、且つ1つ又は複数のグラフ処理ユニット(GPU)817及び/又は数学計算に用いられる浮動小数点コプロセッサを更に含んでもよい。システム800はシステムメモリ802を更に含んでもよく、システムメモリ802はランダムアクセスメモリ(RAM)又は読み取り専用メモリ(ROM)の様態であってもよく、又はRAMとROMの様態であってもよい。
【0067】
図8に示すように、複数のコントローラ及び周辺設備をさらに提供してもよい。入力コントローラ803は例えばキーボード、マウス又はライトペンへの各種の入力設備804のインターフェースを示す。スキャナー806と通信するスキャナーコントローラ805を更に有してもよい。システム800は、1つ又は複数の記憶設備808とインタラクションするためのメモリコントローラ807を更に含んでもよく、1つ又は複数の記憶設備808の中のそれぞれはいずれも例えば磁気テープ又はCDの記憶媒体を含み、又は記録操作システム、ユーティリティプログラム及びアプリケーションに用いることができる指令プログラムを含む光学媒体を更に含んでもよく、ここで、アプリケーションは本出願の各様態のプログラムを実現する実施形態を含んでもよい。本出願によれば、記憶設備808は更に既に処理されたデータ又は処理しようとするデータを記憶することに用いられてもよい。システム800は表示設備811にインターフェースを提供するためのディスプレーコントローラ809を更に含んでもよく、表示設備811は陰極線管(CRT)、薄膜トランジスタ(TFT)ディスプレー又は他のタイプのディスプレーであってもよい。計算システム800は更にプリンター813と通信するためのプリンターコントローラ812を含んでもよい。通信コントローラ814は1つ又は複数の通信設備815にインタラクションすることができ、通信設備815によりシステム800はインターネット、クラウドリソース(例えば、イーサネット(登録商標)クラウド、イーサネット上のファイバチャネル(FCoE)/データセンターブリッジング(DCB)クラウド等)、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、記憶領域ネットワーク(SAN)の多種のネットワークにおける任意のネットワークを含むか又は赤外線信号の任意の適切な電磁キャリア信号を含むことによりリモート設備に接続される。
【0068】
示されるシステムにおいて、すべての主なシステムアセンブリはバス816に接続されてもよく、バス816は1つ以上の物理バスを示すことができる。しかし、各種のシステムアセンブリは互いに物理的に隣接してもよく、又は互いに物理的に隣接する必要がない。例えば、入力データ及び/又は出力データは1つの物理位置から他の物理位置にリモート伝送されることができる。なお、本出願の各様態を実現するプログラムはネットワークでリモート位置(例えば、サーバー)からアクセスすることができる。当該データ及び/又はプログラムは多種の機械読み取り可能な媒体における任意の媒体により伝送されてもよく、機械読み取り可能な媒体は、例えばハードディスク、フロッピーディスク及び磁気テープのような磁気媒体、例えばCD-ROM及びホログラフィー設備のような光学媒体、光磁気媒体、及び例えば特定用途向け集積回路(ASIC)、プログラム可能なロジック設備(PLD)、フラッシュメモリデバイス及びROMとRAM設備のような特別にプログラムコードを記憶又は記憶して実行するように構成されるハードウェア設備を含むが、これらに限定されない。
【0069】
1つ又は複数のプロセッサ又は処理ユニットに対して、本出願の実施形態は指令を利用して1つ又は複数の非一時的コンピュータ可読媒体でコーディングすることにより、各ステップを実行することができる。1つ又は複数の非一時的コンピュータ可読媒体は揮発性及び不揮発性メモリを含むべきであることを注意すべきである。代替の実施例でもよく、ハードウェア実現方式又はソフトウェア/ハードウェア実現方式を含むことを注意すべきである。ハードウェア実現の機能はASIC、プログラマブルアレイ、デジタル信号処理回路等を利用して実現することができる。このため、任意の請求項において、用語「装置」はソフトウェア実現方式をカバーするだけではなく、ハードウェア実現方式もカバーする。類似するように、本文に使用された用語「コンピュータ可読媒体」はその上で実行される指令プログラムを有するソフトウェア及び/又はハードウェア、又はソフトウェア及びハードウェアの組み合せを含む。これらの実現態様の代替態様を考えて、図面及び付いている説明が機能情報を提供し、当業者はプログラムコード(即ち、ソフトウェア)をプログラミングすること及び/又は回路(即ち、ハードウェア)を製造することで必要な処理を実行する必要があることを理解すべきである。
【0070】
本出願の実施形態は更に非一時的有形のコンピュータ可読媒体を有するコンピュータ製品に関してもよく、当該コンピュータ可読媒体には各種のコンピュータで実現される操作を実行するためのコンピュータコードを有することを注意すべきである。媒体及びコンピュータコードは本出願の目的に基づいて専門に設計して構造する媒体及びコンピュータコードであってもよく、又は関連分野の当業者が公知するか又は取得するできるタイプであってもよい。有形のコンピュータ可読媒体の例示は、例えばハードディスク、フロッピーディスク及び磁気テープのような磁気媒体、例えばCD-ROM及びホログラフィー設備のような光学媒体、光磁気媒体、及びプログラムコードを記憶又は記憶して実行するように専門に配置されたハードウェア設備、例えば特定用途向け集積回路(ASIC)、プログラム可能なロジック設備(PLD)、フラッシュメモリデバイス及びROMとRAM設備を含むが、これらに限定されない。コンピュータコードの例示は、例えばコンパイラで生成されたマシンコード、及びコンピュータがインタプリタを利用して実行する上級コード(higher level code)のファイルを含む。本出願の実施形態は処理設備で実行されるプログラムモジュールに位置してもよいマシン実行可能な指令として全体的又は部分的に実施されることができる。プログラムモジュールの例示は、ベース、プログラム、ルーチン、オブジェクト、アセンブリ及びデータ構造を含む。分散式計算環境において、プログラムモジュールは物理的にローカル、リモート又は両者の環境に設置されてもよい。
【0071】
当業者は、計算システム又はプログラミング言語が本出願の実施に対して非常に重要なものではないことを理解すべきである。当業者は、多くの上記素子が物理的及び/又は機能的にサブモジュールに分けられるか又は統合されることを認識すべきである。
【0072】
なお、前記例、実施形態及び実験は、例示的なもので、本出願の範囲を制限するのではなく、明瞭さと理解のためである。本明細書を読んで図面を研究した当業者であれば、本出願のすべての代替、置換、強化、同等、組合せ又は改良が本出願の範囲内に含まれることが分かる。従って、添付されている特許請求の範囲において断らない限り、特許請求の範囲は、本出願の実際な精神及び範囲内におけるすべての上記した代替、置換、強化、同等、組合せ又は改良を含む。なお、添付される請求項における要素は異なって設置されてもよく、複数の依存、配置及び組み合わせを含む。例えば、実施形態において、各請求項のサブジェクトをほかの請求項と組み合わせてもよい。