特許第6968270号(P6968270)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッドの特許一覧

特許6968270画像の記述文位置決定方法及び装置、電子機器並びに記憶媒体
<>
  • 特許6968270-画像の記述文位置決定方法及び装置、電子機器並びに記憶媒体 図000021
  • 特許6968270-画像の記述文位置決定方法及び装置、電子機器並びに記憶媒体 図000022
  • 特許6968270-画像の記述文位置決定方法及び装置、電子機器並びに記憶媒体 図000023
  • 特許6968270-画像の記述文位置決定方法及び装置、電子機器並びに記憶媒体 図000024
  • 特許6968270-画像の記述文位置決定方法及び装置、電子機器並びに記憶媒体 図000025
  • 特許6968270-画像の記述文位置決定方法及び装置、電子機器並びに記憶媒体 図000026
  • 特許6968270-画像の記述文位置決定方法及び装置、電子機器並びに記憶媒体 図000027
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6968270
(24)【登録日】2021年10月28日
(45)【発行日】2021年11月17日
(54)【発明の名称】画像の記述文位置決定方法及び装置、電子機器並びに記憶媒体
(51)【国際特許分類】
   G06T 7/00 20170101AFI20211108BHJP
   G06N 3/04 20060101ALI20211108BHJP
   G06N 3/08 20060101ALI20211108BHJP
【FI】
   G06T7/00 350C
   G06N3/04 190
   G06N3/08
【請求項の数】18
【全頁数】28
(21)【出願番号】特願2020-517564(P2020-517564)
(86)(22)【出願日】2019年5月9日
(65)【公表番号】特表2021-509979(P2021-509979A)
(43)【公表日】2021年4月8日
(86)【国際出願番号】CN2019086274
(87)【国際公開番号】WO2020107813
(87)【国際公開日】20200604
【審査請求日】2020年3月26日
(31)【優先権主張番号】201811459428.7
(32)【優先日】2018年11月30日
(33)【優先権主張国】CN
(73)【特許権者】
【識別番号】516158932
【氏名又は名称】ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
(74)【代理人】
【識別番号】110001427
【氏名又は名称】特許業務法人前田特許事務所
(72)【発明者】
【氏名】リウ シーフイ
(72)【発明者】
【氏名】シャオ ジン
(72)【発明者】
【氏名】ワン ズーハオ
(72)【発明者】
【氏名】リー ホンション
(72)【発明者】
【氏名】ワン シャオガン
【審査官】 松浦 功
(56)【参考文献】
【文献】 特開2017−091525(JP,A)
【文献】 米国特許出願公開第2017/0177972(US,A1)
【文献】 中国特許出願公開第108229518(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 − 7/90
G06N 3/04
G06N 3/08
G06T 1/00
G06F 16/50 −16/587
G06F 16/70 −16/787
(57)【特許請求の範囲】
【請求項1】
画像の記述文位置決定方法であって、
被解析記述文と被解析画像に対して解析処理を行って、前記被解析記述文の複数の語句注目度重み及び前記被解析画像の複数の画像注目度重みを取得することと、
前記複数の語句注目度重み及び被解析画像の主体特徴、位置特徴および関係特徴により、複数の第1マッチングスコアを取得することであって、前記被解析画像に複数の対象を含み、主体対象が前記複数の対象のうち、注目度重みが最も高い対象であり、前記主体特徴が前記主体対象の特徴であり、前記位置特徴が前記複数の対象の位置特徴であり、前記関係特徴が前記複数の対象の間の関係特徴であり、前記複数の語句注目度重みは、語句主語重み、語句位置重み及び語句関係重みを含み、前記複数の第1マッチングスコアは、主語マッチングスコア、位置マッチングスコア及び関係マッチングスコアを含み、前記主語マッチングスコアは、前記語句主語重み及び前記主体特徴によって取得され、前記位置マッチングスコアは、前記語句位置重み及び前記位置特徴によって取得され、前記関係マッチングスコアは、前記語句関係重み及び前記関係特徴によって取得されることと、
前記複数の第1マッチングスコア及び前記複数の画像注目度重みにより、前記被解析記述文と前記被解析画像との第2マッチングスコアを取得することと、
前記第2マッチングスコアにより、前記被解析記述文の前記被解析画像での位置決定結果を決定することとを含む、前記画像の記述文位置決定方法。
【請求項2】
被解析記述文と被解析画像に対してそれぞれ解析処理を行って、前記被解析記述文の複数の語句注目度重み及び前記被解析画像の複数の画像注目度重みを取得することは、
前記被解析画像に対して特徴抽出を行って、前記被解析画像の画像特徴ベクトルを取得することと、
前記被解析記述文に対して特徴抽出を行って、前記被解析記述文の複数の分割単語の分割単語埋め込みベクトルを取得することと、
前記画像特徴ベクトル及び前記複数の分割単語の分割単語埋め込みベクトルにより、前記被解析記述文の複数の語句注目度重み及び前記被解析画像の複数の画像注目度重みを取得することとを含む、
請求項1に記載の方法。
【請求項3】
ニューラルネットワークによって、前記被解析記述文の複数の語句注目度重み及び前記被解析画像の複数の画像注目度重みを取得することを更に含む、
請求項1又は2に記載の方法。
【請求項4】
記ニューラルネットワークは、画像注目度ネットワークを含み、
前記画像注目度ネットワークは、主体ネットワーク、位置ネットワーク及び関係ネットワークを含み
記複数の語句注目度重み及び被解析画像の主体特徴、位置特徴および関係特徴により、複数の第1マッチングスコアを取得することは、
前記語句主語重み及び主体特徴を前記主体ネットワークに入力して処理して、前記主語マッチングスコアを取得することと、
前記語句位置重み及び位置特徴を前記位置ネットワークに入力して処理して、前記位置マッチングスコアを取得することと、
前記語句関係重み及び関係特徴を前記関係ネットワークに入力して処理して、前記関係マッチングスコアを取得することとを含む、
請求項3に記載の方法。
【請求項5】
前記複数の画像注目度重みは、主体対象重み、対象位置重み及び対象関係重みを含み、
前記複数の第1マッチングスコア及び前記複数の画像注目度重みにより、前記被解析記述文と前記被解析画像との第2マッチングスコアを取得することは、
前記主体対象重み、前記対象位置重み及び前記対象関係重みにより、前記主語マッチングスコア、前記位置マッチングスコア及び前記関係マッチングスコアに対して加重平均を行って、前記第2マッチングスコアを決定することを含む、
請求項4に記載の方法。
【請求項6】
前記被解析画像を特徴抽出ネットワークに入力して処理して、前記主体特徴、前記位置特徴及び前記関係特徴を取得することを更に含む、
請求項〜5のいずれか一項に記載の方法。
【請求項7】
前記第2マッチングスコアにより、前記被解析記述文の前記被解析画像での位置決定結果を決定することは、
前記第2マッチングスコアがプリセットの閾値より大きいか等しい場合に、前記主体対象の画像領域を前記被解析記述文の位置決定として決定することを含む、
請求項1〜6のいずれか一項に記載の方法。
【請求項8】
ニューラルネットワークによって前記被解析記述文の複数の語句注目度重み及び前記被解析画像の複数の画像注目度重みを取得する前に、前記方法は、複数の正のサンプルペアと複数の負のサンプルペアを含むサンプル集合を用いて前記ニューラルネットワークをトレーニングすることを更に含み、
各正のサンプルペアは、第1サンプル画像及び前記第1サンプル画像の第1サンプル記述文を含み、
各負のサンプルペアは、第1サンプル画像及び前記第1サンプル記述文から分割単語が除去された後の第2サンプル記述文、又は第1サンプル記述文及び前記第1サンプル画像から画像注目度重みが最も高い領域が除去された後の第2サンプル画像を含む、
請求項3〜7のいずれか一項に記載の方法。
【請求項9】
前記ニューラルネットワークは、言語注目度ネットワークを更に含み、
前記正のサンプルペアの第1サンプル記述文及び第1サンプル画像を前記言語注目度ネットワークに入力して、前記第1サンプル記述文の複数の分割単語の注目度重みを取得することと、
所定のマークを用いて前記第1サンプル記述文内の注目度重みが最も高い分割単語を取り替えて、第2サンプル記述文を取得することと、
前記第1サンプル画像と前記第2サンプル記述文を負のサンプルペアとして使用することとを更に含む、
請求項8に記載の方法。
【請求項10】
ニューラルネットワークによって、前記被解析記述文の複数の語句注目度重み及び前記被解析画像の複数の画像注目度重みを取得し、
前記ニューラルネットワークは、画像注目度ネットワークを含み、
前記方法は、
前記正のサンプルペアの第1サンプル記述文及び第1サンプル画像を前記画像注目度ネットワークに入力して、前記第1サンプル画像の注目度重みを取得することと、
前記第1サンプル画像内の注目度重みが最も高い画像領域を除去して、第2サンプル画像を取得することと、
前記第2サンプル画像と前記第1サンプル記述文を負のサンプルペアとして使用することとを更に含む、
請求項8又は9に記載の方法。
【請求項11】
サンプル集合を用いて前記ニューラルネットワークをトレーニングすることは、
前記ニューラルネットワークの第1損失と第2損失により、前記ニューラルネットワークの全損失を決定することと、
前記全損失により、前記ニューラルネットワークをトレーニングすることとを含む、
請求項8〜10のいずれか一項に記載の方法。
【請求項12】
前記ニューラルネットワークの第1損失と第2損失により、前記ニューラルネットワークの全損失を決定する前に、前記第1損失を取得することを更に含み、
前記第1損失を取得することは、
同一な正のサンプルペアの第1サンプル画像及び第1サンプル記述文を前記ニューラルネットワークに入力して処理して、第1トレーニングスコアを取得することと、
異なる正のサンプルペアの第1サンプル画像及び第1サンプル記述文を前記ニューラルネットワークに入力して処理して、第2トレーニングスコアを取得することと、
複数の第1トレーニングスコアと複数の第2トレーニングスコアにより、第1損失を取得することとを含む、
請求項11に記載の方法。
【請求項13】
前記ニューラルネットワークの第1損失と第2損失により、前記ニューラルネットワークの全損失を決定する前に、前記第2損失を取得することを更に含み、
前記第2損失を取得することは、
同一な負のサンプルペアの第2サンプル画像及び第1サンプル記述文を前記ニューラルネットワークに入力して処理して、第3トレーニングスコアを取得することと、
異なる負のサンプルペアの第2サンプル画像及び第1サンプル記述文を前記ニューラルネットワークに入力して処理して、第4トレーニングスコアを取得することと、
同一な負のサンプルペアの第1サンプル画像及び第2サンプル記述文を前記ニューラルネットワークに入力して処理して、第5トレーニングスコアを取得することと、
異なる負のサンプルペアの第1サンプル画像及び第2サンプル記述文を前記ニューラルネットワークに入力して処理して、第6トレーニングスコアを取得することと、
複数の第3トレーニングスコア、複数の第4トレーニングスコア、複数の第5トレーニングスコア及び複数の第6トレーニングスコアにより、第2損失を取得することとを含む、
請求項11又は12に記載の方法。
【請求項14】
前記ニューラルネットワークの第1損失と第2損失により、前記ニューラルネットワークの全損失を決定することは、
前記第1損失と前記第2損失に対して加重重畳を行って、前記ニューラルネットワークの全損失を取得することを含む、
請求項11〜13のいずれか一項に記載の方法。
【請求項15】
画像の記述文位置決定装置であって、
被解析記述文と被解析画像に対して解析処理を行って、前記被解析記述文の複数の語句注目度重み及び前記被解析画像の複数の画像注目度重みを取得するように構成される第1重み取得モジュールと、
前記複数の語句注目度重み及び被解析画像の主体特徴、位置特徴、関係特徴により、複数の第1マッチングスコアを取得するように構成される第1スコア取得モジュールであって、前記被解析画像に複数の対象を含み、主体対象が前記複数の対象のうち、注目度重みが最も高い対象であり、前記主体特徴が前記主体対象の特徴であり、前記位置特徴が前記複数の対象の位置特徴であり、前記関係特徴が前記複数の対象の間の関係特徴であり、前記複数の語句注目度重みは、語句主語重み、語句位置重み及び語句関係重みを含み、前記複数の第1マッチングスコアは、主語マッチングスコア、位置マッチングスコア及び関係マッチングスコアを含み、前記主語マッチングスコアは、前記語句主語重み及び前記主体特徴によって取得され、前記位置マッチングスコアは、前記語句位置重み及び前記位置特徴によって取得され、前記関係マッチングスコアは、前記語句関係重み及び前記関係特徴によって取得される、第1スコア取得モジュールと、
前記複数の第1マッチングスコア及び前記複数の画像注目度重みにより、前記被解析記述文と前記被解析画像との第2マッチングスコアを取得するように構成される第2スコア取得モジュールと、
前記第2マッチングスコアにより、前記被解析記述文の前記被解析画像での位置決定結果を決定するように構成される結果決定モジュールとを含む、前記画像の記述文位置決定装置。
【請求項16】
電子機器であって、
請求項1〜14のいずれか一項に記載の方法を実行するように構成されるプロセッサと、
プロセッサ実行可能命令を記憶するためのメモリとを含む、前記電子機器。
【請求項17】
コンピュータプログラム命令を記憶したコンピュータ可読記憶媒体であって、
前記コンピュータプログラム命令がプロセッサにより実行される時に請求項1〜14のいずれか一項に記載の方法が実現される、前記コンピュータ可読記憶媒体。
【請求項18】
コンピュータ可読記憶媒体に保存され、コンピュータ命令を含むコンピュータプログラムであって、
前記コンピュータ命令が装置のプロセッサ上で動作されるとき、請求項1〜14のいずれか一項に記載の方法が実現される、前記コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、2018年11月30日に出願された、出願番号201811459428.7の中国特許出願に基づいて提出され、該中国特許出願の優先権を主張し、該中国特許出願の全ての内容が参照によって本願に組み込まれる。
【0002】
本願は、コンピュータビジョン技術に関するが、ビジョン技術に限定されなく、特に、画像の記述文位置決定方法及び装置、電子機器並びに記憶媒体に関する。
【背景技術】
【0003】
指示語句の位置決定は、コンピュータビジョンと自然言語処理の重なった分野の重要な課題となっており、例えば、提供された文(語句)により、画像において、該語句に記述された対象(人又は物体等)の位置を決定することを機械に実行させることができる。関連技術には、位置決定モジュールと関係モジュール等からなる、対象及びその関係を認識するための組合モジュール化ネットワークが開示されているが、これらのモデルは特定の単語又はビジョン概念に対する依存性が非常に高く、一般に観察される証拠に片寄ることがあるので、語句と画像の対応効果が悪い。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本願は、画像の記述文位置決定の技術的手段を提供する。
【課題を解決するための手段】
【0005】
本願の一態様によれば、被解析記述文と被解析画像に対して解析処理を行って、前記被解析記述文の複数の語句注目度重み及び前記被解析画像の複数の画像注目度重みを取得することと、前記複数の語句注目度重み及び被解析画像の主体特徴、位置特徴、関係特徴により、複数の第1マッチングスコアを取得することであって、前記被解析画像に複数の対象を含み、主体対象が前記複数の対象のうち、注目度重みが最も高い対象であり、前記主体特徴が前記主体対象の特徴であり、前記位置特徴が前記複数の対象の位置特徴であり、前記関係特徴が前記複数の対象の間の関係特徴であることと、前記複数の第1マッチングスコア及び前記複数の画像注目度重みにより、前記被解析記述文と前記被解析画像との第2マッチングスコアを取得することと、前記第2マッチングスコアにより、前記被解析記述文の前記被解析画像での位置決定結果を決定することとを含む画像の記述文位置決定方法を提供する。
【0006】
本願の一態様によれば、被解析記述文と被解析画像に対して解析処理を行って、前記被解析記述文の複数の語句注目度重み及び前記被解析画像の複数の画像注目度重みを取得するように構成される第1重み取得モジュールと、前記複数の語句注目度重み及び被解析画像の主体特徴、位置特徴、関係特徴により、複数の第1マッチングスコアを取得するように構成される第1スコア取得モジュールであって、前記被解析画像に複数の対象を含み、主体対象が前記複数の対象のうち、注目度重みが最も高い対象であり、前記主体特徴が前記主体対象の特徴であり、前記位置特徴が前記複数の対象の位置特徴であり、前記関係特徴が前記複数の対象の間の関係特徴である第1スコア取得モジュールと、前記複数の第1マッチングスコア及び前記複数の画像注目度重みにより、前記被解析記述文と前記被解析画像との第2マッチングスコアを取得するように構成される第2スコア取得モジュールと、前記第2マッチングスコアにより、前記被解析記述文の前記被解析画像での位置決定結果を決定するように構成される結果決定モジュールとを含む画像の記述文位置決定装置を提供する。
【0007】
本願の一態様によれば、上記方法を実行するように構成されるプロセッサと、プロセッサ実行可能命令を記憶するためのメモリとを含む電子機器を提供する。
【0008】
本願の一態様によれば、コンピュータプログラム命令を記憶したコンピュータ可読記憶媒体であって、前記コンピュータプログラム命令がプロセッサにより実行される時に上記方法が実現されるコンピュータ可読記憶媒体を提供する。
【発明の効果】
【0009】
本願の実施例では、被解析記述文の語句注目度重み及び被解析画像の画像注目度重みを取得し、語句注目度重み及び画像の主体特徴、位置特徴、関係特徴により、複数の第1マッチングスコアを取得し、第1マッチングスコア及び画像注目度重みにより、第2マッチングスコアを取得し、第2マッチングスコアにより、位置決定結果を決定することができ、それによって、テキストとビジョン的意味との対応関係を十分に発見し、記述文の画像での位置決定の正確度を高める。
【0010】
以上の一般説明と以下の詳細説明は解釈するための例示的なものに過ぎず、本願を制限しないことを理解すべきである。以下の図面と関連付けられた例示的な実施例に対する詳細な説明によれば、本願の他の特徴および態様は明確になる。
【図面の簡単な説明】
【0011】
ここの図面は明細書に組み込まれて明細書の一部を構成し、これらの図面は本願に合致する実施例を示し、明細書と共に本願の技術的手段を説明するために用いられる。
図1】本願の実施例に係る画像の記述文位置決定方法のフローチャートを示す。
図2】本願の実施例に係るニューラルネットワークの模式図を示す。
図3】本願の実施例に係る第2サンプル記述文を取得する模式図を示す。
図4】本願の実施例に係る第2サンプル画像を取得する模式図を示す。
図5】本願の実施例に係る画像の記述文位置決定装置のブロック図を示す。
図6】本願の実施例に係る電子機器のブロック図を示す。
図7】本願の実施例に係る電子機器のブロック図を示す。
【発明を実施するための形態】
【0012】
以下に図面を参照しながら本願の様々な例示的実施例、特徴および態様を詳細に説明する。図面における同じ符号は同じまたは類似する機能の要素を表す。図面において実施例の様々な態様を示したが、特に断らない限り、比例に従って図面を作る必要がない。
【0013】
ここの用語「例示的」とは、「例、実施例として用いられることまたは説明的なもの」を意味する。ここで「例示的」に説明したいかなる実施例も他の実施例より優れたまたはより良好なものと解釈すべきではない。
【0014】
本明細書の用語の「及び/又は」は、関連対象の関連関係を記述するためのものに過ぎず、3つの関係が存在可能であることを示し、例えば、A及び/又はBは、Aが単独して存在し、AとBが同時に存在し、Bが単独して存在するという3つの場合を示してもよい。また、本明細書の用語の「少なくとも1つ」は複数のうちのいずれか1つ又は複数のうちの少なくとも2つの任意の組合を示し、例えば、A、B、Cのうちの少なくとも1つを含むということは、A、B及びCから構成される集合から選択されるいずれか1つ又は複数の要素を含むことを示してもよい。
【0015】
また、本願をより効果的に説明するために、以下の具体的な実施形態において様々な具体的詳細を示す。当業者であれば、何らかの具体的詳細がなくなるにも関わらず、本願は同様に実施できるということを理解すべきである。いくつかの実施例では、本願の趣旨を強調するよう、当業者に既知の方法、手段、要素および回路に対する詳細な説明を省略する。
【0016】
本発明の各実施例では、前記画像の記述文位置決定方法は、ユーザ装置(User Equipment、UE)、携帯機器、ユーザ端末、端末、セル方式の携帯無線電話、無線電話、携帯情報端末(Personal Digital Assistant、PDA)、携帯型デバイス、コンピューティング装置、車載装置、ウェアラブル装置等の端末装置又はサーバ等の電子機器により実行してもよく、前記方法はプロセッサによりメモリに記憶されたコンピュータ読取可能命令を呼び出すことで実現してもよい。又は、サーバによって前記方法を実行してもよい。
【0017】
図1は、本願の実施例に係る画像の記述文位置決定方法のフローチャートを示す。該方法は以下のステップを含む。
【0018】
ステップS11では、被解析記述文と被解析画像に対して解析処理を行って、前記被解析記述文の複数の語句注目度重み及び前記被解析画像の複数の画像注目度重みを取得する。
【0019】
可能な一実施形態では、被解析画像には、複数の対象(人、動物、物体等)、例えば複数の馬に乗っている人を含んでよい。被解析記述文は、被解析画像中のある対象を記述するものであってよく、例えば、「まん中に位置する、女の子が乗っている茶色の馬」であってよい。被解析画像と被解析記述文は対応してもよく、対応しなくてもよい。本願の実施例の方法により語句と画像との関連を決定することができる。
【0020】
可能な一実施形態では、被解析記述文の複数の語句注目度重みは、語句主語重み、語句位置重み及び語句関係重みを含んでよく、それぞれ被解析記述文の異なる種類の分割単語に対応する注目度重みを表すためのものである。
【0021】
可能な一実施形態では、被解析画像の複数の画像注目度重みは、主体対象重み、対象位置重み及び対象関係重みを含んでよく、それぞれ被解析画像の異なる種類の画像領域に対応する注目度重みを表すためのものである。
【0022】
ステップS12では、前記複数の語句注目度重み及び被解析画像の主体特徴、位置特徴、関係特徴により、複数の第1マッチングスコアを取得し、ここで、前記被解析画像に複数の対象を含み、主体対象が前記複数の対象のうち、注目度重みが最も高い対象であり、前記主体特徴が前記主体対象の特徴であり、前記位置特徴が前記複数の対象の位置特徴であり、前記関係特徴が前記複数の対象の間の関係特徴である。
【0023】
可能な一実施形態では、前記被解析画像には、複数の対象(人、動物、物体等)を含み、主体対象が前記複数の対象のうち、注目度重みが最も高い対象である。前記主体特徴が前記主体対象の自分の画像特徴であり、前記位置特徴が前記複数の対象の間の相対位置を体現する位置特徴であり、前記関係特徴が前記複数の対象の間の相対関係を体現する関係特徴である。
【0024】
可能な一実施形態では、複数の第1マッチングスコアは、主語マッチングスコア、位置マッチングスコア及び関係マッチングスコアを含んでよい。主語マッチングスコアは、被解析画像中の主体対象と被解析記述文の対象記述の間のマッチング度合いを評価するためのものであり、位置マッチングスコアは、被解析画像中の複数の対象の相対位置と被解析記述文の位置記述の間のマッチング度合いを評価するためのものであり、関係マッチングスコアは、被解析画像中の複数の対象の関連性と被解析記述文の関連記述の間のマッチング度合いを評価するためのものである。
【0025】
ステップS13では、前記複数の第1マッチングスコア及び前記複数の画像注目度重みにより、前記被解析記述文と前記被解析画像との第2マッチングスコアを取得する。
【0026】
可能な一実施形態では、主語マッチングスコア、位置マッチングスコア及び関係マッチングスコア並びに主体対象重み、対象位置重み及び対象関係重みにより、前記被解析記述文と前記被解析画像との第2マッチングスコアを取得することができる。第2マッチングスコアは、被解析画像と被解析記述文との全体的なマッチング度合いを評価するためのものである。
【0027】
ステップS14では、前記第2マッチングスコアにより、前記被解析記述文の前記被解析画像での位置決定結果を決定する。
【0028】
可能な一実施形態では、第2マッチングスコアを取得した後、更に被解析記述文の被解析画像での決定位置を決定して、記述文の画像での位置の決定を実現することができる。
【0029】
本願の実施例によれば、被解析記述文の語句注目度重み及び被解析画像の画像注目度重みを取得し、語句注目度重み及び画像の主体特徴、位置特徴、関係特徴により、複数の第1マッチングスコアを取得し、第1マッチングスコア及び画像注目度重みにより、第2マッチングスコアを取得し、第2マッチングスコアにより、位置決定結果を決定することができ、それによって、テキストとビジョン的意味との対応関係を十分に発見し、記述文の画像での位置決定の正確度を高める。
【0030】
可能な一実施形態では、ステップS11で被解析記述文と被解析画像に対して解析処理を行って、前記被解析記述文の複数の語句注目度重み及び前記被解析画像の複数の画像注目度重みを取得することができる。ここで、ステップS11は、
前記被解析画像に対して特徴抽出を行って、前記被解析画像の画像特徴ベクトルを取得することと、
前記被解析記述文に対して特徴抽出を行って、前記被解析記述文の複数の分割単語の分割単語埋め込みベクトルを取得することと、
前記画像特徴ベクトル及び前記複数の分割単語の分割単語埋め込みベクトルにより、前記被解析記述文の複数の語句注目度重み及び前記被解析画像の複数の画像注目度重みを取得することとを含んでよい。
【0031】
例を挙げると、被解析画像と被解析記述文に対してそれぞれ特徴抽出を行ってよい。被解析画像については、被解析画像の全ての画素点に対して特徴抽出を行って、被解析画像の画像特徴ベクトルeを取得することができる。本願は、被解析画像の特徴抽出形態を限定するものではない。
【0032】
可能な一実施形態では、被解析記述文については、単語分割処理を行って被解析記述文の複数の分割単語を決定し、各分割単語に対して特徴抽出を行って複数の分割単語の分割単語埋め込みベクトル(word embedding)
を取得することができ、ただし、Tは分割単語の数量(Tが1より大きい整数である)を表し、
はt番目の分割単語埋め込みベクトルを表し、1≦t≦Tである。本願は、被解析記述文の具体的な単語分割形態及び各分割単語の特徴抽出の具体的な形態を限定するものではない。
【0033】
可能な一実施形態では、決定された画像特徴ベクトル及び前記複数の分割単語の分割単語埋め込みベクトルにより、前記被解析記述文の複数の語句注目度重み及び前記被解析画像の複数の画像注目度重みを決定することができる。
【0034】
可能な一実施形態では、前記方法は、ニューラルネットワークによって前記被解析記述文の複数の語句注目度重み及び前記被解析画像の複数の画像注目度重みを取得することを更に含んでよい。該ニューラルネットワークは、リカレントニューラルネットワーク(RNN)、長短期記憶(LSTM)ネットワーク等のネットワークによって実現可能である言語注目度ネットワークを含んでよい。前記被解析画像と前記被解析記述文を言語注目度ネットワークに入力して処理して、前記複数の語句注目度重み及び前記複数の画像注目度重みを取得することができる。
【0035】
可能な一実施形態では、前記被解析画像と前記被解析記述文を言語注目度ネットワークに入力して処理して、前記複数の語句注目度重み及び前記複数の画像注目度重みを取得することができる。
【0036】
例を挙げると、言語注目度ネットワークの特徴抽出サブネットワークによって特徴抽出を行って、それぞれ画像特徴ベクトルe及び分割単語埋め込みベクトル
を取得することができる。該特徴抽出サブネットワークは畳み込みニューラルネットワークCNN(例えば、Faster CNN)であってよい。
【0037】
可能な一実施形態では、言語注目度ネットワークは、注目度メカニズムに基づくLSTMネットワークを備えてよい。画像特徴ベクトルeをLSTMネットワークの一段目の入力とし、且つ分割単語埋め込みベクトル
をLSTMネットワークの各段階の回帰の入力として、LSTMネットワークの複数の隠蔽層の出力状態hを取得することができる。
【0038】
可能な一実施形態では、複数の状態hにより、画像注目度重み及び各分割単語の注目度重みを算出することができ、複数の分割単語の注目度重みにより複数の分割単語埋め込みベクトル
に対して加重加算を行って、語句注目度重みを取得することができる。
【0039】
可能な一実施形態では、被解析記述文の複数の語句注目度重みは分割単語レベルの注目度重み(word−level attention weights)であり、語句主語重みqsubj、語句位置重みqloc及び語句関係重みqrelを含んでよく、それぞれ被解析記述文の異なる種類の分割単語に対応する注目度重みを表す。
【0040】
ここで、語句主語重みは、語句中の主語の分割単語を注目する時の注目度重みを表すためのものであり、例えば、「まん中に位置する、女の子が乗っている茶色の馬」という語句において、主語の分割単語の「茶色の馬」又は「馬」の注目度重みであり、語句位置重みは、語句で位置を表す分割単語を注目する時の注目度重みを表すためのものであり、例えば、上記語句において、位置を表す分割単語の「まん中に位置する」の注目度重みであり、語句関係重みは、語句で対象間の関係を表す分割単語を注目する時の注目度重みを表すためのものであり、例えば、上記語句において、対象間の関係を表す分割単語の「女の子が乗っている」の注目度重みである。
【0041】
可能な一実施形態では、被解析画像の複数の画像注目度重みは、モジュールレベルの注目度重み(module−level attention weights)であり、主体対象重みωsubj、対象位置重みωloc及び対象関係重みωrelを含んでよく、それぞれ被解析画像の異なる種類の画像領域に対応する注目度重みを表す。
【0042】
ここで、主体対象重みは、画像中の複数の対象(人、動物、物体等)のうち、最も重要な対象(主体対象)、例えば、画像のまん中に位置する人物を注目する時の注目度重みを表してよく、対象位置重みは、画像中の複数の対象の相対位置、例えば、画像のまん中、左側及び右側位置を注目する時の注目度重みを表してよく、対象関係重みは、画像中の複数の対象間の関連性を注目する時の注目度重みを表してよく、例えば、画像のまん中、左側及び右側にそれぞれ馬に乗っている人がいる。
【0043】
いくつかの実施例では、画像注目度重みは、該対象の画像での各種の画像パラメータにより決定されてよく、該画像パラメータは、該対象の画像での分布位置、該対象の画像での占用面積、該対象の画像での主体色を含むが、それらに限定されない。例えば、分布位置にしたがって、画像エッジに位置する対象に対して、画像のまん中に位置する対象は高い画像注目度重みを取得してよい。更に、例えば、小さい面積の対象に対して、画像で占める面積が大きい対象は高い画像注目度重みを有してよい。更に、例えば、対象の主体色は被追跡目標の色であり、他の色に対して高い画像注目度重みを有してよい。
【0044】
さらに別の実施例では、対象の各種の著しい状態により画像注目度対象を決定し、例えば、道路監視ビデオの画像フレームを解析し、追跡される対象が車両である場合に、ルール違反が発生した対象に高い画像注目度を有し、例えば、画像に含まれる車両に実線をはみ出した行動特徴がある場合に、該対象に高い画像注目度重みを構成してよい。
【0045】
以上、画像注目度重みについて例を挙げて説明したが、具体的な画像注目度重みを画像処理要求に応じて構成することが可能であり、上記例に限定されないことはいうまでもない。
【0046】
このような形態によれば、言語注目度ネットワークによってビジョン(画像)とテキスト(語句)中の異なる種類の情報を捉えることができ、それによって画像と語句の各方面での対応関係を発見して、処理精度を高めた。
【0047】
可能な一実施形態では、ステップS12の前に、前記方法は、前記被解析画像を特徴抽出ネットワークに入力して処理して、前記被解析画像の主体特徴、位置特徴及び関係特徴を取得することを更に含む。
【0048】
例を挙げると、特徴抽出ネットワークは、被解析画像の主体特徴、位置特徴及び関係特徴を抽出するために用いられる、プリセットの1つ又は複数の畳み込みニューラルネットワーク(CNN)(例えば、Faster R−CNN)であってよい。被解析画像の全ての画素点を特徴抽出ネットワークに入力し、ROIプーリングの前の特徴マップを被解析画像の全体的な画像特徴として使用することができる。
【0049】
可能な一実施形態では、主体特徴については、被解析画像中の複数の対象を認識し、複数の領域中の注目度重みが最も高い対象を抽出して主体対象として使用し、主体対象の領域の特徴マップを主体特徴として使用することができる。例えば、7×7の特徴マップを抽出して主体特徴として使用する。
【0050】
可能な一実施形態では、位置特徴については、被解析画像中の複数の対象の所在する画像領域同士の相対位置偏差量及び相対領域、並びに対象自体の位置及び相対領域により、位置特徴を取得することができる。
【0051】
可能な一実施形態では、関係特徴については、領域推薦で平均プーリングを行ったビジョン特徴、相対位置偏差量及び相対領域間の結合により、前後文の対象(複数の対象)の間の関係特徴を決定することができる。
【0052】
被解析画像の主体特徴、位置特徴及び関係特徴を抽出する具体的な形態が本願により限定されないことを理解すべきである。
【0053】
可能な一実施形態では、ステップS12で前記複数の語句注目度重み及び被解析画像の主体特徴、位置特徴、関係特徴により、複数の第1マッチングスコアを取得することができる。
【0054】
例を挙げると、ニューラルネットワークによって複数の第1マッチングスコアを取得してよい。前記ニューラルネットワークは、主体ネットワーク、位置ネットワーク及び関係ネットワークを含む画像注目度ネットワークを含んでよい。ここで、主体ネットワーク、位置ネットワーク及び関係ネットワークはそれぞれ予め構築された畳み込みニューラルネットワーク(CNN)であってよい。
【0055】
ここで、主体ネットワークは、被解析画像中の複数の対象(人、動物、物体等)のうち、最も重要な対象(主体対象)と被解析記述文の対象記述の間のマッチング度合いを評価するためのものであり、位置ネットワークは、被解析画像中の複数の対象の相対位置と被解析記述文の位置記述の間のマッチング度合いを評価するためものであり、関係ネットワークは被解析画像中の複数の対象の関連性と被解析記述文の関連記述の間のマッチング度合いを評価するためのものである。
【0056】
可能な一実施形態では、前記複数の語句注目度重み及び被解析画像の主体特徴、位置特徴、関係特徴をそれぞれ主体ネットワーク、位置ネットワーク及び関係ネットワークに入力して処理して、画像と語句の各方面でのマッチング度合いを評価することができる。
【0057】
ここで、主体対象は被解析画像の複数の対象のうち、注目度重みが最も高い対象であり、主体特徴は前記主体対象の特徴であり、前記位置特徴は前記複数の対象の位置特徴であり、前記関係特徴は前記複数の対象間の関係特徴である。
【0058】
可能な一実施形態では、ステップS12で得られた複数の第1マッチングスコアは、主語マッチングスコア、位置マッチングスコア及び関係マッチングスコアを含んでよい。
【0059】
可能な一実施形態では、ステップS12には、語句主語重み及び主体特徴を前記主体ネットワークに入力して処理して、主語マッチングスコアを取得することと、語句位置重み及び位置特徴を前記位置ネットワークに入力して処理して、位置マッチングスコアを取得することと、語句関係重み及び関係特徴を前記関係ネットワークに入力して処理して、関係マッチングスコアを取得することとを含んでよい。
【0060】
本実施例では、語句主語重み及び主体特徴を主体ネットワークに入力して、被解析記述文の主語と被解析画像の主体対象の間のマッチング度合いを解析して主語マッチングスコアを取得することができ、語句位置重み及び位置特徴を位置ネットワークに入力して、被解析記述文の位置分割単語と被解析画像の複数の対象の相対位置間のマッチング度合いを解析して位置マッチングスコアを取得することができ、語句関係重み及び関係特徴を関係ネットワークに入力して、被解析記述文の関係分割単語と被解析画像の複数の対象の関連性の間のマッチング度合いを解析して関係マッチングスコアを取得することができる。
【0061】
例を挙げると、複数の語句注目度重み(語句主語重みqsubj、語句位置重みqloc及び語句関係重みqrel)、及び複数の対象特徴(主体特徴、位置特徴および関係特徴)をそれぞれ主体ネットワーク、位置ネットワーク及び関係ネットワークに入力して処理してよい。
【0062】
このような方式によれば、画像と記述文の各方面でのマッチング度合いを決定でき、マッチング判断の正確性を高めた。
【0063】
可能な一実施形態では、ステップS13で前記複数の第1マッチングスコア及び前記複数の画像注目度重みにより、前記被解析記述文と前記被解析画像との第2マッチングスコアを取得することができる。即ち、主語マッチングスコア、位置マッチングスコア及び関係マッチングスコア並びに主体対象重みωsubj、対象位置重みωloc及び対象関係重みωrelにより、前記被解析記述文と前記被解析画像との第2マッチングスコアを取得する。
【0064】
ここで、ステップS13は、
前記主体対象重み、前記対象位置重み及び前記対象関係重みにより、前記主語マッチングスコア、前記位置マッチングスコア及び前記関係マッチングスコアに対して加重平均を行って、前記第2マッチングスコアを決定することを含んでよい。
【0065】
例を挙げると、主語マッチングスコア、位置マッチングスコア及び関係マッチングスコアを取得した後、主体対象重みωsubj、対象位置重みωloc及び対象関係重みωrelにより、主語マッチングスコア、位置マッチングスコア及び関係マッチングスコアのそれぞれに対して加重を行って、加重された後のスコアの和を求めてから平均値を求めることができる。該平均値を被解析記述文と被解析画像との第2マッチングスコアとしてよい。
【0066】
このような方式によれば、被解析記述文と被解析画像との正確なマッチングスコアを取得することができる。
【0067】
可能な一実施形態では、ステップS14で前記第2マッチングスコアにより前記被解析記述文の前記被解析画像での位置決定結果を決定することができる。即ち、第2マッチングスコアを取得した後、更に被解析記述文の被解析画像での位置決定結果を決定してよい。ここで、ステップS14には、
前記第2マッチングスコアがプリセットの閾値より大きいか等しい場合に、前記主体対象の画像領域を前記被解析記述文の位置決定として決定することを含んでよい。
【0068】
例を挙げると、マッチングスコアの閾値を予め設定してよく(例えば、プリセットの閾値を70点としてよい)、第2マッチングスコアが該プリセットの閾値より大きいか等しい場合に、被解析記述文は被解析画像中の主体対象を記述するものであると考えられ、主体対象の所在する画像領域を被解析記述文の位置決定として決定することができる。逆には、第2マッチングスコアが該プリセットの閾値より小さい場合に、被解析記述文は被解析画像中の主体対象を記述するものではないと考えられ、位置決定結果を対応不可とすることができる。該プリセットの閾値を当業者により実際に応じて設定可能であって、本願がプリセットの閾値の具体的な値を限定するものではないことを理解すべきである。
【0069】
可能な一実施形態では、被解析画像中でそれぞれ複数の主体対象を設定し、各主体対象の主体特徴をそれぞれ画像注目度ネットワークに入力して処理し、各主体対象の第2マッチングスコアを決定し、且つ複数の第2マッチングスコアのうちの最高スコアを決定することができる。この場合に、被解析記述文は最高スコアに対応する主体対象を記述するものであると考えられ、該主体対象の所在する画像領域を被解析記述文の位置決定として決定することができる。
【0070】
このような方式によれば、被解析記述文の被解析画像での精確な位置決定を実現することができる。
【0071】
図2は、本願の実施例に係るニューラルネットワークの模式図を示す。図2に示すように、該ニューラルネットワークは、言語注目度ネットワーク21と、画像注目度ネットワークとを含むことができ、前記画像注目度ネットワークは、主体ネットワーク22、位置ネットワーク23及び関係ネットワーク24を備える。
【0072】
この例では、「まん中に位置する、女の子が乗っている茶色の馬」という被解析記述文201と被解析画像202を言語注目度ネットワーク21に入力して処理して、3つの画像注目度重み(主体対象重みωsubj、対象位置重みωloc及び対象関係重みωrel)を出力すると共に、3つの語句注目度重み(語句主語重みqsubj、語句位置重みqloc及び語句関係重みqrel)を出力することができる。
【0073】
この例では、特徴抽出ネットワーク(未図示)によって被解析画像の主体特徴203、位置特徴204及び関係特徴205を取得してよい。
【0074】
この例では、語句主語重みqsubj及び主体特徴203を主体ネットワーク22に入力して処理して、主語マッチングスコアを取得することができ、語句位置重みqloc及び位置特徴204を位置ネットワーク23に入力して処理して、位置マッチングスコアを取得することができ、語句関係重みqrel及び関係特徴205を関係ネットワーク24に入力して処理して、関係マッチングスコアを取得することができる。
【0075】
この例では、主体対象重みωsubj、対象位置重みωloc及び対象関係重みωrelにより、主語マッチングスコア、位置マッチングスコア及び関係マッチングスコアのそれぞれに対して加重を行って、加重された後のスコアに対して加算してから平均値を求めて、第2マッチングスコア206を取得し、更に第2マッチングスコア206により被解析記述文の被解析画像での位置決定結果を決定し、それによりステップS11〜S14の全般の実現プロセスを終了する。
【0076】
上述したのが本願の方法を実現するニューラルネットワークの一例に過ぎず、本願がニューラルネットワークの具体的な種類を限定するものではないことを理解すべきである。
【0077】
可能な一実施形態では、ステップS11の前に、前記方法は、複数の正のサンプルペアと複数の負のサンプルペアを含むサンプル集合を用いて前記ニューラルネットワークをトレーニングすることを更に含む。
【0078】
ここで、各正のサンプルペアは、第1サンプル画像及びその第1サンプル記述文を含み、
各負のサンプルペアは、第1サンプル画像及び前記第1サンプル記述文から分割単語が除去された後の第2サンプル記述文、又は第1サンプル記述文及び前記第1サンプル画像から領域が除去された後の第2サンプル画像を含む。
【0079】
可能な一実施形態では、注目度誘導に基づくクロスモダリティ除去方式によって、高い注目度重みのビジョン又はテキスト情報を除去して、除去後のトレーニングサンプル(第2サンプル記述文と第2サンプル画像)を取得して、トレーニング精度を高めることができる。
【0080】
例を挙げると、複数のトレーニングサンプルを含むサンプル集合を予め設定して、ニューラルネットワークをトレーニングすることができる。サンプル集合には、それぞれ第1サンプル画像O及びその第1サンプル記述文Qを含む、複数の正のサンプルペアを含む。第1サンプル画像中の対象を記述する語句を同一な正のサンプルペア中の第1サンプル記述文として使用してもよい。サンプル集合には、それぞれ第1サンプル画像及び第1サンプル記述文から分割単語が除去された後の第2サンプル記述文、又は第1サンプル記述文及び前記第1サンプル画像から領域が除去された後の第2サンプル画像を含む、複数の負のサンプルペアを更に含んでよい。本願はサンプル集合の具体的な確立形態を限定するものでもなく、各サンプルペア中のサンプル画像とサンプル記述文の間の前後順序を限定するものでもない。
【0081】
可能な一実施形態では、前記方法は、
前記正のサンプルペアの第1サンプル記述文及び第1サンプル画像を前記言語注目度ネットワークに入力して、前記第1サンプル記述文の複数の分割単語の注目度重みを取得することと、
所定のマークを用いて前記第1サンプル記述文内の注目度重みが最も高い分割単語を取り替えて、第2サンプル記述文を取得することと、
前記第1サンプル画像と前記第2サンプル記述文を負のサンプルペアとして使用することと、を更に含んでよい。
【0082】
可能な一実施形態では、言語注目度ネットワークによって空間注目度誘導を行って、最も重要なテキスト情報を除去して難しいテキストトレーニングサンプルを取得することができ、それによってニューラルネットワークの特定のテキスト情報(分割単語)に対する依存性が高すぎることを回避し、トレーニングされたニューラルネットワークの精度を高める。
【0083】
図3は、本願の実施例に係る第2サンプル記述文を取得する模式図を示す。例を挙げると、図3に示すように、正のサンプルペアの第1サンプル記述文(例えば、「まん中に位置する、女の子が乗っている茶色の馬」)及び第1サンプル画像(例えば、複数の馬に乗っている人を含む写真)を言語注目度ネットワークに入力して、第1サンプル記述文の複数の分割単語の注目度重みを取得することができる。各分割単語の注目度重みにより、注目度重みが最も高い分割単語(例えば「まん中」)を決定することができる。該分割単語の「まん中」を直接除去すれば構文誤りが発生して認識不可能になることがあるので、未知のマークを用いて該分割単語の「まん中」を取り替えて、第2サンプル記述文Q*(「未知」に位置する、女の子が乗っている茶色の馬)を取得することができ、それによって前記第1サンプル画像と前記第2サンプル記述文を負のサンプルペアとして使用することができる。
【0084】
可能な一実施形態では、前記方法は、
前記正のサンプルペアの第1サンプル記述文及び第1サンプル画像を前記画像注目度ネットワークに入力して、前記第1サンプル画像の注目度重みを取得することと、
前記第1サンプル画像内の注目度重みが最も高い画像領域を除去して、第2サンプル画像を取得することと、
前記第2サンプル画像と前記第1サンプル記述文を負のサンプルペアとして使用することと、を更に含んでよい。
【0085】
可能な一実施形態では、画像注目度ネットワークによって最も重要なビジョン情報を認識、除去して、難しい画像トレーニングサンプルを取得することができ、それによってニューラルネットワークの特定のビジョン情報に対する依存性が高すぎることを回避し、トレーニングされたニューラルネットワークの精度を高める。
【0086】
図4は、本願の実施例に係る第2サンプル画像を取得する模式図を示す。例を挙げると、図4に示すように、正のサンプルペアの第1サンプル画像(例えば、複数の馬に乗っている人を含む写真)と第1サンプル記述文(例えば、「まん中に位置する、女の子が乗っている茶色の馬」)を画像注目度ネットワークに入力して処理することができる。ここで、画像注目度ネットワークの主体ネットワークを用いてもよく、位置ネットワーク又は関係ネットワークを用いてもよく、本願はこれを限定するものではない。
【0087】
可能な一実施形態では、第1サンプル画像及び第1サンプル記述文を主体ネットワークに入力して、第1サンプル画像の各領域の注目度重みを取得することができる。各領域の注目度重みにより、注目度重みが最も高い目標領域(例えば、まん中の女の子の所在する画像領域)を決定することができる。第1サンプル画像から該目標領域を除去して、第2サンプル画像O*(図4に示すように)を取得することができ、それによって前記第2サンプル画像と前記第1サンプル記述文を負のサンプルペアとして使用することができる。
【0088】
可能な一実施形態では、サンプル集合を用いて前記ニューラルネットワークをトレーニングするステップは、前記ニューラルネットワークの第1損失と第2損失により、前記ニューラルネットワークの全損失を決定することを含んでよい。
【0089】
可能な一実施形態では、正のサンプルペア(第1サンプル画像及びその第1サンプル記述文)のネットワーク損失を取得して第1損失としてよい。また、除去後の負のサンプルペア(第2サンプル画像及び第1サンプル記述文、又は第1サンプル画像及び第2サンプル記述文)のネットワーク損失を取得する。
【0090】
可能な一実施形態では、サンプル集合を用いて前記ニューラルネットワークをトレーニングするステップは、前記全損失により、前記ニューラルネットワークをトレーニングすることを更に含んでよい。
【0091】
可能な一実施形態では、全体的なネットワーク損失Lを取得した後、全体的なネットワーク損失Lにより上記ニューラルネットワークをトレーニングすることができる。それによって、トレーニングされたニューラルネットワークが決定される。本願はニューラルネットワークの具体的なトレーニング形態を限定するものではない。
【0092】
可能な一実施形態では、前記ニューラルネットワークの第1損失と第2損失により、前記ニューラルネットワークの全損失を決定する前に、前記第1損失を取得することを更に含んでよい。
【0093】
前記第1損失を取得する前記ステップは、
同一な正のサンプルペアの第1サンプル画像及び第1サンプル記述文を前記ニューラルネットワークに入力して処理して、第1トレーニングスコアを取得することと、異なる正のサンプルペアの第1サンプル画像及び第1サンプル記述文を前記ニューラルネットワークに入力して処理して、第2トレーニングスコアを取得することと、複数の第1トレーニングスコアと複数の第2トレーニングスコアにより、第1損失を取得することと、を含む。
【0094】
例を挙げると、正のサンプルペア(第1サンプル画像及びその第1サンプル記述文)のネットワーク損失を取得してよい。トレーニング集合中のいずれか1つの正のサンプルペアについては、同一な正のサンプルペア(O,Q)の第1サンプル画像O及び第1サンプル記述文Q図2に示すニューラルネットワークに入力して処理して、第1トレーニングスコアs(O,Q)を取得することができる。ここで、iはサンプル番号であり、1≦i≦Nであり、Nはサンプル集合中の正のサンプルペアの数量である。
【0095】
可能な一実施形態では、異なる正のサンプルペアの第1サンプル画像及びそれに対応しない第1サンプル記述文(O,Q)については、図2に示すニューラルネットワークに入力して処理して、第2トレーニングスコアs(O,Q)を取得することができる。ただし、jはサンプル番号であり、1≦j≦Nであり、jはiと等しくない。同様に、異なる正のサンプルペアの第1サンプル画像と第1サンプル記述文(O,Q)をニューラルネットワークに入力して、別の第2トレーニングスコアs(O,Q)を取得することができる。
【0096】
可能な一実施形態では、それぞれトレーニング集合中の正のサンプルペア(第1サンプル画像及び第1サンプル記述文)を処理して、複数の第1トレーニングスコアと複数の第2トレーニングスコアを取得することができ、それによって最初サンプルの第1損失Lrankを取得することができ、
(1)
【0097】
式(1)において、演算子[x]は、xと0の間の最大値を取ることを示してよく、即ち、xが0より大きい時にxの値を取り、xが0以下である時に0を取り、mは、常数であってよく、ネットワーク損失のピッチを表すためのものである。当業者であれば実際に応じてmの値を設定可能であり(例えば、0.1)、本願では、mの具体的な値が限定されないことを理解すべきである。
【0098】
可能な一実施形態では、前記ニューラルネットワークの第1損失と第2損失により、前記ニューラルネットワークの全損失を決定する前に、前記第2損失を取得することを更に含み、
前記第2損失を取得する前記ステップは、
同一な負のサンプルペアの第2サンプル画像及び第1サンプル記述文を前記ニューラルネットワークに入力して処理して、第3トレーニングスコアを取得することと、異なる負のサンプルペアの第2サンプル画像及び第1サンプル記述文を前記ニューラルネットワークに入力して処理して、第4トレーニングスコアを取得することと、同一な負のサンプルペアの第1サンプル画像及び第2サンプル記述文を前記ニューラルネットワークに入力して処理して、第5トレーニングスコアを取得することと、異なる負のサンプルペアの第1サンプル画像及び第2サンプル記述文を前記ニューラルネットワークに入力して処理して、第6トレーニングスコアを取得することと、複数の第3トレーニングスコア、複数の第4トレーニングスコア、複数の第5トレーニングスコア及び複数の第6トレーニングスコアにより、第2損失を取得することとを含む。
【0099】
例を挙げると、除去後の負サンプル(第2サンプル画像及び第2サンプル記述文)のネットワーク損失を取得することができる。トレーニング集合中の同一な負のサンプルペア
については、第2サンプル画像
及び第1サンプル記述文
図2に示すニューラルネットワークに入力して処理して、第3トレーニングスコア
を取得することができる。ただし、iはサンプル番号であり、1≦i≦Nであり、Nはサンプル集合中のサンプルペアの数量である。
【0100】
可能な一実施形態では、トレーニング集合中の異なる負のサンプルペア(第2サンプル画像
及び対応しない第1サンプル記述文
)については、図2に示すニューラルネットワークに入力して処理して、第4トレーニングスコア
を取得することができる。ここで、jはサンプル番号であり、1≦j≦Nであり、jはiと等しくない。
【0101】
同様に、同一な負のサンプルペア
の第1サンプル画像と対応する第2サンプル記述文をニューラルネットワークに入力して、第5トレーニングスコア
を取得することができ、異なる負のサンプルペア
の第1サンプル画像と第2サンプル記述文をニューラルネットワークに入力して、第6トレーニングスコア
を取得することができる。
【0102】
可能な一実施形態では、トレーニング集合中の複数の正のサンプルペア(第1サンプル画像及び第1サンプル記述文)及び除去後の負のサンプルペアをそれぞれ処理して、複数の第3トレーニングスコア、複数の第4トレーニングスコア、複数の第5トレーニングスコア及び複数の第6トレーニングスコアを取得することができ、更に除去後のサンプルの第2損失Leraseを取得でき、
(2)
【0103】
式(2)において、演算子[x]は、xと0の間の最大値を取ることを示してよく、即ち、xが0より大きい時に、xの値を取り、xが0以下である時に、0を取り、mは、常数であってよく、ネットワーク損失のピッチを表すためのものである。当業者であれば実際に応じてmの値を設定可能であり(例えば、0.1)、本願では、mの具体的な値が限定されないことを理解すべきである。
【0104】
可能な一実施形態では、第1損失と第2損失を決定した後、第1損失と第2損失により前記ニューラルネットワークの全損失を決定し、更に全損失により前記ニューラルネットワークをトレーニングすることができる。
【0105】
ここで、前記ニューラルネットワークの第1損失と第2損失により、前記ニューラルネットワークの全損失を決定するステップは、前記第1損失と前記第2損失に対して加重重畳を行って、前記ニューラルネットワークの全損失を取得することを含んでよい。
【0106】
例を挙げると、下式によってニューラルネットワークの全体的なネットワーク損失Lを計算してよく、
(3)
【0107】
式(3)において、βとγはそれぞれ第1損失と第2損失の重みを表す。当業者であれば、実際に応じてβとγの値を設定可能であり、本願ではβとγの具体的な値が限定されないことを理解すべきである。
【0108】
可能な一実施形態では、全体的なネットワーク損失Lを取得した後、全体的なネットワーク損失Lにより上記ニューラルネットワークをトレーニングすることができる。例えば、全体的なネットワーク損失Lにより、逆勾配法を用いて前記ニューラルネットワークのネットワークパラメータ値を調整し、更に、全体的なネットワーク損失Lを再度取得することができる。数回の調整によって特定のトレーニング条件に到達した(ネットワーク損失Lが縮約し又はトレーニング回数に到達した)時、トレーニングされたニューラルネットワークを決定することができる。本願はニューラルネットワークの具体的なトレーニング形態を限定するものではない。
【0109】
本願の実施例に係る画像の記述文位置決定方法によれば、クロスモダリティ消去の方式によって注目度重みが高い最も主要なビジョン又はテキスト情報を消去して難しいトレーニングサンプルを生成し、それによってニューラルネットワークモデルに最も主要な証拠以外の補充証拠を探させるように促進する。本願の実施例によれば、最初照会語句の消去画像を利用するか、又は最初画像の消去照会語句を利用して、難しいトレーニングサンプルを形成し、それによって、推定複雑性を増加せずにトレーニングデータに基づいて潜在的な文字−写真対応関係をニューラルネットワークモデルに更に好適に学習させる。
【0110】
本願の実施例は、ロボット又は携帯電話等の端末に利用して、人間の指導(文字又は音声)により画像内の人物の位置を決定して、テキストと画像を正確に対応付けるのを実現することができる。
【0111】
具体的な実施形態の上記方法において、各ステップの記述順序は厳しい実行順序であるというわけではなく、実施プロセスの何の制限にもならなく、各ステップの具体的な実行順序はその機能と可能な内在的論理に依存することが当業者に理解される。
【0112】
本願で言及される上記各方法の実施例は、原理と論理に違反しない限り、相互に組み合わせて、組合せ後の実施例を形成することができることが理解され、紙数に限りがあるので、本願では詳細な説明を省略する。
【0113】
図5は、本願の実施例に係る画像の記述文位置決定装置のブロック図を示し、図5に示すように、前記画像の記述文位置決定装置は、
被解析記述文と被解析画像に対して解析処理を行って、前記被解析記述文の複数の語句注目度重み及び前記被解析画像の複数の画像注目度重みを取得するように構成される第1重み取得モジュール51と、
前記複数の語句注目度重み及び被解析画像の主体特徴、位置特徴、関係特徴により、複数の第1マッチングスコアを取得するように構成される第1スコア取得モジュール52であって、前記被解析画像に複数の対象を含み、主体対象が前記複数の対象のうち、注目度重みが最も高い対象であり、前記主体特徴が前記主体対象の特徴であり、前記位置特徴が前記複数の対象の位置特徴であり、前記関係特徴が前記複数の対象の間の関係特徴である第1スコア取得モジュール52と、
前記複数の第1マッチングスコア及び前記複数の画像注目度重みにより、前記被解析記述文と前記被解析画像との第2マッチングスコアを取得するように構成される第2スコア取得モジュール53と、
前記第2マッチングスコアにより、前記被解析記述文の前記被解析画像での位置決定結果を決定するように構成される結果決定モジュール54とを含む。
【0114】
可能な一実施形態では、前記第1重み取得モジュールは、
前記被解析画像に対して特徴抽出を行って、前記被解析画像の画像特徴ベクトルを取得するように構成される画像特徴抽出サブモジュールと、
前記被解析記述文に対して特徴抽出を行って、前記被解析記述文の複数の分割単語の分割単語埋め込みベクトルを取得するように構成される分割単語特徴抽出サブモジュールと、
前記画像特徴ベクトル及び前記複数の分割単語の分割単語埋め込みベクトルにより、前記被解析記述文の複数の語句注目度重み及び前記被解析画像の複数の画像注目度重みを取得するように構成される第1重み取得サブモジュールとを含む。
【0115】
可能な一実施形態では、前記装置は、ニューラルネットワークによって前記被解析記述文の複数の語句注目度重み及び前記被解析画像の複数の画像注目度重みを取得するように構成される第2重み取得モジュールを更に含む。
【0116】
可能な一実施形態では、前記複数の語句注目度重みは、語句主語重み、語句位置重み及び語句関係重みを含み、前記ニューラルネットワークは、画像注目度ネットワークを含み、前記画像注目度ネットワークは、主体ネットワーク、位置ネットワーク及び関係ネットワークを含み、前記複数の第1マッチングスコアは、主語マッチングスコア、位置マッチングスコア及び関係マッチングスコアを含み、前記第1スコア取得モジュールは、
前記語句主語重み及び主体特徴を前記主体ネットワークに入力して処理して、前記主語マッチングスコアを取得するように構成される第1スコア取得サブモジュールと、
前記語句位置重み及び位置特徴を前記位置ネットワークに入力して処理して、前記位置マッチングスコアを取得するように構成される第2スコア取得サブモジュールと、
前記語句関係重み及び関係特徴を前記関係ネットワークに入力して処理して、前記関係マッチングスコアを取得するように構成される第3スコア取得サブモジュールとを含む。
【0117】
可能な一実施形態では、前記複数の画像注目度重みは、主体対象重み、対象位置重み及び対象関係重みを含み、前記第2スコア取得モジュールは、
前記主体対象重み、前記対象位置重み及び前記対象関係重みにより、前記主語マッチングスコア、前記位置マッチングスコア及び前記関係マッチングスコアに対して加重平均を行って、前記第2マッチングスコアを決定するように構成される第4スコア取得サブモジュールを含む。
【0118】
可能な一実施形態では、前記装置は、
前記被解析画像を特徴抽出ネットワークに入力して処理して、前記主体特徴、前記位置特徴及び前記関係特徴を取得するための第3重み取得モジュールを更に含む。
【0119】
可能な一実施形態では、前記結果決定モジュールは、
前記第2マッチングスコアがプリセットの閾値より大きいか等しい場合に、前記主体対象の画像領域を前記被解析記述文の位置決定として決定するように構成される位置決定サブモジュールを含む。
【0120】
可能な一実施形態では、前記第2重み取得モジュールの前、複数の正のサンプルペアと複数の負のサンプルペアを含むサンプル集合を用いて前記ニューラルネットワークをトレーニングするように構成されるトレーニングモジュールを更に含み、
ここで、各正のサンプルペアは、第1サンプル画像及びその第1サンプル記述文を含み、
各負のサンプルペアは、第1サンプル画像及び前記第1サンプル記述文から分割単語が除去された後の第2サンプル記述文、又は第1サンプル記述文及び前記第1サンプル画像から領域が除去された後の第2サンプル画像を含む。
【0121】
可能な一実施形態では、前記ニューラルネットワークは、言語注目度ネットワークを更に含み、前記装置は、
前記正のサンプルペアの第1サンプル記述文及び第1サンプル画像を前記言語注目度ネットワークに入力して、前記第1サンプル記述文の複数の分割単語の注目度重みを取得するように構成される分割単語重み決定モジュールと、
所定のマークを用いて前記第1サンプル記述文内の注目度重みが最も高い分割単語を取り替えて、第2サンプル記述文を取得するように構成される分割単語取り替えモジュールと、
前記第1サンプル画像と前記第2サンプル記述文を負のサンプルペアとして使用するように構成される第1負のサンプルペア決定モジュールとを更に含む。
【0122】
可能な一実施形態では、前記装置は、
前記正のサンプルペアの第1サンプル記述文及び第1サンプル画像を前記画像注目度ネットワークに入力して、前記第1サンプル画像の注目度重みを取得するように構成される画像重み決定モジュールと、
前記第1サンプル画像内の注目度重みが最も高い画像領域を除去して、第2サンプル画像を取得するように構成される領域除去モジュールと、
前記第2サンプル画像と前記第1サンプル記述文を負のサンプルペアとして使用するように構成される第2負のサンプルペア決定モジュールとを更に含む。
【0123】
可能な一実施形態では、前記トレーニングモジュールは、
前記ニューラルネットワークの第1損失と第2損失により、前記ニューラルネットワークの全損失を決定するように構成される全損失決定サブモジュールと、
前記全損失により、前記ニューラルネットワークをトレーニングするように構成されるトレーニングサブモジュールとを含む。
【0124】
可能な一実施形態では、前記装置は、前記全損失決定サブモジュールの前、前記第1損失を取得するように構成される第1損失取得サブモジュールを更に含み、前記第1損失取得サブモジュールは、
同一な正のサンプルペアの第1サンプル画像及び第1サンプル記述文を前記ニューラルネットワークに入力して処理して、第1トレーニングスコアを取得し、
異なる正のサンプルペアの第1サンプル画像及び第1サンプル記述文を前記ニューラルネットワークに入力して処理して、第2トレーニングスコアを取得し、
複数の第1トレーニングスコアと複数の第2トレーニングスコアにより、第1損失を取得するように構成される。
【0125】
可能な一実施形態では、前記装置は、前記全損失決定サブモジュールの前、前記第2損失を取得するように構成される第2損失取得サブモジュールを更に含み、前記第2損失取得サブモジュールは、
同一な負のサンプルペアの第2サンプル画像及び第1サンプル記述文を前記ニューラルネットワークに入力して処理して、第3トレーニングスコアを取得し、
異なる負のサンプルペアの第2サンプル画像及び第1サンプル記述文を前記ニューラルネットワークに入力して処理して、第4トレーニングスコアを取得し、
同一な負のサンプルペアの第1サンプル画像及び第2サンプル記述文を前記ニューラルネットワークに入力して処理して、第5トレーニングスコアを取得し、
異なる負のサンプルペアの第1サンプル画像及び第2サンプル記述文を前記ニューラルネットワークに入力して処理して、第6トレーニングスコアを取得し、
複数の第3トレーニングスコア、複数の第4トレーニングスコア、複数の第5トレーニングスコア及び複数の第6トレーニングスコアにより、第2損失を取得するように構成される。
【0126】
可能な一実施形態では、前記全損失決定サブモジュールは、
前記第1損失と前記第2損失に対して加重重畳を行って、前記ニューラルネットワークの全損失を取得するように構成される。
【0127】
いくつかの実施例では、本願の実施例によって提供された装置が備えられ機能又は含まれたモジュールは、上記方法実施例に記載の方法を実行するために用いられ、その具体的な実施については上記方法実施例の説明を参照してもよく、簡略化するために、ここで重複説明は割愛する。
【0128】
本願の実施例は、コンピュータプログラム命令を記憶したコンピュータ可読記憶媒体であって、前記コンピュータプログラム命令がプロセッサにより実行される時に上記方法が実現されるコンピュータ可読記憶媒体を更に提供する。コンピュータ可読記憶媒体は非揮発性コンピュータ可読記憶媒体であってよい。
【0129】
本願の実施例は、上記方法を実行するように構成されるプロセッサと、プロセッサ実行可能命令を記憶するためのメモリとを含む電子機器を更に提供する。
【0130】
電子機器は、端末、サーバ又は他の形態の機器として提供されてよい。
【0131】
図6は、本願の実施例に係る電子機器800のブロック図を示す。例えば、電子機器800は携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信装置、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、携帯情報端末などの端末であってもよい。
【0132】
図6を参照すると、電子機器800は、処理コンポーネント802、メモリ804、電源コンポーネント806、マルチメディアコンポーネント808、オーディオコンポーネント810、入力/出力(I/O)インターフェイス812、センサコンポーネント814、および通信コンポーネント816の一つまたは複数を含むことができる。
【0133】
処理コンポーネント802は、通常、電子機器800の全体的な動作、例えば表示、電話の呼び出し、データ通信、カメラ動作および記録動作に関連する動作を制御する。処理コンポーネント802は、上記方法のステップの全てまたは一部を完了するために、一つまたは複数のプロセッサ820を含んで命令を実行することができる。また、処理コンポーネント802は、他のコンポーネントとの相互作用のために、一つまたは複数のモジュールを含むことができる。例えば、処理コンポーネント802は、マルチメディアコンポーネント808との相互作用のために、マルチメディアモジュールを含むことができる。
【0134】
メモリ804は、電子機器800での動作をサポートするために様々なタイプのデータを記憶するように構成される。これらのデータの例として、電子機器800において運用するためのあらゆるアプリケーションプログラムまたは方法の命令、連絡先データ、電話帳データ、メッセージ、ピクチャー、ビデオなどを含む。メモリ804は、例えば静的ランダムアクセスメモリ(SRAM)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM)、プログラマブル読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなどの様々なタイプの揮発性または非揮発性記憶機器またはそれらの組み合わせによって実現できる。
【0135】
電源コンポーネント806は、電子機器800の各コンポーネントに電力を供給する。電源コンポーネント806は電源管理システム、一つまたは複数の電源、および電子機器800のための電力生成、管理および配分に関連する他のコンポーネントを含むことができる。
【0136】
マルチメディアコンポーネント808は、前記電子機器800とユーザとの間で出力インターフェイスを提供する画面を含む。いくつかの実施例では、画面は液晶ディスプレイ(LCD)およびタッチパネル(TP)を含むことができる。画面がタッチパネルを含む場合、ユーザからの入力信号を受信するために、タッチ画面として実現してもよい。タッチパネルは、タッチ、スワイプおよびタッチパネルでのジェスチャを検知するために、一つまたは複数のタッチセンサを含む。前記タッチセンサは、タッチまたはスワイプ動作の境界を検知するのみならず、前記タッチまたはスワイプ操作に関連する持続時間および圧力を検出することもできる。いくつかの実施例では、マルチメディアコンポーネント808は、フロンドカメラおよび/またはリアカメラを含む。電子機器800が動作モード、例えば撮影モードまたは撮像モードになる場合、フロンドカメラおよび/またはリアカメラは外部のマルチメディアデータを受信することができる。各フロンドカメラおよびリアカメラは固定された光学レンズ系または焦点距離および光学ズーム能力を有するものであってもよい。
【0137】
オーディオコンポーネント810は、オーディオ信号を出力および/または入力するように構成される。例えば、オーディオコンポーネント810は、電子機器800が動作モード、例えば呼び出しモード、記録モードおよび音声認識モードになる場合、外部のオーディオ信号を受信するように構成されたマイク(MIC)を含む。受信されたオーディオ信号はさらにメモリ804に記憶されるか、または通信コンポーネント816によって送信されてもよい。いくつかの実施例では、オーディオコンポーネント810はさらに、オーディオ信号を出力するためのスピーカーを含む。
【0138】
I/Oインターフェイス812は、処理コンポーネント802と周辺インターフェイスモジュールとの間でインターフェイスを提供し、上記周辺インターフェイスモジュールはキーボード、クリックホイール、ボタンなどであってもよい。これらのボタンはホームボタン、音量ボタン、スタートボタンおよびロックボタンを含むことができるが、これらに限定されない。
【0139】
センサコンポーネント814は、電子機器800に各方面での状態評価を提供するための一つまたは複数のセンサを含む。例えば、センサコンポーネント814は電子機器800のオン/オフ状態、コンポーネントの相対的な位置決め、例えば前記コンポーネントが電子機器800の表示装置およびキーパッドであることを検出でき、センサコンポーネント814はさらに、電子機器800または電子機器800のあるコンポーネントの位置の変化、ユーザと電子機器800との接触の有無、電子機器800の方位または加減速および電子機器800の温度変化を検出できる。センサコンポーネント814は、いかなる物理的接触もない場合に近傍の物体の存在を検出するために用いられるように構成された近接センサを含む。センサコンポーネント814はさらに、CMOS又はCCDのようなイメージングアプリケーションにおいて使用するための光センサを含むことができる。いくつかの実施例では、該センサコンポーネント814はさらに、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサまたは温度センサを含むことができる。
【0140】
通信コンポーネント816は電子機器800と他の機器との間の有線または無線通信を実現するように配置される。電子機器800は、通信規格に基づく無線ネットワーク、例えばWiFi、2Gまたは3G、またはそれらの組み合わせにアクセスできる。一例示的実施例では、通信コンポーネント816は、放送チャネルによって外部の放送管理システムの放送信号または放送関連情報を受信する。一例示的実施例では、前記通信コンポーネント816はさらに、近距離通信を促進させるために、近距離無線通信(NFC)モジュールを含む。例えば、NFCモジュールでは無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(BT、登録商標)技術および他の技術によって実現できる。
【0141】
例示的な実施例では、電子機器800は、一つまたは複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理デバイス(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子要素によって実現し、上記方法を実行するために用いることができる。
【0142】
例示的な実施例では、さらに、非揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ804が提供され、上記コンピュータプログラム命令は電子機器800のプロセッサ820によって実行して上記方法を完了することができる。
【0143】
図7は、本願の実施例に係る電子機器1900のブロック図を示す。例えば、電子機器1900はサーバとして提供できる。図7を参照すると、電子機器1900は、さらに一つまたは複数のプロセッサを含む処理コンポーネント1922、および処理コンポーネント1922によって実行可能な命令、例えばアプリケーションプログラムを記憶するための、メモリ1932を代表とするメモリ資源を含む。メモリ1932に記憶されたアプリケーションプログラムはそれぞれが1グループの命令に対応する一つまたは複数のモジュールを含むことができる。また、処理コンポーネント1922は命令を実行し、それによって上記方法を実行するように構成される。
【0144】
電子機器1900はさらに、電子機器1900の電源管理を実行するように構成された電源コンポーネント1926、電子機器1900をネットワークにアクセスするように構成された有線または無線ネットワークインターフェイス1950、および入出力(I/O)インターフェイス1958を含むことができる。電子機器1900はメモリ1932に記憶されたオペレーティングシステム、例えばWindows ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTMまたは類似するものに基づいて動作できる。
【0145】
例示的な実施例では、さらに、非揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ1932が提供され、上記コンピュータプログラム命令は電子機器1900の処理コンポーネント1922によって実行して上記方法を完了することができる。
【0146】
本願は、システム、方法および/またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品はプロセッサに本願の各態様を実現させるためのコンピュータ読み取り可能プログラム命令がロードされているコンピュータ読み取り可能記憶媒体を含むことができる。
【0147】
コンピュータ読み取り可能記憶媒体は命令実行機器により使用される命令を保存および記憶可能な有形機器であってもよい。コンピュータ読み取り可能記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ読み取り可能記憶媒体のさらに具体的な例(非包括的リスト)としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、静的ランダムアクセスメモリ(SRAM)、携帯型コンパクトディスク読み取り専用メモリ(CD−ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、機械的符号化装置、例えば命令が記憶されているせん孔カードまたはスロット内突起構造、および上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータ読み取り可能記憶媒体は瞬時信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波(例えば、光ファイバーケーブルを通過するパルス光)、または電線を経由して伝送される電気信号と解釈されるものではない。
【0148】
ここで記述したコンピュータ読み取り可能プログラム命令はコンピュータ読み取り可能記憶媒体から各計算/処理機器にダウンロードされてもよいし、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワークおよび/または無線ネットワークによって外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび/またはエッジサーバを含むことができる。各計算/処理機器内のネットワークアダプタカードまたはネットワークインターフェイスはネットワークからコンピュータ読み取り可能プログラム命令を受信し、該コンピュータ読み取り可能プログラム命令を転送し、各計算/処理機器内のコンピュータ読み取り可能記憶媒体に記憶する。
【0149】
本願の動作を実行するためのコンピュータプログラム命令はアセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはSmalltalk、C++などのオブジェクト指向プログラミング言語、および「C」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含む一つまたは複数のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ読み取り可能プログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、(例えばインターネットサービスプロバイダを利用してインターネットを経由して)外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ読み取り可能プログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)またはプログラマブル論理アレイ(PLA)などの電子回路をパーソナライズすることで、該電子回路はコンピュータ読み取り可能プログラム命令を実行し、それにより本開示の各態様を実現できるようになる。
【0150】
なお、ここで本願の実施例に係る方法、装置(システム)およびコンピュータプログラム製品のフローチャートおよび/またはブロック図を参照しながら本願の各態様を説明しが、フローチャートおよび/またはブロック図の各ブロックおよびフローチャートおよび/またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ読み取り可能プログラム命令によって実現できることを理解すべきである。
【0151】
これらのコンピュータ読み取り可能プログラム命令は、機械を製造するために、共通コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供されてもよく、それにより、これらの命令はコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行され、フローチャートおよび/またはブロック図の一つまたは複数のブロックにおいて指定された機能/動作を実現する手段を創出する。また、これらのコンピュータ読み取り可能プログラム命令は、コンピュータ読み取り可能記憶媒体に記憶し、それによってコンピュータ、プログラマブルデータ処理装置および/または他の機器を特定の方式で動作させるようにしてもよく、それにより、中に保存された命令を有するコンピュータ読み取り可能記憶媒体は、フローチャートおよび/またはブロック図の一つまたは複数のブロックにおいて指定された機能/動作の各態様を実現する命令を含む製品を備える。
【0152】
コンピュータ読み取り可能プログラムはコンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードすることにより、コンピュータ実施プロセスを生成するように、コンピュータ、他のプログラマブルデータ処理装置または他の機器において一連の動作ステップを実行させるようにしてもよく、それにより、コンピュータ、他のプログラマブルデータ処理装置、または他の機器において実行される命令はフローチャートおよび/またはブロック図の一つまたは複数のブロックにおいて指定された機能/動作を実現する。
【0153】
図面のうちフローチャートおよびブロック図は本願の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示す。この点では、フローチャートまたはブロック図における各ブロックは一つのモジュール、プログラムセグメントまたは命令の一部分を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部分は指定された論理機能を実現するための一つまたは複数の実行可能命令を含む。いくつかの置換としての実現形態では、ブロックに表記される機能は図面に付したものと異なる順序で実現してもよい。例えば、二つの連続的なブロックは実質的に同時に実行してもよく、また、係る機能によって、それらは逆な順序で実行してもよい場合がある。なお、ブロック図および/またはフローチャートにおける各ブロック、およびブロック図および/またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことに注意すべきである。
【0154】
以上、本願の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲および精神から逸脱することなく、様々な修正および変更が自明である。本明細書に選ばれた用語は、各実施例の原理、実際の適用または市場における技術への技術的改善を好適に解釈するか、または他の当業者に本文に披露された各実施例を理解させるためのものである。
図1
図2
図3
図4
図5
図6
図7