特許6968270 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン　センスタイム　テクノロジー　デベロップメント　カンパニー，　リミテッドの特許一覧

特許6968270画像の記述文位置決定方法及び装置、電子機器並びに記憶媒体

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6968270

(24)【登録日】2021年10月28日

(45)【発行日】2021年11月17日

(54)【発明の名称】画像の記述文位置決定方法及び装置、電子機器並びに記憶媒体

(51)【国際特許分類】

G06T 7/00 20170101AFI20211108BHJP

G06N 3/04 20060101ALI20211108BHJP

G06N 3/08 20060101ALI20211108BHJP

【ＦＩ】

G06T7/00 350C

G06N3/04 190

G06N3/08

【請求項の数】18

【全頁数】28

(21)【出願番号】特願2020-517564(P2020-517564)

(86)(22)【出願日】2019年5月9日

(65)【公表番号】特表2021-509979(P2021-509979A)

(43)【公表日】2021年4月8日

(86)【国際出願番号】CN2019086274

(87)【国際公開番号】WO2020107813

(87)【国際公開日】20200604

【審査請求日】2020年3月26日

(31)【優先権主張番号】201811459428.7

(32)【優先日】2018年11月30日

(33)【優先権主張国】CN

(73)【特許権者】

【識別番号】516158932

【氏名又は名称】ベイジンセンスタイムテクノロジーデベロップメントカンパニー，リミテッド

(74)【代理人】

【識別番号】110001427

【氏名又は名称】特許業務法人前田特許事務所

(72)【発明者】

【氏名】リウシーフイ

(72)【発明者】

【氏名】シャオジン

(72)【発明者】

【氏名】ワンズーハオ

(72)【発明者】

【氏名】リーホンション

(72)【発明者】

【氏名】ワンシャオガン

【審査官】松浦功

(56)【参考文献】

【文献】特開２０１７−０９１５２５（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１７／０１７７９７２（ＵＳ，Ａ１）

【文献】中国特許出願公開第１０８２２９５１８（ＣＮ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｔ７／００ − ７／９０

Ｇ０６Ｎ３／０４

Ｇ０６Ｎ３／０８

Ｇ０６Ｔ１／００

Ｇ０６Ｆ１６／５０ −１６／５８７

Ｇ０６Ｆ１６／７０ −１６／７８７

(57)【特許請求の範囲】

【請求項1】

画像の記述文位置決定方法であって、
被解析記述文と被解析画像に対して解析処理を行って、前記被解析記述文の複数の語句注目度重み及び前記被解析画像の複数の画像注目度重みを取得することと、
前記複数の語句注目度重み及び被解析画像の主体特徴、位置特徴および関係特徴により、複数の第１マッチングスコアを取得することであって、前記被解析画像に複数の対象を含み、主体対象が前記複数の対象のうち、注目度重みが最も高い対象であり、前記主体特徴が前記主体対象の特徴であり、前記位置特徴が前記複数の対象の位置特徴であり、前記関係特徴が前記複数の対象の間の関係特徴であり、前記複数の語句注目度重みは、語句主語重み、語句位置重み及び語句関係重みを含み、前記複数の第１マッチングスコアは、主語マッチングスコア、位置マッチングスコア及び関係マッチングスコアを含み、前記主語マッチングスコアは、前記語句主語重み及び前記主体特徴によって取得され、前記位置マッチングスコアは、前記語句位置重み及び前記位置特徴によって取得され、前記関係マッチングスコアは、前記語句関係重み及び前記関係特徴によって取得されることと、
前記複数の第１マッチングスコア及び前記複数の画像注目度重みにより、前記被解析記述文と前記被解析画像との第２マッチングスコアを取得することと、
前記第２マッチングスコアにより、前記被解析記述文の前記被解析画像での位置決定結果を決定することとを含む、前記画像の記述文位置決定方法。

【請求項2】

被解析記述文と被解析画像に対してそれぞれ解析処理を行って、前記被解析記述文の複数の語句注目度重み及び前記被解析画像の複数の画像注目度重みを取得することは、
前記被解析画像に対して特徴抽出を行って、前記被解析画像の画像特徴ベクトルを取得することと、
前記被解析記述文に対して特徴抽出を行って、前記被解析記述文の複数の分割単語の分割単語埋め込みベクトルを取得することと、
前記画像特徴ベクトル及び前記複数の分割単語の分割単語埋め込みベクトルにより、前記被解析記述文の複数の語句注目度重み及び前記被解析画像の複数の画像注目度重みを取得することとを含む、
請求項１に記載の方法。

【請求項3】

ニューラルネットワークによって、前記被解析記述文の複数の語句注目度重み及び前記被解析画像の複数の画像注目度重みを取得することを更に含む、
請求項１又は２に記載の方法。

【請求項4】

前記ニューラルネットワークは、画像注目度ネットワークを含み、
前記画像注目度ネットワークは、主体ネットワーク、位置ネットワーク及び関係ネットワークを含み、
前記複数の語句注目度重み及び被解析画像の主体特徴、位置特徴および関係特徴により、複数の第１マッチングスコアを取得することは、
前記語句主語重み及び主体特徴を前記主体ネットワークに入力して処理して、前記主語マッチングスコアを取得することと、
前記語句位置重み及び位置特徴を前記位置ネットワークに入力して処理して、前記位置マッチングスコアを取得することと、
前記語句関係重み及び関係特徴を前記関係ネットワークに入力して処理して、前記関係マッチングスコアを取得することとを含む、
請求項３に記載の方法。

【請求項5】

前記複数の画像注目度重みは、主体対象重み、対象位置重み及び対象関係重みを含み、
前記複数の第１マッチングスコア及び前記複数の画像注目度重みにより、前記被解析記述文と前記被解析画像との第２マッチングスコアを取得することは、
前記主体対象重み、前記対象位置重み及び前記対象関係重みにより、前記主語マッチングスコア、前記位置マッチングスコア及び前記関係マッチングスコアに対して加重平均を行って、前記第２マッチングスコアを決定することを含む、
請求項４に記載の方法。

【請求項6】

前記被解析画像を特徴抽出ネットワークに入力して処理して、前記主体特徴、前記位置特徴及び前記関係特徴を取得することを更に含む、
請求項３〜５のいずれか一項に記載の方法。

【請求項7】

前記第２マッチングスコアにより、前記被解析記述文の前記被解析画像での位置決定結果を決定することは、
前記第２マッチングスコアがプリセットの閾値より大きいか等しい場合に、前記主体対象の画像領域を前記被解析記述文の位置決定として決定することを含む、
請求項１〜６のいずれか一項に記載の方法。

【請求項8】

ニューラルネットワークによって前記被解析記述文の複数の語句注目度重み及び前記被解析画像の複数の画像注目度重みを取得する前に、前記方法は、複数の正のサンプルペアと複数の負のサンプルペアを含むサンプル集合を用いて前記ニューラルネットワークをトレーニングすることを更に含み、
各正のサンプルペアは、第１サンプル画像及び前記第１サンプル画像の第１サンプル記述文を含み、
各負のサンプルペアは、第１サンプル画像及び前記第１サンプル記述文から分割単語が除去された後の第２サンプル記述文、又は第１サンプル記述文及び前記第１サンプル画像から画像注目度重みが最も高い領域が除去された後の第２サンプル画像を含む、
請求項３〜７のいずれか一項に記載の方法。

【請求項9】

前記ニューラルネットワークは、言語注目度ネットワークを更に含み、
前記正のサンプルペアの第１サンプル記述文及び第１サンプル画像を前記言語注目度ネットワークに入力して、前記第１サンプル記述文の複数の分割単語の注目度重みを取得することと、
所定のマークを用いて前記第１サンプル記述文内の注目度重みが最も高い分割単語を取り替えて、第２サンプル記述文を取得することと、
前記第１サンプル画像と前記第２サンプル記述文を負のサンプルペアとして使用することとを更に含む、
請求項８に記載の方法。

【請求項10】

ニューラルネットワークによって、前記被解析記述文の複数の語句注目度重み及び前記被解析画像の複数の画像注目度重みを取得し、
前記ニューラルネットワークは、画像注目度ネットワークを含み、
前記方法は、
前記正のサンプルペアの第１サンプル記述文及び第１サンプル画像を前記画像注目度ネットワークに入力して、前記第１サンプル画像の注目度重みを取得することと、
前記第１サンプル画像内の注目度重みが最も高い画像領域を除去して、第２サンプル画像を取得することと、
前記第２サンプル画像と前記第１サンプル記述文を負のサンプルペアとして使用することとを更に含む、
請求項８又は９に記載の方法。

【請求項11】

サンプル集合を用いて前記ニューラルネットワークをトレーニングすることは、
前記ニューラルネットワークの第１損失と第２損失により、前記ニューラルネットワークの全損失を決定することと、
前記全損失により、前記ニューラルネットワークをトレーニングすることとを含む、
請求項８〜１０のいずれか一項に記載の方法。

【請求項12】

前記ニューラルネットワークの第１損失と第２損失により、前記ニューラルネットワークの全損失を決定する前に、前記第１損失を取得することを更に含み、
前記第１損失を取得することは、
同一な正のサンプルペアの第１サンプル画像及び第１サンプル記述文を前記ニューラルネットワークに入力して処理して、第１トレーニングスコアを取得することと、
異なる正のサンプルペアの第１サンプル画像及び第１サンプル記述文を前記ニューラルネットワークに入力して処理して、第２トレーニングスコアを取得することと、
複数の第１トレーニングスコアと複数の第２トレーニングスコアにより、第１損失を取得することとを含む、
請求項１１に記載の方法。

【請求項13】

前記ニューラルネットワークの第１損失と第２損失により、前記ニューラルネットワークの全損失を決定する前に、前記第２損失を取得することを更に含み、
前記第２損失を取得することは、
同一な負のサンプルペアの第２サンプル画像及び第１サンプル記述文を前記ニューラルネットワークに入力して処理して、第３トレーニングスコアを取得することと、
異なる負のサンプルペアの第２サンプル画像及び第１サンプル記述文を前記ニューラルネットワークに入力して処理して、第４トレーニングスコアを取得することと、
同一な負のサンプルペアの第１サンプル画像及び第２サンプル記述文を前記ニューラルネットワークに入力して処理して、第５トレーニングスコアを取得することと、
異なる負のサンプルペアの第１サンプル画像及び第２サンプル記述文を前記ニューラルネットワークに入力して処理して、第６トレーニングスコアを取得することと、
複数の第３トレーニングスコア、複数の第４トレーニングスコア、複数の第５トレーニングスコア及び複数の第６トレーニングスコアにより、第２損失を取得することとを含む、
請求項１１又は１２に記載の方法。

【請求項14】

前記ニューラルネットワークの第１損失と第２損失により、前記ニューラルネットワークの全損失を決定することは、
前記第１損失と前記第２損失に対して加重重畳を行って、前記ニューラルネットワークの全損失を取得することを含む、
請求項１１〜１３のいずれか一項に記載の方法。

【請求項15】

画像の記述文位置決定装置であって、
被解析記述文と被解析画像に対して解析処理を行って、前記被解析記述文の複数の語句注目度重み及び前記被解析画像の複数の画像注目度重みを取得するように構成される第１重み取得モジュールと、
前記複数の語句注目度重み及び被解析画像の主体特徴、位置特徴、関係特徴により、複数の第１マッチングスコアを取得するように構成される第１スコア取得モジュールであって、前記被解析画像に複数の対象を含み、主体対象が前記複数の対象のうち、注目度重みが最も高い対象であり、前記主体特徴が前記主体対象の特徴であり、前記位置特徴が前記複数の対象の位置特徴であり、前記関係特徴が前記複数の対象の間の関係特徴であり、前記複数の語句注目度重みは、語句主語重み、語句位置重み及び語句関係重みを含み、前記複数の第１マッチングスコアは、主語マッチングスコア、位置マッチングスコア及び関係マッチングスコアを含み、前記主語マッチングスコアは、前記語句主語重み及び前記主体特徴によって取得され、前記位置マッチングスコアは、前記語句位置重み及び前記位置特徴によって取得され、前記関係マッチングスコアは、前記語句関係重み及び前記関係特徴によって取得される、第１スコア取得モジュールと、
前記複数の第１マッチングスコア及び前記複数の画像注目度重みにより、前記被解析記述文と前記被解析画像との第２マッチングスコアを取得するように構成される第２スコア取得モジュールと、
前記第２マッチングスコアにより、前記被解析記述文の前記被解析画像での位置決定結果を決定するように構成される結果決定モジュールとを含む、前記画像の記述文位置決定装置。

【請求項16】

電子機器であって、
請求項１〜１４のいずれか一項に記載の方法を実行するように構成されるプロセッサと、
プロセッサ実行可能命令を記憶するためのメモリとを含む、前記電子機器。

【請求項17】

コンピュータプログラム命令を記憶したコンピュータ可読記憶媒体であって、
前記コンピュータプログラム命令がプロセッサにより実行される時に請求項１〜１４のいずれか一項に記載の方法が実現される、前記コンピュータ可読記憶媒体。

【請求項18】

コンピュータ可読記憶媒体に保存され、コンピュータ命令を含むコンピュータプログラムであって、
前記コンピュータ命令が装置のプロセッサ上で動作されるとき、請求項１〜１４のいずれか一項に記載の方法が実現される、前記コンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本願は、２０１８年１１月３０日に出願された、出願番号２０１８１１４５９４２８．７の中国特許出願に基づいて提出され、該中国特許出願の優先権を主張し、該中国特許出願の全ての内容が参照によって本願に組み込まれる。

【0002】

本願は、コンピュータビジョン技術に関するが、ビジョン技術に限定されなく、特に、画像の記述文位置決定方法及び装置、電子機器並びに記憶媒体に関する。

【背景技術】

【0003】

指示語句の位置決定は、コンピュータビジョンと自然言語処理の重なった分野の重要な課題となっており、例えば、提供された文（語句）により、画像において、該語句に記述された対象（人又は物体等）の位置を決定することを機械に実行させることができる。関連技術には、位置決定モジュールと関係モジュール等からなる、対象及びその関係を認識するための組合モジュール化ネットワークが開示されているが、これらのモデルは特定の単語又はビジョン概念に対する依存性が非常に高く、一般に観察される証拠に片寄ることがあるので、語句と画像の対応効果が悪い。

【発明の概要】

【発明が解決しようとする課題】

【0004】

本願は、画像の記述文位置決定の技術的手段を提供する。

【課題を解決するための手段】

【0005】

本願の一態様によれば、被解析記述文と被解析画像に対して解析処理を行って、前記被解析記述文の複数の語句注目度重み及び前記被解析画像の複数の画像注目度重みを取得することと、前記複数の語句注目度重み及び被解析画像の主体特徴、位置特徴、関係特徴により、複数の第１マッチングスコアを取得することであって、前記被解析画像に複数の対象を含み、主体対象が前記複数の対象のうち、注目度重みが最も高い対象であり、前記主体特徴が前記主体対象の特徴であり、前記位置特徴が前記複数の対象の位置特徴であり、前記関係特徴が前記複数の対象の間の関係特徴であることと、前記複数の第１マッチングスコア及び前記複数の画像注目度重みにより、前記被解析記述文と前記被解析画像との第２マッチングスコアを取得することと、前記第２マッチングスコアにより、前記被解析記述文の前記被解析画像での位置決定結果を決定することとを含む画像の記述文位置決定方法を提供する。

【0006】

本願の一態様によれば、被解析記述文と被解析画像に対して解析処理を行って、前記被解析記述文の複数の語句注目度重み及び前記被解析画像の複数の画像注目度重みを取得するように構成される第１重み取得モジュールと、前記複数の語句注目度重み及び被解析画像の主体特徴、位置特徴、関係特徴により、複数の第１マッチングスコアを取得するように構成される第１スコア取得モジュールであって、前記被解析画像に複数の対象を含み、主体対象が前記複数の対象のうち、注目度重みが最も高い対象であり、前記主体特徴が前記主体対象の特徴であり、前記位置特徴が前記複数の対象の位置特徴であり、前記関係特徴が前記複数の対象の間の関係特徴である第１スコア取得モジュールと、前記複数の第１マッチングスコア及び前記複数の画像注目度重みにより、前記被解析記述文と前記被解析画像との第２マッチングスコアを取得するように構成される第２スコア取得モジュールと、前記第２マッチングスコアにより、前記被解析記述文の前記被解析画像での位置決定結果を決定するように構成される結果決定モジュールとを含む画像の記述文位置決定装置を提供する。

【0007】

本願の一態様によれば、上記方法を実行するように構成されるプロセッサと、プロセッサ実行可能命令を記憶するためのメモリとを含む電子機器を提供する。

【0008】

本願の一態様によれば、コンピュータプログラム命令を記憶したコンピュータ可読記憶媒体であって、前記コンピュータプログラム命令がプロセッサにより実行される時に上記方法が実現されるコンピュータ可読記憶媒体を提供する。

【発明の効果】

【0009】

本願の実施例では、被解析記述文の語句注目度重み及び被解析画像の画像注目度重みを取得し、語句注目度重み及び画像の主体特徴、位置特徴、関係特徴により、複数の第１マッチングスコアを取得し、第１マッチングスコア及び画像注目度重みにより、第２マッチングスコアを取得し、第２マッチングスコアにより、位置決定結果を決定することができ、それによって、テキストとビジョン的意味との対応関係を十分に発見し、記述文の画像での位置決定の正確度を高める。

【0010】

以上の一般説明と以下の詳細説明は解釈するための例示的なものに過ぎず、本願を制限しないことを理解すべきである。以下の図面と関連付けられた例示的な実施例に対する詳細な説明によれば、本願の他の特徴および態様は明確になる。

【図面の簡単な説明】

【0011】

ここの図面は明細書に組み込まれて明細書の一部を構成し、これらの図面は本願に合致する実施例を示し、明細書と共に本願の技術的手段を説明するために用いられる。

【図1】本願の実施例に係る画像の記述文位置決定方法のフローチャートを示す。

【図2】本願の実施例に係るニューラルネットワークの模式図を示す。

【図3】本願の実施例に係る第２サンプル記述文を取得する模式図を示す。

【図4】本願の実施例に係る第２サンプル画像を取得する模式図を示す。

【図5】本願の実施例に係る画像の記述文位置決定装置のブロック図を示す。

【図6】本願の実施例に係る電子機器のブロック図を示す。

【図7】本願の実施例に係る電子機器のブロック図を示す。

【発明を実施するための形態】

【0012】

以下に図面を参照しながら本願の様々な例示的実施例、特徴および態様を詳細に説明する。図面における同じ符号は同じまたは類似する機能の要素を表す。図面において実施例の様々な態様を示したが、特に断らない限り、比例に従って図面を作る必要がない。

【0013】

ここの用語「例示的」とは、「例、実施例として用いられることまたは説明的なもの」を意味する。ここで「例示的」に説明したいかなる実施例も他の実施例より優れたまたはより良好なものと解釈すべきではない。

【0014】

本明細書の用語の「及び／又は」は、関連対象の関連関係を記述するためのものに過ぎず、３つの関係が存在可能であることを示し、例えば、Ａ及び／又はＢは、Ａが単独して存在し、ＡとＢが同時に存在し、Ｂが単独して存在するという３つの場合を示してもよい。また、本明細書の用語の「少なくとも１つ」は複数のうちのいずれか１つ又は複数のうちの少なくとも２つの任意の組合を示し、例えば、Ａ、Ｂ、Ｃのうちの少なくとも１つを含むということは、Ａ、Ｂ及びＣから構成される集合から選択されるいずれか１つ又は複数の要素を含むことを示してもよい。

【0015】

また、本願をより効果的に説明するために、以下の具体的な実施形態において様々な具体的詳細を示す。当業者であれば、何らかの具体的詳細がなくなるにも関わらず、本願は同様に実施できるということを理解すべきである。いくつかの実施例では、本願の趣旨を強調するよう、当業者に既知の方法、手段、要素および回路に対する詳細な説明を省略する。

【0016】

本発明の各実施例では、前記画像の記述文位置決定方法は、ユーザ装置（ＵｓｅｒＥｑｕｉｐｍｅｎｔ、ＵＥ）、携帯機器、ユーザ端末、端末、セル方式の携帯無線電話、無線電話、携帯情報端末（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ、ＰＤＡ）、携帯型デバイス、コンピューティング装置、車載装置、ウェアラブル装置等の端末装置又はサーバ等の電子機器により実行してもよく、前記方法はプロセッサによりメモリに記憶されたコンピュータ読取可能命令を呼び出すことで実現してもよい。又は、サーバによって前記方法を実行してもよい。

【0017】

図１は、本願の実施例に係る画像の記述文位置決定方法のフローチャートを示す。該方法は以下のステップを含む。

【0018】

ステップＳ１１では、被解析記述文と被解析画像に対して解析処理を行って、前記被解析記述文の複数の語句注目度重み及び前記被解析画像の複数の画像注目度重みを取得する。

【0019】

可能な一実施形態では、被解析画像には、複数の対象（人、動物、物体等）、例えば複数の馬に乗っている人を含んでよい。被解析記述文は、被解析画像中のある対象を記述するものであってよく、例えば、「まん中に位置する、女の子が乗っている茶色の馬」であってよい。被解析画像と被解析記述文は対応してもよく、対応しなくてもよい。本願の実施例の方法により語句と画像との関連を決定することができる。

【0020】

可能な一実施形態では、被解析記述文の複数の語句注目度重みは、語句主語重み、語句位置重み及び語句関係重みを含んでよく、それぞれ被解析記述文の異なる種類の分割単語に対応する注目度重みを表すためのものである。

【0021】

可能な一実施形態では、被解析画像の複数の画像注目度重みは、主体対象重み、対象位置重み及び対象関係重みを含んでよく、それぞれ被解析画像の異なる種類の画像領域に対応する注目度重みを表すためのものである。

【0022】

ステップＳ１２では、前記複数の語句注目度重み及び被解析画像の主体特徴、位置特徴、関係特徴により、複数の第１マッチングスコアを取得し、ここで、前記被解析画像に複数の対象を含み、主体対象が前記複数の対象のうち、注目度重みが最も高い対象であり、前記主体特徴が前記主体対象の特徴であり、前記位置特徴が前記複数の対象の位置特徴であり、前記関係特徴が前記複数の対象の間の関係特徴である。

【0023】

可能な一実施形態では、前記被解析画像には、複数の対象（人、動物、物体等）を含み、主体対象が前記複数の対象のうち、注目度重みが最も高い対象である。前記主体特徴が前記主体対象の自分の画像特徴であり、前記位置特徴が前記複数の対象の間の相対位置を体現する位置特徴であり、前記関係特徴が前記複数の対象の間の相対関係を体現する関係特徴である。

【0024】

可能な一実施形態では、複数の第１マッチングスコアは、主語マッチングスコア、位置マッチングスコア及び関係マッチングスコアを含んでよい。主語マッチングスコアは、被解析画像中の主体対象と被解析記述文の対象記述の間のマッチング度合いを評価するためのものであり、位置マッチングスコアは、被解析画像中の複数の対象の相対位置と被解析記述文の位置記述の間のマッチング度合いを評価するためのものであり、関係マッチングスコアは、被解析画像中の複数の対象の関連性と被解析記述文の関連記述の間のマッチング度合いを評価するためのものである。

【0025】

ステップＳ１３では、前記複数の第１マッチングスコア及び前記複数の画像注目度重みにより、前記被解析記述文と前記被解析画像との第２マッチングスコアを取得する。

【0026】

可能な一実施形態では、主語マッチングスコア、位置マッチングスコア及び関係マッチングスコア並びに主体対象重み、対象位置重み及び対象関係重みにより、前記被解析記述文と前記被解析画像との第２マッチングスコアを取得することができる。第２マッチングスコアは、被解析画像と被解析記述文との全体的なマッチング度合いを評価するためのものである。

【0027】

ステップＳ１４では、前記第２マッチングスコアにより、前記被解析記述文の前記被解析画像での位置決定結果を決定する。

【0028】

可能な一実施形態では、第２マッチングスコアを取得した後、更に被解析記述文の被解析画像での決定位置を決定して、記述文の画像での位置の決定を実現することができる。

【0029】

本願の実施例によれば、被解析記述文の語句注目度重み及び被解析画像の画像注目度重みを取得し、語句注目度重み及び画像の主体特徴、位置特徴、関係特徴により、複数の第１マッチングスコアを取得し、第１マッチングスコア及び画像注目度重みにより、第２マッチングスコアを取得し、第２マッチングスコアにより、位置決定結果を決定することができ、それによって、テキストとビジョン的意味との対応関係を十分に発見し、記述文の画像での位置決定の正確度を高める。

【0030】

可能な一実施形態では、ステップＳ１１で被解析記述文と被解析画像に対して解析処理を行って、前記被解析記述文の複数の語句注目度重み及び前記被解析画像の複数の画像注目度重みを取得することができる。ここで、ステップＳ１１は、
前記被解析画像に対して特徴抽出を行って、前記被解析画像の画像特徴ベクトルを取得することと、
前記被解析記述文に対して特徴抽出を行って、前記被解析記述文の複数の分割単語の分割単語埋め込みベクトルを取得することと、
前記画像特徴ベクトル及び前記複数の分割単語の分割単語埋め込みベクトルにより、前記被解析記述文の複数の語句注目度重み及び前記被解析画像の複数の画像注目度重みを取得することとを含んでよい。

【0031】

例を挙げると、被解析画像と被解析記述文に対してそれぞれ特徴抽出を行ってよい。被解析画像については、被解析画像の全ての画素点に対して特徴抽出を行って、被解析画像の画像特徴ベクトルｅ_０を取得することができる。本願は、被解析画像の特徴抽出形態を限定するものではない。

【0032】

可能な一実施形態では、被解析記述文については、単語分割処理を行って被解析記述文の複数の分割単語を決定し、各分割単語に対して特徴抽出を行って複数の分割単語の分割単語埋め込みベクトル（ｗｏｒｄｅｍｂｅｄｄｉｎｇ）

を取得することができ、ただし、Ｔは分割単語の数量（Ｔが１より大きい整数である）を表し、

はｔ番目の分割単語埋め込みベクトルを表し、１≦ｔ≦Ｔである。本願は、被解析記述文の具体的な単語分割形態及び各分割単語の特徴抽出の具体的な形態を限定するものではない。

【0033】

可能な一実施形態では、決定された画像特徴ベクトル及び前記複数の分割単語の分割単語埋め込みベクトルにより、前記被解析記述文の複数の語句注目度重み及び前記被解析画像の複数の画像注目度重みを決定することができる。

【0034】

可能な一実施形態では、前記方法は、ニューラルネットワークによって前記被解析記述文の複数の語句注目度重み及び前記被解析画像の複数の画像注目度重みを取得することを更に含んでよい。該ニューラルネットワークは、リカレントニューラルネットワーク（ＲＮＮ）、長短期記憶（ＬＳＴＭ）ネットワーク等のネットワークによって実現可能である言語注目度ネットワークを含んでよい。前記被解析画像と前記被解析記述文を言語注目度ネットワークに入力して処理して、前記複数の語句注目度重み及び前記複数の画像注目度重みを取得することができる。

【0035】

可能な一実施形態では、前記被解析画像と前記被解析記述文を言語注目度ネットワークに入力して処理して、前記複数の語句注目度重み及び前記複数の画像注目度重みを取得することができる。

【0036】

例を挙げると、言語注目度ネットワークの特徴抽出サブネットワークによって特徴抽出を行って、それぞれ画像特徴ベクトルｅ_０及び分割単語埋め込みベクトル

を取得することができる。該特徴抽出サブネットワークは畳み込みニューラルネットワークＣＮＮ（例えば、ＦａｓｔｅｒＣＮＮ）であってよい。

【0037】

可能な一実施形態では、言語注目度ネットワークは、注目度メカニズムに基づくＬＳＴＭネットワークを備えてよい。画像特徴ベクトルｅ_０をＬＳＴＭネットワークの一段目の入力とし、且つ分割単語埋め込みベクトル

をＬＳＴＭネットワークの各段階の回帰の入力として、ＬＳＴＭネットワークの複数の隠蔽層の出力状態ｈ_ｔを取得することができる。

【0038】

可能な一実施形態では、複数の状態ｈ_ｔにより、画像注目度重み及び各分割単語の注目度重みを算出することができ、複数の分割単語の注目度重みにより複数の分割単語埋め込みベクトル

に対して加重加算を行って、語句注目度重みを取得することができる。

【0039】

可能な一実施形態では、被解析記述文の複数の語句注目度重みは分割単語レベルの注目度重み（ｗｏｒｄ−ｌｅｖｅｌａｔｔｅｎｔｉｏｎｗｅｉｇｈｔｓ）であり、語句主語重みｑ^ｓｕｂｊ、語句位置重みｑ^ｌｏｃ及び語句関係重みｑ^ｒｅｌを含んでよく、それぞれ被解析記述文の異なる種類の分割単語に対応する注目度重みを表す。

【0040】

ここで、語句主語重みは、語句中の主語の分割単語を注目する時の注目度重みを表すためのものであり、例えば、「まん中に位置する、女の子が乗っている茶色の馬」という語句において、主語の分割単語の「茶色の馬」又は「馬」の注目度重みであり、語句位置重みは、語句で位置を表す分割単語を注目する時の注目度重みを表すためのものであり、例えば、上記語句において、位置を表す分割単語の「まん中に位置する」の注目度重みであり、語句関係重みは、語句で対象間の関係を表す分割単語を注目する時の注目度重みを表すためのものであり、例えば、上記語句において、対象間の関係を表す分割単語の「女の子が乗っている」の注目度重みである。

【0041】

可能な一実施形態では、被解析画像の複数の画像注目度重みは、モジュールレベルの注目度重み（ｍｏｄｕｌｅ−ｌｅｖｅｌａｔｔｅｎｔｉｏｎｗｅｉｇｈｔｓ）であり、主体対象重みω^ｓｕｂｊ、対象位置重みω^ｌｏｃ及び対象関係重みω^ｒｅｌを含んでよく、それぞれ被解析画像の異なる種類の画像領域に対応する注目度重みを表す。

【0042】

ここで、主体対象重みは、画像中の複数の対象（人、動物、物体等）のうち、最も重要な対象（主体対象）、例えば、画像のまん中に位置する人物を注目する時の注目度重みを表してよく、対象位置重みは、画像中の複数の対象の相対位置、例えば、画像のまん中、左側及び右側位置を注目する時の注目度重みを表してよく、対象関係重みは、画像中の複数の対象間の関連性を注目する時の注目度重みを表してよく、例えば、画像のまん中、左側及び右側にそれぞれ馬に乗っている人がいる。

【0043】

いくつかの実施例では、画像注目度重みは、該対象の画像での各種の画像パラメータにより決定されてよく、該画像パラメータは、該対象の画像での分布位置、該対象の画像での占用面積、該対象の画像での主体色を含むが、それらに限定されない。例えば、分布位置にしたがって、画像エッジに位置する対象に対して、画像のまん中に位置する対象は高い画像注目度重みを取得してよい。更に、例えば、小さい面積の対象に対して、画像で占める面積が大きい対象は高い画像注目度重みを有してよい。更に、例えば、対象の主体色は被追跡目標の色であり、他の色に対して高い画像注目度重みを有してよい。

【0044】

さらに別の実施例では、対象の各種の著しい状態により画像注目度対象を決定し、例えば、道路監視ビデオの画像フレームを解析し、追跡される対象が車両である場合に、ルール違反が発生した対象に高い画像注目度を有し、例えば、画像に含まれる車両に実線をはみ出した行動特徴がある場合に、該対象に高い画像注目度重みを構成してよい。

【0045】

以上、画像注目度重みについて例を挙げて説明したが、具体的な画像注目度重みを画像処理要求に応じて構成することが可能であり、上記例に限定されないことはいうまでもない。

【0046】

このような形態によれば、言語注目度ネットワークによってビジョン（画像）とテキスト（語句）中の異なる種類の情報を捉えることができ、それによって画像と語句の各方面での対応関係を発見して、処理精度を高めた。

【0047】

可能な一実施形態では、ステップＳ１２の前に、前記方法は、前記被解析画像を特徴抽出ネットワークに入力して処理して、前記被解析画像の主体特徴、位置特徴及び関係特徴を取得することを更に含む。

【0048】

例を挙げると、特徴抽出ネットワークは、被解析画像の主体特徴、位置特徴及び関係特徴を抽出するために用いられる、プリセットの１つ又は複数の畳み込みニューラルネットワーク（ＣＮＮ）（例えば、ＦａｓｔｅｒＲ−ＣＮＮ）であってよい。被解析画像の全ての画素点を特徴抽出ネットワークに入力し、ＲＯＩプーリングの前の特徴マップを被解析画像の全体的な画像特徴として使用することができる。

【0049】

可能な一実施形態では、主体特徴については、被解析画像中の複数の対象を認識し、複数の領域中の注目度重みが最も高い対象を抽出して主体対象として使用し、主体対象の領域の特徴マップを主体特徴として使用することができる。例えば、７×７の特徴マップを抽出して主体特徴として使用する。

【0050】

可能な一実施形態では、位置特徴については、被解析画像中の複数の対象の所在する画像領域同士の相対位置偏差量及び相対領域、並びに対象自体の位置及び相対領域により、位置特徴を取得することができる。

【0051】

可能な一実施形態では、関係特徴については、領域推薦で平均プーリングを行ったビジョン特徴、相対位置偏差量及び相対領域間の結合により、前後文の対象（複数の対象）の間の関係特徴を決定することができる。

【0052】

被解析画像の主体特徴、位置特徴及び関係特徴を抽出する具体的な形態が本願により限定されないことを理解すべきである。

【0053】

可能な一実施形態では、ステップＳ１２で前記複数の語句注目度重み及び被解析画像の主体特徴、位置特徴、関係特徴により、複数の第１マッチングスコアを取得することができる。

【0054】

例を挙げると、ニューラルネットワークによって複数の第１マッチングスコアを取得してよい。前記ニューラルネットワークは、主体ネットワーク、位置ネットワーク及び関係ネットワークを含む画像注目度ネットワークを含んでよい。ここで、主体ネットワーク、位置ネットワーク及び関係ネットワークはそれぞれ予め構築された畳み込みニューラルネットワーク（ＣＮＮ）であってよい。

【0055】

ここで、主体ネットワークは、被解析画像中の複数の対象（人、動物、物体等）のうち、最も重要な対象（主体対象）と被解析記述文の対象記述の間のマッチング度合いを評価するためのものであり、位置ネットワークは、被解析画像中の複数の対象の相対位置と被解析記述文の位置記述の間のマッチング度合いを評価するためものであり、関係ネットワークは被解析画像中の複数の対象の関連性と被解析記述文の関連記述の間のマッチング度合いを評価するためのものである。

【0056】

可能な一実施形態では、前記複数の語句注目度重み及び被解析画像の主体特徴、位置特徴、関係特徴をそれぞれ主体ネットワーク、位置ネットワーク及び関係ネットワークに入力して処理して、画像と語句の各方面でのマッチング度合いを評価することができる。

【0057】

ここで、主体対象は被解析画像の複数の対象のうち、注目度重みが最も高い対象であり、主体特徴は前記主体対象の特徴であり、前記位置特徴は前記複数の対象の位置特徴であり、前記関係特徴は前記複数の対象間の関係特徴である。

【0058】

可能な一実施形態では、ステップＳ１２で得られた複数の第１マッチングスコアは、主語マッチングスコア、位置マッチングスコア及び関係マッチングスコアを含んでよい。

【0059】

可能な一実施形態では、ステップＳ１２には、語句主語重み及び主体特徴を前記主体ネットワークに入力して処理して、主語マッチングスコアを取得することと、語句位置重み及び位置特徴を前記位置ネットワークに入力して処理して、位置マッチングスコアを取得することと、語句関係重み及び関係特徴を前記関係ネットワークに入力して処理して、関係マッチングスコアを取得することとを含んでよい。

【0060】

本実施例では、語句主語重み及び主体特徴を主体ネットワークに入力して、被解析記述文の主語と被解析画像の主体対象の間のマッチング度合いを解析して主語マッチングスコアを取得することができ、語句位置重み及び位置特徴を位置ネットワークに入力して、被解析記述文の位置分割単語と被解析画像の複数の対象の相対位置間のマッチング度合いを解析して位置マッチングスコアを取得することができ、語句関係重み及び関係特徴を関係ネットワークに入力して、被解析記述文の関係分割単語と被解析画像の複数の対象の関連性の間のマッチング度合いを解析して関係マッチングスコアを取得することができる。

【0061】

例を挙げると、複数の語句注目度重み（語句主語重みｑ^ｓｕｂｊ、語句位置重みｑ^ｌｏｃ及び語句関係重みｑ^ｒｅｌ）、及び複数の対象特徴（主体特徴、位置特徴および関係特徴）をそれぞれ主体ネットワーク、位置ネットワーク及び関係ネットワークに入力して処理してよい。

【0062】

このような方式によれば、画像と記述文の各方面でのマッチング度合いを決定でき、マッチング判断の正確性を高めた。

【0063】

可能な一実施形態では、ステップＳ１３で前記複数の第１マッチングスコア及び前記複数の画像注目度重みにより、前記被解析記述文と前記被解析画像との第２マッチングスコアを取得することができる。即ち、主語マッチングスコア、位置マッチングスコア及び関係マッチングスコア並びに主体対象重みω^ｓｕｂｊ、対象位置重みω^ｌｏｃ及び対象関係重みω^ｒｅｌにより、前記被解析記述文と前記被解析画像との第２マッチングスコアを取得する。

【0064】

ここで、ステップＳ１３は、
前記主体対象重み、前記対象位置重み及び前記対象関係重みにより、前記主語マッチングスコア、前記位置マッチングスコア及び前記関係マッチングスコアに対して加重平均を行って、前記第２マッチングスコアを決定することを含んでよい。

【0065】

例を挙げると、主語マッチングスコア、位置マッチングスコア及び関係マッチングスコアを取得した後、主体対象重みω^ｓｕｂｊ、対象位置重みω^ｌｏｃ及び対象関係重みω^ｒｅｌにより、主語マッチングスコア、位置マッチングスコア及び関係マッチングスコアのそれぞれに対して加重を行って、加重された後のスコアの和を求めてから平均値を求めることができる。該平均値を被解析記述文と被解析画像との第２マッチングスコアとしてよい。

【0066】

このような方式によれば、被解析記述文と被解析画像との正確なマッチングスコアを取得することができる。

【0067】

可能な一実施形態では、ステップＳ１４で前記第２マッチングスコアにより前記被解析記述文の前記被解析画像での位置決定結果を決定することができる。即ち、第２マッチングスコアを取得した後、更に被解析記述文の被解析画像での位置決定結果を決定してよい。ここで、ステップＳ１４には、
前記第２マッチングスコアがプリセットの閾値より大きいか等しい場合に、前記主体対象の画像領域を前記被解析記述文の位置決定として決定することを含んでよい。

【0068】

例を挙げると、マッチングスコアの閾値を予め設定してよく（例えば、プリセットの閾値を７０点としてよい）、第２マッチングスコアが該プリセットの閾値より大きいか等しい場合に、被解析記述文は被解析画像中の主体対象を記述するものであると考えられ、主体対象の所在する画像領域を被解析記述文の位置決定として決定することができる。逆には、第２マッチングスコアが該プリセットの閾値より小さい場合に、被解析記述文は被解析画像中の主体対象を記述するものではないと考えられ、位置決定結果を対応不可とすることができる。該プリセットの閾値を当業者により実際に応じて設定可能であって、本願がプリセットの閾値の具体的な値を限定するものではないことを理解すべきである。

【0069】

可能な一実施形態では、被解析画像中でそれぞれ複数の主体対象を設定し、各主体対象の主体特徴をそれぞれ画像注目度ネットワークに入力して処理し、各主体対象の第２マッチングスコアを決定し、且つ複数の第２マッチングスコアのうちの最高スコアを決定することができる。この場合に、被解析記述文は最高スコアに対応する主体対象を記述するものであると考えられ、該主体対象の所在する画像領域を被解析記述文の位置決定として決定することができる。

【0070】

このような方式によれば、被解析記述文の被解析画像での精確な位置決定を実現することができる。

【0071】

図２は、本願の実施例に係るニューラルネットワークの模式図を示す。図２に示すように、該ニューラルネットワークは、言語注目度ネットワーク２１と、画像注目度ネットワークとを含むことができ、前記画像注目度ネットワークは、主体ネットワーク２２、位置ネットワーク２３及び関係ネットワーク２４を備える。

【0072】

この例では、「まん中に位置する、女の子が乗っている茶色の馬」という被解析記述文２０１と被解析画像２０２を言語注目度ネットワーク２１に入力して処理して、３つの画像注目度重み（主体対象重みω^ｓｕｂｊ、対象位置重みω^ｌｏｃ及び対象関係重みω^ｒｅｌ）を出力すると共に、３つの語句注目度重み（語句主語重みｑ^ｓｕｂｊ、語句位置重みｑ^ｌｏｃ及び語句関係重みｑ^ｒｅｌ）を出力することができる。

【0073】

この例では、特徴抽出ネットワーク（未図示）によって被解析画像の主体特徴２０３、位置特徴２０４及び関係特徴２０５を取得してよい。

【0074】

この例では、語句主語重みｑ^ｓｕｂｊ及び主体特徴２０３を主体ネットワーク２２に入力して処理して、主語マッチングスコアを取得することができ、語句位置重みｑ^ｌｏｃ及び位置特徴２０４を位置ネットワーク２３に入力して処理して、位置マッチングスコアを取得することができ、語句関係重みｑ^ｒｅｌ及び関係特徴２０５を関係ネットワーク２４に入力して処理して、関係マッチングスコアを取得することができる。

【0075】

この例では、主体対象重みω^ｓｕｂｊ、対象位置重みω^ｌｏｃ及び対象関係重みω^ｒｅｌにより、主語マッチングスコア、位置マッチングスコア及び関係マッチングスコアのそれぞれに対して加重を行って、加重された後のスコアに対して加算してから平均値を求めて、第２マッチングスコア２０６を取得し、更に第２マッチングスコア２０６により被解析記述文の被解析画像での位置決定結果を決定し、それによりステップＳ１１〜Ｓ１４の全般の実現プロセスを終了する。

【0076】

上述したのが本願の方法を実現するニューラルネットワークの一例に過ぎず、本願がニューラルネットワークの具体的な種類を限定するものではないことを理解すべきである。

【0077】

可能な一実施形態では、ステップＳ１１の前に、前記方法は、複数の正のサンプルペアと複数の負のサンプルペアを含むサンプル集合を用いて前記ニューラルネットワークをトレーニングすることを更に含む。

【0078】

ここで、各正のサンプルペアは、第１サンプル画像及びその第１サンプル記述文を含み、
各負のサンプルペアは、第１サンプル画像及び前記第１サンプル記述文から分割単語が除去された後の第２サンプル記述文、又は第１サンプル記述文及び前記第１サンプル画像から領域が除去された後の第２サンプル画像を含む。

【0079】

可能な一実施形態では、注目度誘導に基づくクロスモダリティ除去方式によって、高い注目度重みのビジョン又はテキスト情報を除去して、除去後のトレーニングサンプル（第２サンプル記述文と第２サンプル画像）を取得して、トレーニング精度を高めることができる。

【0080】

例を挙げると、複数のトレーニングサンプルを含むサンプル集合を予め設定して、ニューラルネットワークをトレーニングすることができる。サンプル集合には、それぞれ第１サンプル画像Ｏ及びその第１サンプル記述文Ｑを含む、複数の正のサンプルペアを含む。第１サンプル画像中の対象を記述する語句を同一な正のサンプルペア中の第１サンプル記述文として使用してもよい。サンプル集合には、それぞれ第１サンプル画像及び第１サンプル記述文から分割単語が除去された後の第２サンプル記述文、又は第１サンプル記述文及び前記第１サンプル画像から領域が除去された後の第２サンプル画像を含む、複数の負のサンプルペアを更に含んでよい。本願はサンプル集合の具体的な確立形態を限定するものでもなく、各サンプルペア中のサンプル画像とサンプル記述文の間の前後順序を限定するものでもない。

【0081】

可能な一実施形態では、前記方法は、
前記正のサンプルペアの第１サンプル記述文及び第１サンプル画像を前記言語注目度ネットワークに入力して、前記第１サンプル記述文の複数の分割単語の注目度重みを取得することと、
所定のマークを用いて前記第１サンプル記述文内の注目度重みが最も高い分割単語を取り替えて、第２サンプル記述文を取得することと、
前記第１サンプル画像と前記第２サンプル記述文を負のサンプルペアとして使用することと、を更に含んでよい。

【0082】

可能な一実施形態では、言語注目度ネットワークによって空間注目度誘導を行って、最も重要なテキスト情報を除去して難しいテキストトレーニングサンプルを取得することができ、それによってニューラルネットワークの特定のテキスト情報（分割単語）に対する依存性が高すぎることを回避し、トレーニングされたニューラルネットワークの精度を高める。

【0083】

図３は、本願の実施例に係る第２サンプル記述文を取得する模式図を示す。例を挙げると、図３に示すように、正のサンプルペアの第１サンプル記述文（例えば、「まん中に位置する、女の子が乗っている茶色の馬」）及び第１サンプル画像（例えば、複数の馬に乗っている人を含む写真）を言語注目度ネットワークに入力して、第１サンプル記述文の複数の分割単語の注目度重みを取得することができる。各分割単語の注目度重みにより、注目度重みが最も高い分割単語（例えば「まん中」）を決定することができる。該分割単語の「まん中」を直接除去すれば構文誤りが発生して認識不可能になることがあるので、未知のマークを用いて該分割単語の「まん中」を取り替えて、第２サンプル記述文Ｑ＊（「未知」に位置する、女の子が乗っている茶色の馬）を取得することができ、それによって前記第１サンプル画像と前記第２サンプル記述文を負のサンプルペアとして使用することができる。

【0084】

可能な一実施形態では、前記方法は、
前記正のサンプルペアの第１サンプル記述文及び第１サンプル画像を前記画像注目度ネットワークに入力して、前記第１サンプル画像の注目度重みを取得することと、
前記第１サンプル画像内の注目度重みが最も高い画像領域を除去して、第２サンプル画像を取得することと、
前記第２サンプル画像と前記第１サンプル記述文を負のサンプルペアとして使用することと、を更に含んでよい。

【0085】

可能な一実施形態では、画像注目度ネットワークによって最も重要なビジョン情報を認識、除去して、難しい画像トレーニングサンプルを取得することができ、それによってニューラルネットワークの特定のビジョン情報に対する依存性が高すぎることを回避し、トレーニングされたニューラルネットワークの精度を高める。

【0086】

図４は、本願の実施例に係る第２サンプル画像を取得する模式図を示す。例を挙げると、図４に示すように、正のサンプルペアの第１サンプル画像（例えば、複数の馬に乗っている人を含む写真）と第１サンプル記述文（例えば、「まん中に位置する、女の子が乗っている茶色の馬」）を画像注目度ネットワークに入力して処理することができる。ここで、画像注目度ネットワークの主体ネットワークを用いてもよく、位置ネットワーク又は関係ネットワークを用いてもよく、本願はこれを限定するものではない。

【0087】

可能な一実施形態では、第１サンプル画像及び第１サンプル記述文を主体ネットワークに入力して、第１サンプル画像の各領域の注目度重みを取得することができる。各領域の注目度重みにより、注目度重みが最も高い目標領域（例えば、まん中の女の子の所在する画像領域）を決定することができる。第１サンプル画像から該目標領域を除去して、第２サンプル画像Ｏ＊（図４に示すように）を取得することができ、それによって前記第２サンプル画像と前記第１サンプル記述文を負のサンプルペアとして使用することができる。

【0088】

可能な一実施形態では、サンプル集合を用いて前記ニューラルネットワークをトレーニングするステップは、前記ニューラルネットワークの第１損失と第２損失により、前記ニューラルネットワークの全損失を決定することを含んでよい。

【0089】

可能な一実施形態では、正のサンプルペア（第１サンプル画像及びその第１サンプル記述文）のネットワーク損失を取得して第１損失としてよい。また、除去後の負のサンプルペア（第２サンプル画像及び第１サンプル記述文、又は第１サンプル画像及び第２サンプル記述文）のネットワーク損失を取得する。

【0090】

可能な一実施形態では、サンプル集合を用いて前記ニューラルネットワークをトレーニングするステップは、前記全損失により、前記ニューラルネットワークをトレーニングすることを更に含んでよい。

【0091】

可能な一実施形態では、全体的なネットワーク損失Ｌを取得した後、全体的なネットワーク損失Ｌにより上記ニューラルネットワークをトレーニングすることができる。それによって、トレーニングされたニューラルネットワークが決定される。本願はニューラルネットワークの具体的なトレーニング形態を限定するものではない。

【0092】

可能な一実施形態では、前記ニューラルネットワークの第１損失と第２損失により、前記ニューラルネットワークの全損失を決定する前に、前記第１損失を取得することを更に含んでよい。

【0093】

前記第１損失を取得する前記ステップは、
同一な正のサンプルペアの第１サンプル画像及び第１サンプル記述文を前記ニューラルネットワークに入力して処理して、第１トレーニングスコアを取得することと、異なる正のサンプルペアの第１サンプル画像及び第１サンプル記述文を前記ニューラルネットワークに入力して処理して、第２トレーニングスコアを取得することと、複数の第１トレーニングスコアと複数の第２トレーニングスコアにより、第１損失を取得することと、を含む。

【0094】

例を挙げると、正のサンプルペア（第１サンプル画像及びその第１サンプル記述文）のネットワーク損失を取得してよい。トレーニング集合中のいずれか１つの正のサンプルペアについては、同一な正のサンプルペア（Ｏ_ｉ，Ｑ_ｉ）の第１サンプル画像Ｏ_ｉ及び第１サンプル記述文Ｑ_ｉを図２に示すニューラルネットワークに入力して処理して、第１トレーニングスコアｓ（Ｏ_ｉ，Ｑ_ｉ）を取得することができる。ここで、ｉはサンプル番号であり、１≦ｉ≦Ｎであり、Ｎはサンプル集合中の正のサンプルペアの数量である。

【0095】

可能な一実施形態では、異なる正のサンプルペアの第１サンプル画像及びそれに対応しない第１サンプル記述文（Ｏ_ｉ，Ｑ_ｊ）については、図２に示すニューラルネットワークに入力して処理して、第２トレーニングスコアｓ（Ｏ_ｉ，Ｑ_ｊ）を取得することができる。ただし、ｊはサンプル番号であり、１≦ｊ≦Ｎであり、ｊはｉと等しくない。同様に、異なる正のサンプルペアの第１サンプル画像と第１サンプル記述文（Ｏ_ｊ，Ｑ_ｉ）をニューラルネットワークに入力して、別の第２トレーニングスコアｓ（Ｏ_ｊ，Ｑ_ｉ）を取得することができる。

【0096】

可能な一実施形態では、それぞれトレーニング集合中の正のサンプルペア（第１サンプル画像及び第１サンプル記述文）を処理して、複数の第１トレーニングスコアと複数の第２トレーニングスコアを取得することができ、それによって最初サンプルの第１損失Ｌ_ｒａｎｋを取得することができ、

（１）

【0097】

式（１）において、演算子［ｘ］_＋は、ｘと０の間の最大値を取ることを示してよく、即ち、ｘが０より大きい時にｘの値を取り、ｘが０以下である時に０を取り、ｍは、常数であってよく、ネットワーク損失のピッチを表すためのものである。当業者であれば実際に応じてｍの値を設定可能であり（例えば、０．１）、本願では、ｍの具体的な値が限定されないことを理解すべきである。

【0098】

可能な一実施形態では、前記ニューラルネットワークの第１損失と第２損失により、前記ニューラルネットワークの全損失を決定する前に、前記第２損失を取得することを更に含み、
前記第２損失を取得する前記ステップは、
同一な負のサンプルペアの第２サンプル画像及び第１サンプル記述文を前記ニューラルネットワークに入力して処理して、第３トレーニングスコアを取得することと、異なる負のサンプルペアの第２サンプル画像及び第１サンプル記述文を前記ニューラルネットワークに入力して処理して、第４トレーニングスコアを取得することと、同一な負のサンプルペアの第１サンプル画像及び第２サンプル記述文を前記ニューラルネットワークに入力して処理して、第５トレーニングスコアを取得することと、異なる負のサンプルペアの第１サンプル画像及び第２サンプル記述文を前記ニューラルネットワークに入力して処理して、第６トレーニングスコアを取得することと、複数の第３トレーニングスコア、複数の第４トレーニングスコア、複数の第５トレーニングスコア及び複数の第６トレーニングスコアにより、第２損失を取得することとを含む。

【0099】

例を挙げると、除去後の負サンプル（第２サンプル画像及び第２サンプル記述文）のネットワーク損失を取得することができる。トレーニング集合中の同一な負のサンプルペア

については、第２サンプル画像

及び第１サンプル記述文

を図２に示すニューラルネットワークに入力して処理して、第３トレーニングスコア

を取得することができる。ただし、ｉはサンプル番号であり、１≦ｉ≦Ｎであり、Ｎはサンプル集合中のサンプルペアの数量である。

【0100】

可能な一実施形態では、トレーニング集合中の異なる負のサンプルペア（第２サンプル画像

及び対応しない第１サンプル記述文

）については、図２に示すニューラルネットワークに入力して処理して、第４トレーニングスコア

を取得することができる。ここで、ｊはサンプル番号であり、１≦ｊ≦Ｎであり、ｊはｉと等しくない。

【0101】

同様に、同一な負のサンプルペア

の第１サンプル画像と対応する第２サンプル記述文をニューラルネットワークに入力して、第５トレーニングスコア

を取得することができ、異なる負のサンプルペア

の第１サンプル画像と第２サンプル記述文をニューラルネットワークに入力して、第６トレーニングスコア

を取得することができる。

【0102】

可能な一実施形態では、トレーニング集合中の複数の正のサンプルペア（第１サンプル画像及び第１サンプル記述文）及び除去後の負のサンプルペアをそれぞれ処理して、複数の第３トレーニングスコア、複数の第４トレーニングスコア、複数の第５トレーニングスコア及び複数の第６トレーニングスコアを取得することができ、更に除去後のサンプルの第２損失Ｌ_{ｅｒａｓｅ}を取得でき、

（２）

【0103】

式（２）において、演算子［ｘ］_＋は、ｘと０の間の最大値を取ることを示してよく、即ち、ｘが０より大きい時に、ｘの値を取り、ｘが０以下である時に、０を取り、ｍは、常数であってよく、ネットワーク損失のピッチを表すためのものである。当業者であれば実際に応じてｍの値を設定可能であり（例えば、０．１）、本願では、ｍの具体的な値が限定されないことを理解すべきである。

【0104】

可能な一実施形態では、第１損失と第２損失を決定した後、第１損失と第２損失により前記ニューラルネットワークの全損失を決定し、更に全損失により前記ニューラルネットワークをトレーニングすることができる。

【0105】

ここで、前記ニューラルネットワークの第１損失と第２損失により、前記ニューラルネットワークの全損失を決定するステップは、前記第１損失と前記第２損失に対して加重重畳を行って、前記ニューラルネットワークの全損失を取得することを含んでよい。

【0106】

例を挙げると、下式によってニューラルネットワークの全体的なネットワーク損失Ｌを計算してよく、

（３）

【0107】

式（３）において、βとγはそれぞれ第１損失と第２損失の重みを表す。当業者であれば、実際に応じてβとγの値を設定可能であり、本願ではβとγの具体的な値が限定されないことを理解すべきである。

【0108】

可能な一実施形態では、全体的なネットワーク損失Ｌを取得した後、全体的なネットワーク損失Ｌにより上記ニューラルネットワークをトレーニングすることができる。例えば、全体的なネットワーク損失Ｌにより、逆勾配法を用いて前記ニューラルネットワークのネットワークパラメータ値を調整し、更に、全体的なネットワーク損失Ｌを再度取得することができる。数回の調整によって特定のトレーニング条件に到達した（ネットワーク損失Ｌが縮約し又はトレーニング回数に到達した）時、トレーニングされたニューラルネットワークを決定することができる。本願はニューラルネットワークの具体的なトレーニング形態を限定するものではない。

【0109】

本願の実施例に係る画像の記述文位置決定方法によれば、クロスモダリティ消去の方式によって注目度重みが高い最も主要なビジョン又はテキスト情報を消去して難しいトレーニングサンプルを生成し、それによってニューラルネットワークモデルに最も主要な証拠以外の補充証拠を探させるように促進する。本願の実施例によれば、最初照会語句の消去画像を利用するか、又は最初画像の消去照会語句を利用して、難しいトレーニングサンプルを形成し、それによって、推定複雑性を増加せずにトレーニングデータに基づいて潜在的な文字−写真対応関係をニューラルネットワークモデルに更に好適に学習させる。

【0110】

本願の実施例は、ロボット又は携帯電話等の端末に利用して、人間の指導（文字又は音声）により画像内の人物の位置を決定して、テキストと画像を正確に対応付けるのを実現することができる。

【0111】

具体的な実施形態の上記方法において、各ステップの記述順序は厳しい実行順序であるというわけではなく、実施プロセスの何の制限にもならなく、各ステップの具体的な実行順序はその機能と可能な内在的論理に依存することが当業者に理解される。

【0112】

本願で言及される上記各方法の実施例は、原理と論理に違反しない限り、相互に組み合わせて、組合せ後の実施例を形成することができることが理解され、紙数に限りがあるので、本願では詳細な説明を省略する。

【0113】

図５は、本願の実施例に係る画像の記述文位置決定装置のブロック図を示し、図５に示すように、前記画像の記述文位置決定装置は、
被解析記述文と被解析画像に対して解析処理を行って、前記被解析記述文の複数の語句注目度重み及び前記被解析画像の複数の画像注目度重みを取得するように構成される第１重み取得モジュール５１と、
前記複数の語句注目度重み及び被解析画像の主体特徴、位置特徴、関係特徴により、複数の第１マッチングスコアを取得するように構成される第１スコア取得モジュール５２であって、前記被解析画像に複数の対象を含み、主体対象が前記複数の対象のうち、注目度重みが最も高い対象であり、前記主体特徴が前記主体対象の特徴であり、前記位置特徴が前記複数の対象の位置特徴であり、前記関係特徴が前記複数の対象の間の関係特徴である第１スコア取得モジュール５２と、
前記複数の第１マッチングスコア及び前記複数の画像注目度重みにより、前記被解析記述文と前記被解析画像との第２マッチングスコアを取得するように構成される第２スコア取得モジュール５３と、
前記第２マッチングスコアにより、前記被解析記述文の前記被解析画像での位置決定結果を決定するように構成される結果決定モジュール５４とを含む。

【0114】

可能な一実施形態では、前記第１重み取得モジュールは、
前記被解析画像に対して特徴抽出を行って、前記被解析画像の画像特徴ベクトルを取得するように構成される画像特徴抽出サブモジュールと、
前記被解析記述文に対して特徴抽出を行って、前記被解析記述文の複数の分割単語の分割単語埋め込みベクトルを取得するように構成される分割単語特徴抽出サブモジュールと、
前記画像特徴ベクトル及び前記複数の分割単語の分割単語埋め込みベクトルにより、前記被解析記述文の複数の語句注目度重み及び前記被解析画像の複数の画像注目度重みを取得するように構成される第１重み取得サブモジュールとを含む。

【0115】

可能な一実施形態では、前記装置は、ニューラルネットワークによって前記被解析記述文の複数の語句注目度重み及び前記被解析画像の複数の画像注目度重みを取得するように構成される第２重み取得モジュールを更に含む。

【0116】

可能な一実施形態では、前記複数の語句注目度重みは、語句主語重み、語句位置重み及び語句関係重みを含み、前記ニューラルネットワークは、画像注目度ネットワークを含み、前記画像注目度ネットワークは、主体ネットワーク、位置ネットワーク及び関係ネットワークを含み、前記複数の第１マッチングスコアは、主語マッチングスコア、位置マッチングスコア及び関係マッチングスコアを含み、前記第１スコア取得モジュールは、
前記語句主語重み及び主体特徴を前記主体ネットワークに入力して処理して、前記主語マッチングスコアを取得するように構成される第１スコア取得サブモジュールと、
前記語句位置重み及び位置特徴を前記位置ネットワークに入力して処理して、前記位置マッチングスコアを取得するように構成される第２スコア取得サブモジュールと、
前記語句関係重み及び関係特徴を前記関係ネットワークに入力して処理して、前記関係マッチングスコアを取得するように構成される第３スコア取得サブモジュールとを含む。

【0117】

可能な一実施形態では、前記複数の画像注目度重みは、主体対象重み、対象位置重み及び対象関係重みを含み、前記第２スコア取得モジュールは、
前記主体対象重み、前記対象位置重み及び前記対象関係重みにより、前記主語マッチングスコア、前記位置マッチングスコア及び前記関係マッチングスコアに対して加重平均を行って、前記第２マッチングスコアを決定するように構成される第４スコア取得サブモジュールを含む。

【0118】

可能な一実施形態では、前記装置は、
前記被解析画像を特徴抽出ネットワークに入力して処理して、前記主体特徴、前記位置特徴及び前記関係特徴を取得するための第３重み取得モジュールを更に含む。

【0119】

可能な一実施形態では、前記結果決定モジュールは、
前記第２マッチングスコアがプリセットの閾値より大きいか等しい場合に、前記主体対象の画像領域を前記被解析記述文の位置決定として決定するように構成される位置決定サブモジュールを含む。

【0120】

可能な一実施形態では、前記第２重み取得モジュールの前、複数の正のサンプルペアと複数の負のサンプルペアを含むサンプル集合を用いて前記ニューラルネットワークをトレーニングするように構成されるトレーニングモジュールを更に含み、
ここで、各正のサンプルペアは、第１サンプル画像及びその第１サンプル記述文を含み、
各負のサンプルペアは、第１サンプル画像及び前記第１サンプル記述文から分割単語が除去された後の第２サンプル記述文、又は第１サンプル記述文及び前記第１サンプル画像から領域が除去された後の第２サンプル画像を含む。

【0121】

可能な一実施形態では、前記ニューラルネットワークは、言語注目度ネットワークを更に含み、前記装置は、
前記正のサンプルペアの第１サンプル記述文及び第１サンプル画像を前記言語注目度ネットワークに入力して、前記第１サンプル記述文の複数の分割単語の注目度重みを取得するように構成される分割単語重み決定モジュールと、
所定のマークを用いて前記第１サンプル記述文内の注目度重みが最も高い分割単語を取り替えて、第２サンプル記述文を取得するように構成される分割単語取り替えモジュールと、
前記第１サンプル画像と前記第２サンプル記述文を負のサンプルペアとして使用するように構成される第１負のサンプルペア決定モジュールとを更に含む。

【0122】

可能な一実施形態では、前記装置は、
前記正のサンプルペアの第１サンプル記述文及び第１サンプル画像を前記画像注目度ネットワークに入力して、前記第１サンプル画像の注目度重みを取得するように構成される画像重み決定モジュールと、
前記第１サンプル画像内の注目度重みが最も高い画像領域を除去して、第２サンプル画像を取得するように構成される領域除去モジュールと、
前記第２サンプル画像と前記第１サンプル記述文を負のサンプルペアとして使用するように構成される第２負のサンプルペア決定モジュールとを更に含む。

【0123】

可能な一実施形態では、前記トレーニングモジュールは、
前記ニューラルネットワークの第１損失と第２損失により、前記ニューラルネットワークの全損失を決定するように構成される全損失決定サブモジュールと、
前記全損失により、前記ニューラルネットワークをトレーニングするように構成されるトレーニングサブモジュールとを含む。

【0124】

可能な一実施形態では、前記装置は、前記全損失決定サブモジュールの前、前記第１損失を取得するように構成される第１損失取得サブモジュールを更に含み、前記第１損失取得サブモジュールは、
同一な正のサンプルペアの第１サンプル画像及び第１サンプル記述文を前記ニューラルネットワークに入力して処理して、第１トレーニングスコアを取得し、
異なる正のサンプルペアの第１サンプル画像及び第１サンプル記述文を前記ニューラルネットワークに入力して処理して、第２トレーニングスコアを取得し、
複数の第１トレーニングスコアと複数の第２トレーニングスコアにより、第１損失を取得するように構成される。

【0125】

可能な一実施形態では、前記装置は、前記全損失決定サブモジュールの前、前記第２損失を取得するように構成される第２損失取得サブモジュールを更に含み、前記第２損失取得サブモジュールは、
同一な負のサンプルペアの第２サンプル画像及び第１サンプル記述文を前記ニューラルネットワークに入力して処理して、第３トレーニングスコアを取得し、
異なる負のサンプルペアの第２サンプル画像及び第１サンプル記述文を前記ニューラルネットワークに入力して処理して、第４トレーニングスコアを取得し、
同一な負のサンプルペアの第１サンプル画像及び第２サンプル記述文を前記ニューラルネットワークに入力して処理して、第５トレーニングスコアを取得し、
異なる負のサンプルペアの第１サンプル画像及び第２サンプル記述文を前記ニューラルネットワークに入力して処理して、第６トレーニングスコアを取得し、
複数の第３トレーニングスコア、複数の第４トレーニングスコア、複数の第５トレーニングスコア及び複数の第６トレーニングスコアにより、第２損失を取得するように構成される。

【0126】

可能な一実施形態では、前記全損失決定サブモジュールは、
前記第１損失と前記第２損失に対して加重重畳を行って、前記ニューラルネットワークの全損失を取得するように構成される。

【0127】

いくつかの実施例では、本願の実施例によって提供された装置が備えられ機能又は含まれたモジュールは、上記方法実施例に記載の方法を実行するために用いられ、その具体的な実施については上記方法実施例の説明を参照してもよく、簡略化するために、ここで重複説明は割愛する。

【0128】

本願の実施例は、コンピュータプログラム命令を記憶したコンピュータ可読記憶媒体であって、前記コンピュータプログラム命令がプロセッサにより実行される時に上記方法が実現されるコンピュータ可読記憶媒体を更に提供する。コンピュータ可読記憶媒体は非揮発性コンピュータ可読記憶媒体であってよい。

【0129】

本願の実施例は、上記方法を実行するように構成されるプロセッサと、プロセッサ実行可能命令を記憶するためのメモリとを含む電子機器を更に提供する。

【0130】

電子機器は、端末、サーバ又は他の形態の機器として提供されてよい。

【0131】

図６は、本願の実施例に係る電子機器８００のブロック図を示す。例えば、電子機器８００は携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信装置、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、携帯情報端末などの端末であってもよい。

【0132】

図６を参照すると、電子機器８００は、処理コンポーネント８０２、メモリ８０４、電源コンポーネント８０６、マルチメディアコンポーネント８０８、オーディオコンポーネント８１０、入力／出力（Ｉ／Ｏ）インターフェイス８１２、センサコンポーネント８１４、および通信コンポーネント８１６の一つまたは複数を含むことができる。

【0133】

処理コンポーネント８０２は、通常、電子機器８００の全体的な動作、例えば表示、電話の呼び出し、データ通信、カメラ動作および記録動作に関連する動作を制御する。処理コンポーネント８０２は、上記方法のステップの全てまたは一部を完了するために、一つまたは複数のプロセッサ８２０を含んで命令を実行することができる。また、処理コンポーネント８０２は、他のコンポーネントとの相互作用のために、一つまたは複数のモジュールを含むことができる。例えば、処理コンポーネント８０２は、マルチメディアコンポーネント８０８との相互作用のために、マルチメディアモジュールを含むことができる。

【0134】

メモリ８０４は、電子機器８００での動作をサポートするために様々なタイプのデータを記憶するように構成される。これらのデータの例として、電子機器８００において運用するためのあらゆるアプリケーションプログラムまたは方法の命令、連絡先データ、電話帳データ、メッセージ、ピクチャー、ビデオなどを含む。メモリ８０４は、例えば静的ランダムアクセスメモリ（ＳＲＡＭ）、電気的消去可能プログラマブル読み取り専用メモリ（ＥＥＰＲＯＭ）、消去可能なプログラマブル読み取り専用メモリ（ＥＰＲＯＭ）、プログラマブル読み取り専用メモリ（ＰＲＯＭ）、読み取り専用メモリ（ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなどの様々なタイプの揮発性または非揮発性記憶機器またはそれらの組み合わせによって実現できる。

【0135】

電源コンポーネント８０６は、電子機器８００の各コンポーネントに電力を供給する。電源コンポーネント８０６は電源管理システム、一つまたは複数の電源、および電子機器８００のための電力生成、管理および配分に関連する他のコンポーネントを含むことができる。

【0136】

マルチメディアコンポーネント８０８は、前記電子機器８００とユーザとの間で出力インターフェイスを提供する画面を含む。いくつかの実施例では、画面は液晶ディスプレイ（ＬＣＤ）およびタッチパネル（ＴＰ）を含むことができる。画面がタッチパネルを含む場合、ユーザからの入力信号を受信するために、タッチ画面として実現してもよい。タッチパネルは、タッチ、スワイプおよびタッチパネルでのジェスチャを検知するために、一つまたは複数のタッチセンサを含む。前記タッチセンサは、タッチまたはスワイプ動作の境界を検知するのみならず、前記タッチまたはスワイプ操作に関連する持続時間および圧力を検出することもできる。いくつかの実施例では、マルチメディアコンポーネント８０８は、フロンドカメラおよび／またはリアカメラを含む。電子機器８００が動作モード、例えば撮影モードまたは撮像モードになる場合、フロンドカメラおよび／またはリアカメラは外部のマルチメディアデータを受信することができる。各フロンドカメラおよびリアカメラは固定された光学レンズ系または焦点距離および光学ズーム能力を有するものであってもよい。

【0137】

オーディオコンポーネント８１０は、オーディオ信号を出力および／または入力するように構成される。例えば、オーディオコンポーネント８１０は、電子機器８００が動作モード、例えば呼び出しモード、記録モードおよび音声認識モードになる場合、外部のオーディオ信号を受信するように構成されたマイク（ＭＩＣ）を含む。受信されたオーディオ信号はさらにメモリ８０４に記憶されるか、または通信コンポーネント８１６によって送信されてもよい。いくつかの実施例では、オーディオコンポーネント８１０はさらに、オーディオ信号を出力するためのスピーカーを含む。

【0138】

Ｉ／Ｏインターフェイス８１２は、処理コンポーネント８０２と周辺インターフェイスモジュールとの間でインターフェイスを提供し、上記周辺インターフェイスモジュールはキーボード、クリックホイール、ボタンなどであってもよい。これらのボタンはホームボタン、音量ボタン、スタートボタンおよびロックボタンを含むことができるが、これらに限定されない。

【0139】

センサコンポーネント８１４は、電子機器８００に各方面での状態評価を提供するための一つまたは複数のセンサを含む。例えば、センサコンポーネント８１４は電子機器８００のオン／オフ状態、コンポーネントの相対的な位置決め、例えば前記コンポーネントが電子機器８００の表示装置およびキーパッドであることを検出でき、センサコンポーネント８１４はさらに、電子機器８００または電子機器８００のあるコンポーネントの位置の変化、ユーザと電子機器８００との接触の有無、電子機器８００の方位または加減速および電子機器８００の温度変化を検出できる。センサコンポーネント８１４は、いかなる物理的接触もない場合に近傍の物体の存在を検出するために用いられるように構成された近接センサを含む。センサコンポーネント８１４はさらに、ＣＭＯＳ又はＣＣＤのようなイメージングアプリケーションにおいて使用するための光センサを含むことができる。いくつかの実施例では、該センサコンポーネント８１４はさらに、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサまたは温度センサを含むことができる。

【0140】

通信コンポーネント８１６は電子機器８００と他の機器との間の有線または無線通信を実現するように配置される。電子機器８００は、通信規格に基づく無線ネットワーク、例えばＷｉＦｉ、２Ｇまたは３Ｇ、またはそれらの組み合わせにアクセスできる。一例示的実施例では、通信コンポーネント８１６は、放送チャネルによって外部の放送管理システムの放送信号または放送関連情報を受信する。一例示的実施例では、前記通信コンポーネント８１６はさらに、近距離通信を促進させるために、近距離無線通信（ＮＦＣ）モジュールを含む。例えば、ＮＦＣモジュールでは無線周波数識別（ＲＦＩＤ）技術、赤外線データ協会（ＩｒＤＡ）技術、超広帯域（ＵＷＢ）技術、ブルートゥース（ＢＴ、登録商標）技術および他の技術によって実現できる。

【0141】

例示的な実施例では、電子機器８００は、一つまたは複数の特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタル信号処理デバイス（ＤＳＰＤ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子要素によって実現し、上記方法を実行するために用いることができる。

【0142】

例示的な実施例では、さらに、非揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ８０４が提供され、上記コンピュータプログラム命令は電子機器８００のプロセッサ８２０によって実行して上記方法を完了することができる。

【0143】

図７は、本願の実施例に係る電子機器１９００のブロック図を示す。例えば、電子機器１９００はサーバとして提供できる。図７を参照すると、電子機器１９００は、さらに一つまたは複数のプロセッサを含む処理コンポーネント１９２２、および処理コンポーネント１９２２によって実行可能な命令、例えばアプリケーションプログラムを記憶するための、メモリ１９３２を代表とするメモリ資源を含む。メモリ１９３２に記憶されたアプリケーションプログラムはそれぞれが１グループの命令に対応する一つまたは複数のモジュールを含むことができる。また、処理コンポーネント１９２２は命令を実行し、それによって上記方法を実行するように構成される。

【0144】

電子機器１９００はさらに、電子機器１９００の電源管理を実行するように構成された電源コンポーネント１９２６、電子機器１９００をネットワークにアクセスするように構成された有線または無線ネットワークインターフェイス１９５０、および入出力（Ｉ／Ｏ）インターフェイス１９５８を含むことができる。電子機器１９００はメモリ１９３２に記憶されたオペレーティングシステム、例えばＷｉｎｄｏｗｓＳｅｒｖｅｒＴＭ、ＭａｃＯＳＸＴＭ、ＵｎｉｘＴＭ、ＬｉｎｕｘＴＭ、ＦｒｅｅＢＳＤＴＭまたは類似するものに基づいて動作できる。

【0145】

例示的な実施例では、さらに、非揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ１９３２が提供され、上記コンピュータプログラム命令は電子機器１９００の処理コンポーネント１９２２によって実行して上記方法を完了することができる。

【0146】

本願は、システム、方法および／またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品はプロセッサに本願の各態様を実現させるためのコンピュータ読み取り可能プログラム命令がロードされているコンピュータ読み取り可能記憶媒体を含むことができる。

【0147】

コンピュータ読み取り可能記憶媒体は命令実行機器により使用される命令を保存および記憶可能な有形機器であってもよい。コンピュータ読み取り可能記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ読み取り可能記憶媒体のさらに具体的な例（非包括的リスト）としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、静的ランダムアクセスメモリ（ＳＲＡＭ）、携帯型コンパクトディスク読み取り専用メモリ（ＣＤ−ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリスティック、フロッピーディスク、機械的符号化装置、例えば命令が記憶されているせん孔カードまたはスロット内突起構造、および上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータ読み取り可能記憶媒体は瞬時信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波（例えば、光ファイバーケーブルを通過するパルス光）、または電線を経由して伝送される電気信号と解釈されるものではない。

【0148】

ここで記述したコンピュータ読み取り可能プログラム命令はコンピュータ読み取り可能記憶媒体から各計算／処理機器にダウンロードされてもよいし、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワークおよび／または無線ネットワークによって外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび／またはエッジサーバを含むことができる。各計算／処理機器内のネットワークアダプタカードまたはネットワークインターフェイスはネットワークからコンピュータ読み取り可能プログラム命令を受信し、該コンピュータ読み取り可能プログラム命令を転送し、各計算／処理機器内のコンピュータ読み取り可能記憶媒体に記憶する。

【0149】

本願の動作を実行するためのコンピュータプログラム命令はアセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはＳｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語、および「Ｃ」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含む一つまたは複数のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ読み取り可能プログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）または広域ネットワーク（ＷＡＮ）を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、（例えばインターネットサービスプロバイダを利用してインターネットを経由して）外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ読み取り可能プログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）またはプログラマブル論理アレイ（ＰＬＡ）などの電子回路をパーソナライズすることで、該電子回路はコンピュータ読み取り可能プログラム命令を実行し、それにより本開示の各態様を実現できるようになる。

【0150】

なお、ここで本願の実施例に係る方法、装置（システム）およびコンピュータプログラム製品のフローチャートおよび／またはブロック図を参照しながら本願の各態様を説明しが、フローチャートおよび／またはブロック図の各ブロックおよびフローチャートおよび／またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ読み取り可能プログラム命令によって実現できることを理解すべきである。

【0151】

これらのコンピュータ読み取り可能プログラム命令は、機械を製造するために、共通コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供されてもよく、それにより、これらの命令はコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行され、フローチャートおよび／またはブロック図の一つまたは複数のブロックにおいて指定された機能／動作を実現する手段を創出する。また、これらのコンピュータ読み取り可能プログラム命令は、コンピュータ読み取り可能記憶媒体に記憶し、それによってコンピュータ、プログラマブルデータ処理装置および／または他の機器を特定の方式で動作させるようにしてもよく、それにより、中に保存された命令を有するコンピュータ読み取り可能記憶媒体は、フローチャートおよび／またはブロック図の一つまたは複数のブロックにおいて指定された機能／動作の各態様を実現する命令を含む製品を備える。

【0152】

コンピュータ読み取り可能プログラムはコンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードすることにより、コンピュータ実施プロセスを生成するように、コンピュータ、他のプログラマブルデータ処理装置または他の機器において一連の動作ステップを実行させるようにしてもよく、それにより、コンピュータ、他のプログラマブルデータ処理装置、または他の機器において実行される命令はフローチャートおよび／またはブロック図の一つまたは複数のブロックにおいて指定された機能／動作を実現する。

【0153】

図面のうちフローチャートおよびブロック図は本願の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示す。この点では、フローチャートまたはブロック図における各ブロックは一つのモジュール、プログラムセグメントまたは命令の一部分を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部分は指定された論理機能を実現するための一つまたは複数の実行可能命令を含む。いくつかの置換としての実現形態では、ブロックに表記される機能は図面に付したものと異なる順序で実現してもよい。例えば、二つの連続的なブロックは実質的に同時に実行してもよく、また、係る機能によって、それらは逆な順序で実行してもよい場合がある。なお、ブロック図および／またはフローチャートにおける各ブロック、およびブロック図および／またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことに注意すべきである。

【0154】

以上、本願の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲および精神から逸脱することなく、様々な修正および変更が自明である。本明細書に選ばれた用語は、各実施例の原理、実際の適用または市場における技術への技術的改善を好適に解釈するか、または他の当業者に本文に披露された各実施例を理解させるためのものである。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

特許第6968270号(P6968270)IP Force 特許公報掲載プロジェクト 2022.1.31 β版