【文献】
原田 達也,機械学習の画像認識への応用,シミュレーション 第34巻 第4号,小宮山印刷工業株式会社,2015年,第34巻 第4号,18〜24
(58)【調査した分野】(Int.Cl.,DB名)
画像と、該画像に含まれる複数の物体間の関係と、を対応付けた学習データに基づいて学習を行い、該学習結果を用いて画像に含まれる物体間の関係を認識し出力する物体間関係認識装置であって、
画像が入力され、該画像の特徴を示す第1特徴量を出力する第1学習器と、
前記第1学習器から出力される第1特徴量が入力され、該第1特徴量より低次元数の第2特徴量を出力すると共に、内部状態を所定ステップ保持する複数の記憶部を有する第2学習器と、
第2学習器の各記憶部に接続され、該各記憶部から出力される第2特徴量が入力され、該入力された第2特徴量に基づいてそれぞれ第1乃至第3要素を認識し、該第1乃至第3要素の確率情報を出力する第1乃至第3認識部で構成される共に、前記第1乃至第3要素の組合せをそれぞれ出力する複数のトリプレットユニットを有するトリプレット部と、
を備え、
前記トリプレット部は、前記各トリプレットユニットの第1乃至第3認識部から出力される第1乃至第3要素の確率情報に基づいて、前記各トリプレットユニットから出力される第1乃至第3要素の組合せの中から、少なくとも1つの前記第1乃至第3要素の組合せを選択し、該選択した第1乃至第3要素の組合せを、前記画像に含まれる物体間の関係として認識し出力する、
ことを特徴とする物体間関係認識装置。
【発明を実施するための形態】
【0009】
実施形態1
以下、図面を参照して本発明の実施形態について説明する。
図1は、本発明の実施形態1に係る物体間関係認識装置の概略的なシステム構成を示すブロック図である。本実施形態1に係る物体間関係認識装置1は、例えば、家庭内などの一般環境で活動するロボット周辺にある複数の物体を認識し、各物体間の関係を認識し出力するものである。
【0010】
本実施形態1に係る物体間関係認識装置1は、第1ニューラルネットワーク2と、第2ニューラルネットワーク3と、トリプレット部4と、を備える。
【0011】
物体間関係認識装置1は、例えば、演算処理等を行うCPU(Central Processing Unit)、CPUによって実行される演算プログラム等が記憶されたROM(Read Only Memory)やRAM(Random Access Memory)からなるメモリ、外部と信号の入出力を行うインターフェイス部(I/F)、などからなるマイクロコンピュータを中心にして、ハードウェア構成されている。CPU、メモリ、及びインターフェイス部は、データバスなどを介して相互に接続されている。
【0012】
第1ニューラルネットワーク2は、第1学習器の一具体例である。第1ニューラルネットワーク2は、例えば、畳み込み式ニューラルネットワーク(CNN:Convolutional Neural Network)として構成されている。第1ニューラルネットワーク2は、例えば、画像情報が入力されると、その画像の第1特徴量として、4096次元のベクトル値を出力する。
【0013】
第1特徴量は、第1ニューラルネットワーク2が抽出する画像特徴量であり、後述の第2特徴量は、第2ニューラルネットワーク3が抽出する画像特徴量である。なお、第1ニューラルネットワーク2の入力として、画像内の部体に定義されるBounding Box(バウンディングボックス)から作ったものを入力とし、第1特徴量を付加してもよい。
【0014】
上記第1ニューラルネットワーク2が出力する第1特徴量の次元数は一例でありこれに限定されず、計算資源が許容される限り任意に設定できる。
【0015】
図2は、本実施形態1に係る第2ニューラルネットワーク及びトリプレット部の概略的構成を示すブロック図である。第2ニューラルネットワーク3は、第2学習器の一具体例である。第2ニューラルネットワーク3は、例えば、再帰的ニューラルネットワーク(RNN:Recurrent Neural Network)として構成されている。第2ニューラルネットワーク3は、複数のLSTM(Long Short-Term Memory)31を有している。
【0016】
LSTM31は、例えば、第1ニューラルネットワーク2から出力される4096次元ベクトルの第1特徴量が入力され、第1特徴量より低次元数の1024次元ベクトルの第2特徴量を出力する。このように第1ニューラルネットワーク2によって特徴量の次元数を低減することで計算量を低減できる。
【0017】
LSTM31は、内部状態を所定ステップ保持し、逐次的に第1ニューラルネットワーク2からの第1特徴量を受け付ける。LSTM31は、あるステップtにおける内部状態を入力に応じて更新するようにモデリングされている。本実施形態1において、ステップtにおけるLSTM31をLSTM
tと表記する。
【0018】
LSTM31は、第1ニューラルネットワーク2から第1特徴量が入力される毎に、内部状態を更新し、1024次元の第2特徴量を出力する。上記LSTM31が出力する第2特徴量の次元数は一例でありこれに限定されず、計算資源が許容される限り任意に設定できる。
【0019】
トリプレット部4は、第2ニューラルネットワーク3のLSTM31に対応した、複数のトリプレットユニット41で構成されている。トリプレット部4の各トリプレットユニット41は、対応する、第2ニューラルネットワーク3の各LSTM31に夫々接続されている。各トリプレットユニット41には、LSTM31から出力される第2特徴量が入力される。
【0020】
図3は、本実施形態1に係るトリプレットユニットの概略的構成を示すブロック図である。トリプレットユニット41は、LSTM31から出力される第2特徴量に基づいて、第1要素であるsubject、第2要素であるpredicate、及び第3要素であるobjectを認識する、独立した第1乃至第3認識部411、412、413を有している。
【0021】
例えば、第1認識部411は、LSTM31から出力される第2特徴量に基づいて、「Monitor」、「Mouse」などのsubject(主語)を認識する。第2認識部412は、LSTM31から出力される第2特徴量に基づいて、「on」、「sitting」などのpredicate(述語)を認識する。第3認識部413は、LSTM31から出力される第2特徴量に基づいて、「table」などのobject(目的語)を認識する。そして、第1乃至第3認識部411、412、413は、認識結果であるsubject、predicate、及びobjectの事後確率分布(確率情報の一例)を、ベクトルとして夫々出力する。
【0022】
トリプレット部4は、各トリプレットユニット41の第1乃至第3認識部411、412、413から出力されるsubject、predicate、及びobjectの事後確率分布ベクトルに基づいて、各トリプレットユニット41から出力されるトリプレット(subject、predicate、及びobjectの組合せ)の中から、少なくとも1つのトリプレット(クラス)を選択する。
【0023】
トリプレット部4は、各トリプレットユニット41の第1乃至第3認識部411、412、413から出力されるsubject、predicate、及びobjectの事後確率分布ベクトルに基づいて、各トリプレットユニット41から出力されるトリプレットの中から、例えば、ベクトルが最大値となるトリプレットを選択する。また、トリプレット部4は、各トリプレットユニット41の第1乃至第3認識部411、412、413から出力されるsubject、predicate、及びobjectの事後確率分布ベクトルに基づいて、各トリプレットユニット41から出力されるトリプレットの中から、例えば、ベクトルが所定値以上のトリプレットを選択してもよい。トリプレット部4は、選択したトリプレットを物体間関係として出力する。
【0024】
上述したように、本実施形態1に係る物体間関係認識装置1は、トリプレット部4の各トリプレットユニット41を用いて、物体間関係を認識する。これにより、物体間関係を認識する際の計算量を大幅に低減できる。すなわち、従来のランキング学習を用いた手法では、特徴量から画像に含まれる全ての物体の組合せの関係に対しスコアを算出しており、その認識にかかる計算量はO(Nの3乗)であった。
【0025】
これに対し、本実施形態1に係る物体間関係認識装置1は、トリプレット部4の各トリプレットユニット41を用いて物体間関係を、subject、predicate、及びobjectのトリプレットに分解して認識する。このため、各要素の認識に必要なスコアの計算量はO(N)であり、1つのトリプレットを認識するために、各要素の第1乃至第3認識部411、412、413の出力結果を独立に用いることができる。したがって、認識にかかる全体の計算量はO(N)に抑え、その計算量を低減できる。
【0026】
続いて、物体間関係認識装置の認識方法について説明する。本実施形態1に係る物体間関係認識装置1は、後述の如く、<学習工程>において、予め用意された学習データに基づいて学習を行う。その後、物体間関係認識装置1は、<認識工程>において、<学習工程>の学習結果を用いて、新たに取得された認識対象物を含む画像(以下、認識対象画像)に含まれる各物体間の関係を示す物体間関係を認識する。
【0027】
以下、<学習工程>及び<認識工程>について詳細に説明する。
<学習工程>
第1ニューラルネットワーク2、第2ニューラルネットワーク3、及び、トリプレット部4は、予め用意した学習データに基づいて、第1ニューラルネットワーク2、第2ニューラルネットワーク3、及び、トリプレット部4の重み付け係数の学習を行う。学習データは、例えば、画像と物体間関係とを対応付けた複数組のデータ群である。学習データは、例えば、メモリなどに予め記憶されていてもよい。
【0028】
本実施形態1においては、第1ニューラルネットワーク2は、例えば、予めインターネット上の画像データ群などを基づいて、重み付け係数の学習を行ってもよい。続いて、第2ニューラルネットワーク3及びトリプレット部4は、予め用意した複数の物体を含む画像と物体間関係とを対応付けた学習データに基づいて重み付け係数の学習を行う。
【0029】
第2ニューラルネットワーク3及びトリプレット部4は、例えば、以下のバッチ確率的勾配降下法を用いて重み付け係数の学習を行う。なお、第1ニューラルネットワーク2、第2ニューラルネットワーク3及びトリプレット部4は、学習データに基づいて同時に重み付け係数の学習を行ってもよい。
【0030】
第2ニューラルネットワーク3及びトリプレット部4は、バッチ確率的勾配降下法において、下記(3)式に示す損失関数L(Θ、W)を最小化するように、LSTM31のパラメータ(LSTMパラメータ)Θ及びトリプレットユニット41のパラメータ(トリプレットパラメータ)Wの最適化を行う。損失関数L(Θ、W)は、所定関数の一具体例である。
【0031】
第2ニューラルネットワーク3及びトリプレット部4は、損失関数を最小化した(収束させた)後、バリデーションデータセットで最も精度の高いパラメータを学習結果(学習済み重み付け係数)として保持する。
【数1】
【0032】
上記式において、N
s、N
p、N
oは、夫々、subject、predicate、objectのクラス数を示す。xは画像を示し、x∈R
3×224×224となっている。CNN(x)は、第1ニューラルネットワーク2から出力される第1特徴量を示し、CNN(x)∈R
4096となっている。
【0033】
LSTM
tは、ステップtにおけるLSTM31からの出力値を示し、LSTM∈R
1024となっている。ΘはLSTMパラメータを示している。s′
t、p′
t、o′
tは、夫々、第1乃至第3認識部411、412、413から出力されるステップtにおけるsubject、predicate、objectの事後確率分布ベクトルを示す。y′
tは、ステップtにおけるトリプレットユニット41からの出力値を示し、y′
t=(s′
t、p′
t、o′
t)となっている。Wは、トリプレットパラメータを示している。
【0034】
s
t、p
t、o
tは、夫々、ステップtにおけるsubject、predicate、objectの教師データを示す。TU()は、トリプレット関数であり、予めトリプレットユニット41に設定されている。なお、上記(2)式のステップtにおける各LSTM31の出力L
t(Θ、W)を加算したものが上記(3)式に示す損失関数L(Θ、W)となっている。
【0035】
第2ニューラルネットワーク3及びトリプレット部4は、第1乃至第3認識部411、412、413の出力データであるs′
t、p′
t、o′
tと、教師データであるs
t、p
t、o
tとの差が最小となるようにLSTMパラメータΘ及びトリプレットパラメータWを決定し、損失関数L(Θ、W)を最小化している。
【0036】
上述したように、第1ニューラルネットワーク2、第2ニューラルネットワーク3及びトリプレット部4は、予め用意した学習データに基づいて学習を行い、その学習結果を保持する。
【0037】
<認識工程>
続いて、物体間関係認識装置1は、上記<学習工程>において学習した学習結果(LSTMパラメータΘ及びトリプレットパラメータW)を用いて、新たに取得された認識対象画像に含まれる各物体間の関係を示す物体間関係を認識する。物体間関係認識装置1は、認識対象画像に基づいて、その認識対象画像に含まれる各物体の物体間関係を認識する。認識対象画像は、例えば、ロボットのカメラにより取得された画像やメモリになどに予め記憶された画像である。
【0038】
第1ニューラルネットワーク2に、例えば、
図4に示す如く、認識対象画像xが入力される(
図4の(1))。
【0039】
第1ニューラルネットワーク2は、入力された認識対象画像xに基づいて、学習済み重み付け係数に基づく演算を行い、例えば、4096次元ベクトルの第1特徴量CNN(x)を、第2ニューラルネットワーク3の各LSTM31に対し出力する。
【0040】
各LSTM31は、第1ニューラルネットワーク2からの第1特徴量CNN(x)に基づいて、上記学習工程で設定されたLSTMパラメータΘに従って演算を行い、例えば、1024次元ベクトルの第2特徴量LSTM
tを、トリプレット部4の各トリプレットユニット41に対し出力する(
図4の(2))。
【0041】
各トリプレットユニット41の第1乃至第3認識部411、412、413は、各LSTM31からの第2特徴量LSTM
tに基づいて、上記学習工程で設定されたトリプレットパラメータWに従がって演算を行い、subject、predicate、及びobjectの事後確率分布ベクトルs′
t、p′
t、o′
tを出力する(
図4の(3))。
【0042】
トリプレット部4は、各トリプレットユニット41の第1乃至第3認識部411、412、413から出力されるsubject、predicate、及びobjectの事後確率分布ベクトルs′
t、p′
t、o′
tに基づいて、各トリプレットユニット41から出力されるトリプレット(subject、predicate、及びobjectの組合せ)の中から、ベクトルの最大値を取るトリプレットを選択し、そのトリプレットを物体間関係として認識し出力する(
図4の(4))。
【0043】
トリプレット部4は、例えば、
図4に示す如く、トリプレット(Monitor on table)、(Mouse on table)、・・・、及び(Person sitting chair)の中から、トリプレット(Monitor on table)を選択し、物体間関係として認識し出力する。物体間関係認識装置1は、例えば、トリプレット部4から出力される物体間関係を、ディスプレイ、スピーカ、プリンタなどの出力装置を用いてユーザに対し出力する。物体間関係認識装置1は、入力画像に対し出力装置を用いて、例えば、
図5に示す如く、物体間関係(stem on table)をグラフで出力してもよい。これにより、ユーザは、物体間関係を視覚的に容易に認識できる。
【0044】
上述したように、本実施形態1に係る物体間関係認識装置1は、画像の特徴量を、複数のLSTM31で構成された再帰的な第2ニューラルネットワーク3に入力し、その出力からトリプレット部4のトリプレットユニット41を用いて、物体間関係を認識する。これにより、逐次的に物体間関係を認識し出力することができ、出力済みの物体間関係を考慮して、物体間関係を短時間で出力できる。
【0045】
また、画像から複数の物体間関係を認識する場合、同一の物体間関係を重複して出力したり、類似した物体間関係を複数出力するのを抑制するのが好ましい。これに対し、本実施形態1に係る物体間関係認識装置1において、再帰的な第2ニューラルネットワーク3は、逐次的に各ステップで出力した際の過去の出力結果を考慮するようにモデル化されている。このため、多様な物体間関係を出力しつつも、同一あるいは類似した物体間関係の出力を抑制でき、物体間関係の意味的重複を排除できる。
【0046】
さらに、従来のランキング学習を用いた手法では、ランクに基づいてスコアの大きさにかかわらず一定数の物体間関係を出力するようにモデル化されていた。これに対し、本実施形態1に係る物体間関係認識装置1は、物体間関係を逐次的に出力できる。このため、物体間関係認識装置1は、例えば、認識対象画像に対して正しいと考えられる物体間関係のみを選択し出力することができる。すなわち、本実施形態1に係る物体間関係認識装置1は、設定された最大数以下で、任意の数の物体間関係を出力することができるため、物体間関係を選択的に出力できる。
【0047】
図6は、本実施形態1に係る物体間関係認識装置の認識方法のフローを示すフローチャートである。
例えば、学習工程において、第1ニューラルネットワーク2は、予め用意した画像データ群などを基づいて、学習を行う。
【0048】
第2ニューラルネットワーク3及びトリプレット部4は、予め用意した画像と物体間関係とを対応付けた学習データに基づいて学習を行い、損失関数L(Θ、W)のLSTMパラメータΘ及びトリプレットパラメータWを最適化する(ステップS102)。
【0049】
続いて、認識工程において、第1ニューラルネットワーク2に、認識対象画像が入力される(ステップS103)。
【0050】
第1ニューラルネットワーク2は、入力された認識対象画像に基づいて学習済み重み付け係数に基づく演算を行い、例えば、4096次元ベクトルの第1特徴量を、第2ニューラルネットワーク3の各LSTM31に対し出力する(ステップS104)。
【0051】
各LSTM31は、第1ニューラルネットワーク2から4096次元ベクトルの第1特徴量に基づいて、上記学習工程で設定されたLSTMパラメータΘに従って演算を行い、例えば、1024次元ベクトルの第2特徴量を、トリプレット部4の各トリプレットユニット41に対し出力する(ステップS105)。
【0052】
各トリプレットユニット41の第1乃至第3認識部411、412、413は、各LSTM31からの1024次元ベクトルの第2特徴量に基づいて、上記学習工程で設定されたトリプレットパラメータWに従がって演算を行い、subject、predicate、及びobjectの事後確率分布ベクトルを出力する(ステップS106)。
【0053】
トリプレット部4は、各トリプレットユニット41の第1乃至第3認識部411、412、413から出力されるsubject、predicate、及びobjectの事後確率分布ベクトルに基づいて、各トリプレットユニット41から出力されるトリプレットの中から、ベクトルの最大値を取るトリプレットを選択し、そのトリプレットを物体間関係として出力する(ステップS107)。
【0054】
以上、本実施形態1に係る物体間関係認識装置1は、画像が入力され、該画像の特徴を示す第1特徴量を出力する第1ニューラルネットワーク2と、第1ニューラルネットワーク2から出力される第1特徴量が入力され、第1特徴量より低次元数の第2特徴量を出力すると共に、内部状態を所定ステップ保持する複数のLSTM31を有する第2ニューラルネットワーク3と、第2ニューラルネットワーク3の各LSTM31に接続され、該各LSTM31から出力される第2特徴量が入力され、該入力された第2特徴量に基づいてそれぞれsubject、predicate、及びobjectを認識し、該subject、predicate、及びobjectの事後確率分布ベクトルを出力する第1乃至第3認識部411、412、413で構成される共に、subject、predicate、及びobjectの組合せをそれぞれ出力する複数のトリプレットユニット41を有するトリプレット部4と、を備える。トリプレット部4は、各トリプレットユニット41の第1乃至第3認識部411、412、413から出力されるsubject、predicate、及びobjectの事後確率分布ベクトルに基づいて、各トリプレットユニット41から出力されるsubject、predicate、及びobjectの組合せの中から、少なくとも1つのsubject、predicate、及びobjectの組合せを選択し、該選択したsubject、predicate、及びobjectの組合せを、画像に含まれる物体間の関係として認識する。なお、トリプレットユニット41は、例えば、
図8に示す如く、多層化されていてもよい。
【0055】
本実施形態1に係る物体間関係認識装置1は、上述の如く、トリプレット部4の各トリプレットユニット41を用いて物体間関係を、subject、predicate、及びobjectのトリプレットに分解して認識する。これにより、物体間関係を認識する際の計算量を大幅に低減できる。
【0056】
また、本実施形態1に係る物体間関係認識装置1は、上述の如く、画像の特徴量を、複数のLSTM31で構成された再帰的な第2ニューラルネットワーク3に入力し、その出力からトリプレット部4のトリプレットユニット41を用いて、物体間関係を認識する。これにより、逐次的に物体間関係を認識し出力することができ、出力済みの物体間関係を考慮して、物体間関係を短時間で出力できる。
【0057】
さらに、本実施形態1に係る物体間関係認識装置1において、上述の如く、再帰的な第2ニューラルネットワーク3は、逐次的に各ステップで出力した際の過去の出力結果を考慮するようにモデル化されている。これにより、多様な物体間関係を出力しつつも、同一あるいは類似した物体間関係の出力を抑制できる。
【0058】
さらに、本実施形態1に係る物体間関係認識装置1は、上述の如く、物体間関係を逐次的に出力できる。これにより、物体間関係認識装置1は、設定された最大数以下で、任意の数の物体間関係を出力することができ、物体間関係を選択的に出力できる。
【0059】
実施形態2
上記実施形態1において、トリプレットユニット41の第1乃至第3認識部411、412、413は、独立して、subject、predicate、及びobjectを夫々認識している。一方、本実施形態2において、トリプレットユニット41の第2認識部412は、
図7に示す如く、第1及び第3認識部411、413からの出力される認識結果に依存して、predicateを認識するように構成されている。トリプレットユニット41は、所謂Object-First型として構成されている。
【0060】
第1及び第3認識部411、413は、それぞれ、subject及びobjectの事後確率分布ベクトルs′
t、o′
tを第2認識部412に出力する。第2認識部412は、第1及び第3認識部411、413から出力されるsubject及びobjectの事後確率分布ベクトルs′
t、o′
tと、対応するLSTM31から出力されるLSTM
tと、に基づいて、predicateを認識し、該predicateの事後確率分布ベクトルp′
tを出力する。
【0061】
上記構成により、例えば、(man、wear、horse)のような間違った、subject、predicate、objectの認識を抑制し、2つの物体間でより出現頻度の高い関係を出力できる。したがって、認識精度をより向上させることができる。なお、本実施形態2において、他の構成は、上記実施形態1と略同一であり、同一部分には同一符号を付して詳細な説明は省略する。
【0062】
図9(a)及び(b)は、本実施形態1及び2に係る物体間関係認識装置1によるシミュレーション結果を示す図である。
図9(a)及び(b)において、縦軸は夫々Precision(精度)(%)及びRecall(再現度)(%)を示し、横軸は、各物体間関係認識装置1が認識した物体間関係の数である。実線(1)は、実施形態1に係る物体間関係認識装置1の結果を示し、点線(2)は、実施形態2に係る物体間関係認識装置1の結果を示している。物体クラス数および関係性クラス数が、それぞれ、1000存在するデータを用いて、本シミュレーションを行っている。
【0063】
図9(a)及び(b)に示すように、本実施形態2に係る物体間関係認識装置1は、上記実施形態1に係る物体間関係認識装置1と比較して、Precision及びRecallの両方において、良好な結果を示していることが分かる。
【0064】
実施形態3
本発明の実施形態3において、上記実施形態1又は2に係る物体間関係認識装置1は、例えば、
図10に示す如く、自律型のロボット10に搭載されてもよい。
図10は、物体間関係認識装置が搭載されたロボットの概略的構成を示すブロック図である。
【0065】
例えば、ロボット10は、物体間関係認識装置1により認識された物体間関係に基づいて、操作対象物の操作を行う。ロボット10は、制御部11や記憶部12、アクチュエータ13等を備えており、ロボット10の記憶部12に、認識された物体間関係を記憶する。制御部11が記憶部12に記憶された物体間関係にしたがってアクチュエータ13等の動作を制御する。
【0066】
例えば、ロボット10は、
図11に示す如く、認識された物体間関係(stem on table)にしたがい、テーブル(table)上(on)の物体(stem)を把持し、ゴミ箱などに入れる。これより、ロボット10は、物体間関係認識装置1により認識された物体間関係を用いて、操作対象物を高精度かつ安全に操作できる。
【0067】
なお、本実施形態3において、物体間関係認識装置1は、ロボット10に搭載される構成であるが、これに限定されない。物体間関係認識装置1は、ロボット10に搭載されない構成であってもよい。この場合、物体間関係認識装置1は、認識した物体間関係を、有線あるいは無線を介して、ロボット10に送信してもよい。なお、本実施形態3において、他の構成は、上記実施形態1及び2と略同一であり、同一部分には同一符号を付して詳細な説明は省略する。
【0068】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他のさまざまな形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【0069】
例えば、上記実施形態において、第2ニューラルネットワーク3は、複数のLSTM31を有する構成であるが、これに限定されない。第2ニューラルネットワーク3は、例えば、複数のGRU(Gated Recurrent Unit)を有する構成であってもよい。GRUは、LSTM31の構成を簡略化したモデルである。GRUは、LSTM31のゲート数を3つから2つに減らした構造を有している。GRUは、Update Gate及びReset Gateの2つのゲートによってメモリセルの中身の維持及び出力を制御する。さらに、第2ニューラルネットワーク3は、複数の双方向LSTM(bi-directional LSTM)を有する構成であってもよい。
【0070】
本発明は、例えば、
図6に示す処理を、CPUにコンピュータプログラムを実行させることにより実現することも可能である。
【0071】
プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD−ROM(Read Only Memory)、CD−R、CD−R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory))を含む。
【0072】
プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
【0073】
さらに、本発明は、学習済みモデルにより実現することも可能である。学習済みモデルは、人工知能ソフトウエアの一部であるプログラムモジュールとしての利用が想定される。学習済みモデルは、CPU及びメモリを備えるコンピュータにて用いられる。具体的には、コンピュータのCPUが、メモリに記憶された学習済みモデルからの指令に従って、第1ニューラルネットワーク2に入力された認識対象画像に対し、第1ニューラルネットワーク2、第2ニューラルネットワーク3、及びトリプレット部4における学習済み重み付け係数に基づく演算を行い、トリプレット部4から結果(認識対象画像に含まれる各物体間の関係)が出力するよう動作する。