(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-05-13
(45)【発行日】2024-05-21
(54)【発明の名称】情報処理装置、情報処理方法及びプログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20240514BHJP
【FI】
G06T7/00 350C
(21)【出願番号】P 2021055765
(22)【出願日】2021-03-29
【審査請求日】2023-02-14
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】110004222
【氏名又は名称】弁理士法人創光国際特許事務所
(74)【代理人】
【識別番号】100166006
【氏名又は名称】泉 通博
(74)【代理人】
【識別番号】100154070
【氏名又は名称】久恒 京範
(74)【代理人】
【識別番号】100153280
【氏名又は名称】寺川 賢祐
(72)【発明者】
【氏名】石川 彰夫
(72)【発明者】
【氏名】川田 亮一
【審査官】▲柳▼谷 侑
(56)【参考文献】
【文献】特開2020-009182(JP,A)
【文献】中国特許出願公開第112487909(CN,A)
【文献】特開2013-058112(JP,A)
【文献】特開平09-261621(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
畳み込みフィルタのサイズがそれぞれ異なる複数の畳み込み層を含むネットワーク層であって、前記ネットワーク層の直前の処理層から入力されたデータを前記複数の畳み込み層が並列に畳み込み処理を実行し、前記複数の畳み込み層それぞれが畳み込み処理を実行した結果を集約する前記ネットワーク層を有する学習モデルを用いて処理を実行する情報処理装置であって、
第1被写体を含む第1画像と、前記第1被写体と同じ被写体であって前記第1被写体とは大きさが異なる第2被写体を含む第2画像とのそれぞれに、入力された画像に基づいて当該画像に含まれる被写体の種別を出力可能な前記学習モデルに含まれる複数の処理層であって、複数のユニットをそれぞれ含む前記複数の処理層を伝搬させる伝搬制御部と、
前記第1画像に基づい
て前記複数の畳み込み層のうちのいずれかの畳み込み層において活性化している前記ユニット
のうち、前記ネットワーク層の直前の前記処理層である前段処理層において活性化している前記ユニットから入力されたデータによって活性化した前記ユニットであって、前記ネットワーク層の直後の前記処理層である後段処理層において活性化している前記ユニットの活性化に寄与した前記ユニットである第1ネットワークユニットを示す第1画像出力と、前記第2画像に基づい
て前記複数の畳み込み層のうちのいずれかの畳み込み層において活性化している前記ユニット
のうち、前記前段処理層において活性化している前記ユニットから入力されたデータによって活性化した前記ユニットであって、前記後段処理層において活性化している前記ユニットの活性化に寄与した前記ユニットである第2ネットワークユニットを示す第2画像出力とを抽出する抽出部と、
前記第1画像出力と前記第2画像出力とに基づいて、前記第1画像に含まれる特徴点である第1画像特徴点と、前記第2画像に含まれる特徴点である第2画像特徴点とを検出する特徴点検出部と、
を有する情報処理装置。
【請求項2】
前記抽出部は、前記第1画像に基づいて前記畳み込み層において活性化している前記ユニットのうち、前記第2画像に基づいて前記後段処理層及び前記前段処理層の両方の処理層において共通して活性化している前記ユニットに対応する前記第1ネットワークユニットを示す前記第1画像出力と、前記第2画像に基づいて前記畳み込み層において活性化している前記ユニットのうち、前記第1画像に基づいて前記両方の処理層において共通して活性化している前記ユニットに対応する前記第2ネットワークユニットを示す前記第2画像出力とを抽出する、
請求項
1に記載の情報処理装置。
【請求項3】
畳み込みフィルタのサイズがそれぞれ異なる複数の畳み込み層を含むネットワーク層であって、前記ネットワーク層の直前の処理層から入力されたデータを前記複数の畳み込み層が並列に畳み込み処理を実行し、前記複数の畳み込み層それぞれが畳み込み処理を実行した結果を集約する前記ネットワーク層を有する学習モデルを用いて処理を実行する情報処理装置であって、
第1被写体を含む第1画像と、前記第1被写体と同じ被写体であって前記第1被写体とは大きさが異なる第2被写体を含む第2画像とのそれぞれに、入力された画像に基づいて当該画像に含まれる被写体の種別を出力可能な前記学習モデルに含まれる複数の処理層であって、複数のユニットをそれぞれ含む前記複数の処理層を伝搬させる伝搬制御部と、
前記第1画像に基づいて、前記複数の畳み込み層のうちのいずれかの畳み込み層において活性化している前記ユニットを示す第1画像出力と、前記第2画像に基づいて、前記複数の畳み込み層のうちのいずれかの畳み込み層において活性化している前記ユニットを示す第2画像出力とを抽出する抽出部と、
前記第1画像出力と前記第2画像出力とに基づいて、前記第1画像に含まれる特徴点である第1画像特徴点と、前記第2画像に含まれる特徴点である第2画像特徴点とを検出する特徴点検出部と、
前記第1画像出力によって示される前記ユニットを含む前記畳み込み層の畳み込みフィルタのサイズと前記第2画像出力によって示される前記ユニットを含む前記畳み込み層の畳み込みフィルタのサイズとの関係と、前記第1画像特徴点と、前記第2画像特徴点とに基づいて、前記第1画像及び前記第2画像の間における被写体の動きを推定する推定部と、
前記推定部が推定した前記被写体の動きに基づいて、前記第1画像及び前記第2画像の間を補間する補間画像を生成する補間画像生成部と、
を有す
る情報処理装置。
【請求項4】
畳み込みフィルタのサイズがそれぞれ異なる複数の畳み込み層を含むネットワーク層であって、前記ネットワーク層の直前の処理層から入力されたデータを前記複数の畳み込み層が並列に畳み込み処理を実行し、前記複数の畳み込み層それぞれが畳み込み処理を実行した結果を集約する前記ネットワーク層を有する学習モデルを用いて処理を実行するコンピュータが実行する、
第1被写体を含む第1画像と、前記第1被写体と同じ被写体であって前記第1被写体とは大きさが異なる第2被写体を含む第2画像とのそれぞれに、入力された画像に基づいて当該画像に含まれる被写体の種別を出力可能な前記学習モデルに含まれる複数の処理層であって、複数のユニットをそれぞれ含む前記複数の処理層を伝搬させるステップと、
前記第1画像に基づい
て前記複数の畳み込み層のうちのいずれかの畳み込み層において活性化している前記ユニット
のうち、前記ネットワーク層の直前の前記処理層である前段処理層において活性化している前記ユニットから入力されたデータによって活性化した前記ユニットであって、前記ネットワーク層の直後の前記処理層である後段処理層において活性化している前記ユニットの活性化に寄与した前記ユニットである第1ネットワークユニットを示す第1画像出力と、前記第2画像に基づい
て前記複数の畳み込み層のうちのいずれかの畳み込み層において活性化している前記ユニット
のうち、前記前段処理層において活性化している前記ユニットから入力されたデータによって活性化した前記ユニットであって、前記後段処理層において活性化している前記ユニットの活性化に寄与した前記ユニットである第2ネットワークユニットを示す第2画像出力とを抽出するステップと、
前記第1画像出力と前記第2画像出力とに基づいて、前記第1画像に含まれる特徴点である第1画像特徴点と、前記第2画像に含まれる特徴点である第2画像特徴点とを検出するステップと、
を有する情報処理方法。
【請求項5】
畳み込みフィルタのサイズがそれぞれ異なる複数の畳み込み層を含むネットワーク層であって、前記ネットワーク層の直前の処理層から入力されたデータを前記複数の畳み込み層が並列に畳み込み処理を実行し、前記複数の畳み込み層それぞれが畳み込み処理を実行した結果を集約する前記ネットワーク層を有する学習モデルを用いて処理を実行するコンピュータを、
第1被写体を含む第1画像と、前記第1被写体と同じ被写体であって前記第1被写体とは大きさが異なる第2被写体を含む第2画像とのそれぞれに、入力された画像に基づいて当該画像に含まれる被写体の種別を出力可能な前記学習モデルに含まれる複数の処理層であって、複数のユニットをそれぞれ含む前記複数の処理層を伝搬させる伝搬制御部、
前記第1画像に基づい
て前記複数の畳み込み層のうちのいずれかの畳み込み層において活性化している前記ユニット
のうち、前記ネットワーク層の直前の前記処理層である前段処理層において活性化している前記ユニットから入力されたデータによって活性化した前記ユニットであって、前記ネットワーク層の直後の前記処理層である後段処理層において活性化している前記ユニットの活性化に寄与した前記ユニットである第1ネットワークユニットを示す第1画像出力と、前記第2画像に基づい
て前記複数の畳み込み層のうちのいずれかの畳み込み層において活性化している前記ユニット
のうち、前記前段処理層において活性化している前記ユニットから入力されたデータによって活性化した前記ユニットであって、前記後段処理層において活性化している前記ユニットの活性化に寄与した前記ユニットである第2ネットワークユニットを示す第2画像出力とを抽出する抽出部、及び
前記第1画像出力と前記第2画像出力とに基づいて、前記第1画像に含まれる特徴点である第1画像特徴点と、前記第2画像に含まれる特徴点である第2画像特徴点とを検出する特徴点検出部、
として機能させるためのプログラム。
【請求項6】
畳み込みフィルタのサイズがそれぞれ異なる複数の畳み込み層を含むネットワーク層であって、前記ネットワーク層の直前の処理層から入力されたデータを前記複数の畳み込み層が並列に畳み込み処理を実行し、前記複数の畳み込み層それぞれが畳み込み処理を実行した結果を集約する前記ネットワーク層を有する学習モデルを用いて処理を実行するコンピュータが実行する、
第1被写体を含む第1画像と、前記第1被写体と同じ被写体であって前記第1被写体とは大きさが異なる第2被写体を含む第2画像とのそれぞれに、入力された画像に基づいて当該画像に含まれる被写体の種別を出力可能な前記学習モデルに含まれる複数の処理層であって、複数のユニットをそれぞれ含む前記複数の処理層を伝搬させるステップと、
前記第1画像に基づいて、前記複数の畳み込み層のうちのいずれかの畳み込み層において活性化している前記ユニットを示す第1画像出力と、前記第2画像に基づいて、前記複数の畳み込み層のうちのいずれかの畳み込み層において活性化している前記ユニットを示す第2画像出力とを抽出するステップと、
前記第1画像出力と前記第2画像出力とに基づいて、前記第1画像に含まれる特徴点である第1画像特徴点と、前記第2画像に含まれる特徴点である第2画像特徴点とを検出するステップと、
前記第1画像出力によって示される前記ユニットを含む前記畳み込み層の畳み込みフィルタのサイズと前記第2画像出力によって示される前記ユニットを含む前記畳み込み層の畳み込みフィルタのサイズとの関係と、前記第1画像特徴点と、前記第2画像特徴点とに基づいて、前記第1画像及び前記第2画像の間における被写体の動きを推定するステップと、
推定した前記被写体の動きに基づいて、前記第1画像及び前記第2画像の間を補間する補間画像を生成するステップと、
を有する情報処理方法。
【請求項7】
畳み込みフィルタのサイズがそれぞれ異なる複数の畳み込み層を含むネットワーク層であって、前記ネットワーク層の直前の処理層から入力されたデータを前記複数の畳み込み層が並列に畳み込み処理を実行し、前記複数の畳み込み層それぞれが畳み込み処理を実行した結果を集約する前記ネットワーク層を有する学習モデルを用いて処理を実行するコンピュータを、
第1被写体を含む第1画像と、前記第1被写体と同じ被写体であって前記第1被写体とは大きさが異なる第2被写体を含む第2画像とのそれぞれに、入力された画像に基づいて当該画像に含まれる被写体の種別を出力可能な前記学習モデルに含まれる複数の処理層であって、複数のユニットをそれぞれ含む前記複数の処理層を伝搬させる伝搬制御部、
前記第1画像に基づいて、前記複数の畳み込み層のうちのいずれかの畳み込み層において活性化している前記ユニットを示す第1画像出力と、前記第2画像に基づいて、前記複数の畳み込み層のうちのいずれかの畳み込み層において活性化している前記ユニットを示す第2画像出力とを抽出する抽出部、
前記第1画像出力と前記第2画像出力とに基づいて、前記第1画像に含まれる特徴点である第1画像特徴点と、前記第2画像に含まれる特徴点である第2画像特徴点とを検出する特徴点検出部、
前記第1画像出力によって示される前記ユニットを含む前記畳み込み層の畳み込みフィルタのサイズと前記第2画像出力によって示される前記ユニットを含む前記畳み込み層の畳み込みフィルタのサイズとの関係と、前記第1画像特徴点と、前記第2画像特徴点とに基づいて、前記第1画像及び前記第2画像の間における被写体の動きを推定する推定部、及び
前記推定部が推定した前記被写体の動きに基づいて、前記第1画像及び前記第2画像の間を補間する補間画像を生成する補間画像生成部、
として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法及びプログラムに関する。
【背景技術】
【0002】
従来、複数の画像の間において共通する特徴点を抽出する技術が知られている。特許文献1には、撮像画像と、当該撮像画像に所定の変換が施された変換画像との間において共通する特徴点を検出する技術が開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1で開示されている技術では、例えば、変換画像が撮像画像を拡大又は縮小した画像である場合において、拡大又は縮小の度合いが高くなるほど、撮像画像と変換画像との間において共通する特徴点を検出できない蓋然性が高くなり得る。CNN(Convolutional Neural Network)の学習モデルにおいては、拡大及び縮小に対して一定のロバスト性を有するが、各処理層では、撮像画像及び変形画像それぞれに対して同じ演算処理が行われるため、変換画像における拡大又は縮小の度合いが高くなると、各処理層における撮像画像に写る被写体の大きさと変換画像に写る被写体の大きさとが合わず、撮像画像と変形画像との間において、特徴点が共通しない可能性が生じる。撮像画像に写る被写体の大きさと変換画像に写る被写体の大きさとが合う処理層をそれぞれ選択することにより、撮像画像と変換画像との間において共通する特徴点を検出することができ得るが、この場合、処理層を選択するための処理が複雑になるという問題があった。
【0005】
そこで、本発明はこれらの点に鑑みてなされたものであり、複数の画像それぞれに写る被写体の大きさが異なる場合であっても、複数の画像の間において共通する特徴点を抽出することができる情報処理装置、情報処理方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明の第1の態様にかかる情報処理装置は、畳み込みフィルタのサイズがそれぞれ異なる複数の畳み込み層を含むネットワーク層であって、前記ネットワーク層の直前の処理層から入力されたデータを前記複数の畳み込み層が並列に畳み込み処理を実行し、前記複数の畳み込み層それぞれが畳み込み処理を実行した結果を集約する前記ネットワーク層を有する学習モデルを用いて処理を実行する情報処理装置であって、第1被写体を含む第1画像と、前記第1被写体と同じ被写体であって前記第1被写体とは大きさが異なる第2被写体を含む第2画像とのそれぞれに、入力された画像に基づいて当該画像に含まれる被写体の種別を出力可能な前記学習モデルに含まれる複数の処理層であって、複数のユニットをそれぞれ含む前記複数の処理層を伝搬させる伝搬制御部と、前記第1画像に基づいて、前記複数の畳み込み層のうちのいずれかの畳み込み層において活性化している前記ユニットを示す第1画像出力と、前記第2画像に基づいて、前記複数の畳み込み層のうちのいずれかの畳み込み層において活性化している前記ユニットを示す第2画像出力とを抽出する抽出部と、前記第1画像出力と前記第2画像出力とに基づいて、前記第1画像に含まれる特徴点である第1画像特徴点と、前記第2画像に含まれる特徴点である第2画像特徴点とを検出する特徴点検出部と、を有する。
【0007】
前記抽出部は、前記第1画像に基づいて前記畳み込み層において活性化している前記ユニットのうち、前記ネットワーク層の直前の前記処理層である前段処理層において活性化している前記ユニットから入力されたデータによって活性化した前記ユニットであって、前記ネットワーク層の直後の前記処理層である後段処理層において活性化している前記ユニットの活性化に寄与した前記ユニットである第1ネットワークユニットを示す前記第1画像出力と、前記第2画像に基づいて前記畳み込み層において活性化している前記ユニットのうち、前記前段処理層において活性化している前記ユニットから入力されたデータによって活性化した前記ユニットであって、前記後段処理層において活性化している前記ユニットの活性化に寄与した前記ユニットである第2ネットワークユニットを示す前記第2画像出力とを抽出してもよい。
【0008】
前記抽出部は、前記第1画像に基づいて前記畳み込み層において活性化している前記ユニットのうち、前記第2画像に基づいて前記後段処理層及び前記前段処理層の両方の処理層において共通して活性化している前記ユニットに対応する前記第1ネットワークユニットを示す前記第1画像出力と、前記第2画像に基づいて前記畳み込み層において活性化している前記ユニットのうち、前記第1画像に基づいて前記両方の処理層において共通して活性化している前記ユニットに対応する前記第2ネットワークユニットを示す前記第2画像出力とを抽出してもよい。
【0009】
前記情報処理装置は、前記第1画像出力によって示される前記ユニットを含む前記畳み込み層の畳み込みフィルタのサイズと前記第2画像出力によって示される前記ユニットを含む前記畳み込み層の畳み込みフィルタのサイズとの関係と、前記第1画像特徴点と、前記第2画像特徴点とに基づいて、前記第1画像及び前記第2画像の間における被写体の動きを推定する推定部と、前記推定部が推定した前記被写体の動きに基づいて、前記第1画像及び前記第2画像の間を補間する補間画像を生成する補間画像生成部と、をさらに有する。
【0010】
本発明の第2の態様にかかる情報処理方法は、畳み込みフィルタのサイズがそれぞれ異なる複数の畳み込み層を含むネットワーク層であって、前記ネットワーク層の直前の処理層から入力されたデータを前記複数の畳み込み層が並列に畳み込み処理を実行し、前記複数の畳み込み層それぞれが畳み込み処理を実行した結果を集約する前記ネットワーク層を有する学習モデルを用いて処理を実行するコンピュータが実行する、第1被写体を含む第1画像と、前記第1被写体と同じ被写体であって前記第1被写体とは大きさが異なる第2被写体を含む第2画像とのそれぞれに、入力された画像に基づいて当該画像に含まれる被写体の種別を出力可能な前記学習モデルに含まれる複数の処理層であって、複数のユニットをそれぞれ含む前記複数の処理層を伝搬させるステップと、前記第1画像に基づいて、前記複数の畳み込み層のうちのいずれかの畳み込み層において活性化している前記ユニットを示す第1画像出力と、前記第2画像に基づいて、前記複数の畳み込み層のうちのいずれかの畳み込み層において活性化している前記ユニットを示す第2画像出力とを抽出するステップと、前記第1画像出力と前記第2画像出力とに基づいて、前記第1画像に含まれる特徴点である第1画像特徴点と、前記第2画像に含まれる特徴点である第2画像特徴点とを検出するステップと、を有する。
【0011】
本発明の第3の態様にかかるプログラムは、畳み込みフィルタのサイズがそれぞれ異なる複数の畳み込み層を含むネットワーク層であって、前記ネットワーク層の直前の処理層から入力されたデータを前記複数の畳み込み層が並列に畳み込み処理を実行し、前記複数の畳み込み層それぞれが畳み込み処理を実行した結果を集約する前記ネットワーク層を有する学習モデルを用いて処理を実行するコンピュータを、第1被写体を含む第1画像と、前記第1被写体と同じ被写体であって前記第1被写体とは大きさが異なる第2被写体を含む第2画像とのそれぞれに、入力された画像に基づいて当該画像に含まれる被写体の種別を出力可能な前記学習モデルに含まれる複数の処理層であって、複数のユニットをそれぞれ含む前記複数の処理層を伝搬させる伝搬制御部、前記第1画像に基づいて、前記複数の畳み込み層のうちのいずれかの畳み込み層において活性化している前記ユニットを示す第1画像出力と、前記第2画像に基づいて、前記複数の畳み込み層のうちのいずれかの畳み込み層において活性化している前記ユニットを示す第2画像出力とを抽出する抽出部、及び前記第1画像出力と前記第2画像出力とに基づいて、前記第1画像に含まれる特徴点である第1画像特徴点と、前記第2画像に含まれる特徴点である第2画像特徴点とを検出する特徴点検出部、として機能させる。
【発明の効果】
【0012】
本発明によれば、複数の画像それぞれに写る被写体の大きさが異なる場合であっても、複数の画像の間において共通する特徴点を抽出することができるという効果を奏する。
【図面の簡単な説明】
【0013】
【
図1】情報処理装置の概要を説明するための図である。
【
図2】学習モデルの構成の一部を模式的に表した図である。
【
図4】抽出部が実行する抽出処理を模式的に表した図である。
【
図5】抽出部が実行する抽出処理を模式的に表した図である。
【
図6】情報処理装置の処理の流れを示すシーケンス図である。
【発明を実施するための形態】
【0014】
[情報処理装置1の概要]
図1は、情報処理装置1の概要を説明するための図である。情報処理装置1は、学習モデルMを用いて、複数の画像の間における特徴点を検出するために用いられる装置であり、例えばPC(Personal Computer)である。画像は、被写体を含む静止画像又は動画像である。情報処理装置1は、画像が動画像である場合、動画像に含まれるフレーム画像ごとに隣接する2つのフレーム画像の間における特徴点を検出する処理を実行してもよいし、一フレーム以上の間隔がある2つのフレーム画像の間における特徴点を検出する処理を実行してもよい。
【0015】
学習モデルMは、入力された画像に含まれる被写体の種別をラベルとして出力するように学習されたモデルである。学習モデルMは、CNNの学習モデルであり、複数のユニットをそれぞれ含む複数の処理層を含む。
図1に示す例において、学習モデルMは、複数の処理層として、入力層M10、隠れ層M20及び出力層M30を含む。隠れ層M20は、少なくとも、ネットワーク層M21を含む。
【0016】
ネットワーク層M21は、畳み込みフィルタのサイズがそれぞれ異なる複数の畳み込み層を含む処理層であって、ネットワーク層M21の直前の処理層から入力されたデータを複数の畳み込み層が並列に畳み込み処理を実行し、複数の畳み込み層それぞれが畳み込み処理を実行した結果を集約する処理層である。ネットワーク層M21に含まれる畳み込み層は、複数のユニットを含んでおり、畳み込みフィルタの受容野が学習モデルMに入力された画像に含まれる特定の被写体(例えば車両)を捉えると、入力された画像に含まれる一以上の画素に対応するユニットが活性化する。
【0017】
活性化の定義は、例えば、ユニットの出力値又はユニットの出力値と当該ユニットの結合の重みとの積が、所定の閾値を超えた場合でもよいし、出力の大きい順に所定の個数又は所定の割合に含まれた場合であってもよい。また、全結合層以外の処理層においては、例えば、チャンネルごとに出力の大きい順に所定の個数又は所定の割合に含まれた場合であってもよい。
【0018】
情報処理装置1は、画像を学習モデルMに入力し、入力層M10から出力層M30までの各処理層を伝搬させることにより、画像に含まれる被写体の種別をラベルとして学習モデルMに出力させる。
【0019】
図2は、学習モデルMの構成の一部を模式的に表した図である。
図2に示す処理層Mxは、ネットワーク層M21と隣接する処理層であって、入力層M10側の処理層、すなわち、ネットワーク層M21の直前の処理層である。処理層Mxは、入力層、畳み込み層M211とは異なる他の畳み込み層、プーリング層及び正規化層のうちのいずれかの処理層である。
図2に示す処理層Mzは、ネットワーク層M21と隣接する処理層であって、出力層M30側の処理層、すなわち、ネットワーク層M21の直後の処理層である。処理層Mxは、他の畳み込み層、プーリング層、正規化層、全結合層及び出力層のうちのいずれかの処理層である。
【0020】
図2に示すように、ネットワーク層M21には、畳み込み層M211a、M211b等のように複数の畳み込み層M211が含まれる。
図2に示す例において、ネットワーク層M21では、処理層Mxが出力したデータに対して、各列の畳み込み層M211が畳み込み処理を実行し、各列の畳み込み層M211が実行した結果を集約したデータを処理層Mzに入力する。なお、各列には、1つの畳み込み層M211に限らず、他の畳み込み層及びプーリング層等が含まれてもよい。
【0021】
図1に示す画像G1、G2は、道路を走行する車両が写された時系列データである。画像G1は、第1被写体である車両を含む第1画像であり、当該車両が左上に写っている。画像G2は、第1被写体と同じ被写体であって第1被写体とは大きさが異なる第2被写体である車両を含む第2画像であり、当該車両が右下に向かって画像G1よりも大きく車両が写っている。
【0022】
情報処理装置1は、画像G1、G2を学習モデルMに入力し、当該学習モデルMに画像G1、G2それぞれに写る被写体の種別を出力させる。情報処理装置1は、学習モデルMが被写体の種別を出力するに至った各処理層における計算結果、すなわち、深層学習による抽象度の高い特徴量を用いて、画像G1及び画像G2において共通する特徴点を検出する。
【0023】
具体的には、まず、情報処理装置1は、画像G1に基づいて、ネットワーク層M21に含まれる複数の畳み込み層M211のうちのいずれかにおいて活性化しているユニットを示す画像G1に対応する画像出力を抽出する。また、情報処理装置1は、画像G2に基づいて、ネットワーク層M21に含まれる複数の畳み込み層M211のうちのいずれかにおいて活性化しているユニットを示す画像G2に対応する画像出力を抽出する。情報処理装置1は、例えば、画像G2に基づいて、ネットワーク層M21に含まれる複数の畳み込み層M211のうち、画像G1に基づいて抽出したユニットを含む畳み込み層M211とは異なる他の畳み込み層M211において活性化しているユニットを示す画像G2に対応する画像出力を抽出する。
【0024】
そして、情報処理装置1は、画像G1に対応する画像出力と、画像G2に対応する画像出力とに基づいて、画像G1及び画像G2において共通する特徴点を検出する。情報処理装置1は、共通する特徴点を検出することにより、画像G1に写っている被写体の特徴領域と、画像G2に写っている被写体の特徴領域とにそれぞれ対応関係があることを検出する。対応関係は、画像G1に対応する特徴点が示す画像G1に含まれる画素と、画像G2に対応する特徴点が示す画像G2に含まれる画素とが一致又は近似した関係である。
【0025】
このようにすることで、情報処理装置1は、複数の画像それぞれに写る被写体の大きさが異なる場合であっても、複数の画像の間において共通する特徴点を抽出することができる。
以下、情報処理装置1の構成について説明する。
【0026】
[情報処理装置1の構成]
図3は、情報処理装置1の構成を示す図である。情報処理装置1は、記憶部11及び制御部12を有する。制御部12は、取得部121と、伝搬制御部122と、抽出部123と、特徴点検出部124と、推定部125と、補間画像生成部126とを有する。
【0027】
記憶部11は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)及びハードディスク等の記憶媒体である。記憶部11は、制御部12が実行する各種のプログラムを記憶する。
【0028】
制御部12は、例えばCPU(Central Processing Unit)である。制御部12は、記憶部11に記憶されているプログラムを実行することにより、情報処理装置1に係る機能を制御する。制御部12は、プログラムを実行することにより、取得部121、伝搬制御部122、抽出部123、特徴点検出部124、推定部125及び補間画像生成部126として機能する。
【0029】
取得部121は、第1被写体を含む第1画像と、第1被写体と同じ被写体であって第1被写体とは画像上の大きさが異なる第2被写体を含む第2画像とを取得する。
【0030】
伝搬制御部122は、第1画像と第2画像とのそれぞれに、入力された画像に基づいて当該画像に含まれる被写体の種別を出力可能な学習モデルMに含まれる複数の処理層であって、複数のユニットをそれぞれ含む複数の処理層を伝搬させる。具体的には、伝搬制御部122は、第1画像と第2画像とのそれぞれに、学習モデルMに含まれる入力層M10から出力層M30までの各処理層を伝搬させることにより、学習モデルMに対して第1画像と第2画像とのそれぞれに含まれる被写体の種別を推論させる。
【0031】
抽出部123は、第1画像に基づいて、ネットワーク層M21に含まれる複数の畳み込み層M211のうちのいずれかの畳み込み層M211において活性化しているユニットを示す第1画像出力を抽出する。また、抽出部123は、第2画像に基づいて、ネットワーク層M21に含まれる複数の畳み込み層M211のうちのいずれかの畳み込み層M211において活性化しているユニットを示す第2画像出力を抽出する。
【0032】
具体的には、抽出部123は、第1画像に基づいてネットワーク層M21に含まれる第1の畳み込み層M211において活性化しているユニットを示す第1画像出力を抽出する。また、抽出部123は、第2画像に基づいてネットワーク層M21に含まれる第2の畳み込み層M211において活性化しているユニットを示す第2画像出力を抽出する。第2の畳み込み層M211は、第1の畳み込み層M211とは異なる畳み込み層M211である。
【0033】
より具体的には、抽出部123は、第1画像に基づいてネットワーク層M21に含まれる複数の畳み込み層M211のうちのいずれかの畳み込み層M211において活性化しているユニットのうち、ネットワーク層M21の直前の処理層である前段処理層において活性化しているユニットから入力されたデータによって活性化したユニットであって、ネットワーク層M21の直後の処理層である後段処理層において活性化しているユニットの活性化に寄与したユニットである第1ネットワークユニットを示す第1画像出力を抽出する。また、抽出部123は、第2画像に基づいてネットワーク層M21に含まれる複数の畳み込み層M211のうちのいずれかの畳み込み層M211において活性化しているユニットのうち、前段処理層において活性化しているユニットから入力されたデータによって活性化したユニットであって、後段処理層において活性化しているユニットの活性化に寄与したユニットである第2ネットワークユニットを示す第2画像出力を抽出する。抽出部123は、第1画像出力と第2画像出力とを関連付けて抽出する。
【0034】
図4は、抽出部123が実行する抽出処理を模式的に表した図である。
図4(a)に示す例においては、第1画像を学習モデルMに入力した場合における、前段処理層である処理層Mx、ネットワーク層M21に含まれる各畳み込み層M211、及び後段処理層である処理層Mzそれぞれに含まれるユニットの状態を示す。
図4(b)に示す例においては、第2画像を学習モデルMに入力した場合における、処理層Mx、ネットワーク層M21に含まれる各畳み込み層M211、及び処理層Mzそれぞれに含まれるユニットの状態を示す。
【0035】
図4においてユニット間を結合する結合線の太さは、結合するユニットからの出力の大きさを示す。
図4においてユニットを示すオブジェクトの枠線の太さは、活性化している度合いを示す。
図4(a)に示す例においては、ユニットU1-1、U2-1、U2-2、U4-1が活性化している。
図4(b)に示す例においては、ユニットU1-1、U3-2、U4-1が活性化している。
【0036】
この場合において、抽出部123は、第1画像に基づいてネットワーク層M21において活性化しているユニットU2-1、U2-2のうち、処理層Mxにおいて活性化しているユニットU1-1から入力されたデータによって活性化したユニットであって、処理層Mzにおいて活性化しているユニットU4-1の活性化に寄与したユニットである第1ネットワークユニットとして、ユニットU2-1を示す第1画像出力を抽出する。また、抽出部123は、第2画像に基づいてネットワーク層M21において活性化しているユニットU3-2のうち、処理層Mxにおいて活性化しているユニットU1-1から入力されたデータによって活性化したユニットであって、処理層Mzにおいて活性化しているユニットU4-1の活性化に寄与したユニットである第2ネットワークユニットとして、ユニットU3-2を示す第2画像出力を抽出する。
【0037】
畳み込み層M211においては、入力されたデータに対して、畳み込みフィルタをずらしながらスキャンするため、フィルタに被写体の一部がかかると、ユニットが活性化する場合がある。しかしながら、上記のように前段処理層において活性化しているユニットと、後段処理層において活性化しているユニットとの関係に基づいて畳み込み層M211において活性化しているユニットを抽出することにより、情報処理装置1は、フィルタに被写体全体がかかることによって活性化したユニットを抽出する蓋然性を高めることができる。
【0038】
抽出部123は、第1画像及び第2画像それぞれに基づいて後段処理層及び前段処理層の両方の処理層において共通して活性化しているユニットに対応するネットワーク層M21のユニットを抽出してもよい。「第1画像及び第2画像それぞれに基づいて後段処理層及び前段処理層の両方の処理層において共通して活性化しているユニット」は、第1画像に基づいて両方の処理層において活性化しているユニットと、第2画像に基づいて両方の処理層において活性化しているユニットとが相対的に同じ位置にあるユニットである。
【0039】
具体的には、抽出部123は、第1画像に基づいてネットワーク層M21において活性化しているユニットのうち、第1画像に基づいて後段処理層及び前段処理層の両方の処理層において共通して活性化しているユニットに対応する第1ネットワークユニットを示す第1画像出力を抽出する。また、抽出部123は、第2画像に基づいてネットワーク層M21において活性化しているユニットのうち、第2画像に基づいて後段処理層及び前段処理層の両方の処理層において共通して活性化しているユニットに対応する第2ネットワークユニットを示す第2画像出力を抽出する。
【0040】
図5は、抽出部123が実行する抽出処理を模式的に表した図である。
図5(a)に示す例においては、第1画像を学習モデルMに入力した場合における、前段処理層である処理層Mx、ネットワーク層M21に含まれる各畳み込み層M211、及び後段処理層である処理層Mzそれぞれに含まれるユニットの状態を示す。
図5(b)に示す例においては、第2画像を学習モデルMに入力した場合における、処理層Mx、ネットワーク層M21に含まれる各畳み込み層M211、及び処理層Mzそれぞれに含まれるユニットの状態を示す。
図5(a)に示す例においては、ユニットU1-1、U2-1、U4-1が活性化している。
図5(b)に示す例においては、ユニットU1-2、U3-2、U4-3が活性化している。
【0041】
図5(a)に示す処理層Mxで活性化しているユニットU1-1及び処理層Mzで活性化しているユニットU4-2は、それぞれ
図5(b)に示す処理層Mxで活性化しているユニットU1-2及び処理層Mzで活性化しているユニットU4-3の左側隣りの位置にある。抽出部123は、このように相対的な位置関係が同じであるユニットに対応するネットワークユニット(
図5(a)に示すユニットU2-1と、
図5(b)に示すユニットU3-2)を示す画像出力を抽出する。このようにすることで、情報処理装置1は、第1画像における第1被写体と、第2画像における第2被写体とがそれぞれ異なる位置(画像上の位置)にある場合であっても、第1画像における第1被写体が写る領域と、第2画像における第2被写体が写る領域とを抽出することができる。
【0042】
特徴点検出部124は、第1画像出力と第2画像出力とに基づいて、第1画像に含まれる特徴点である第1画像特徴点と、第2画像に含まれる特徴点である第2画像特徴点とを検出する。具体的には、特徴点検出部124は、第1画像出力によって示されるユニットに対応する第1画像上の画素と、第2画像出力によって示されるユニットに対応する第2画像上の画素とに基づいて、相互に対応関係を有する第1画像特徴点と第2画像特徴点とを検出する。
【0043】
情報処理装置1は、検出した第1画像特徴点と第2画像特徴点とに基づいて、第1画像及び第2画像の間を補間する補間画像を生成してもよい。具体的には、まず、推定部125は、第1画像出力によって示されるユニットを含む畳み込み層M211の畳み込みフィルタのサイズである第1フィルタサイズと第2画像出力によって示されるユニットを含む畳み込み層M211の畳み込みフィルタのサイズである第2フィルタサイズとの関係と、第1画像特徴点と、第2画像特徴点とに基づいて、第1画像及び第2画像の間における被写体の動きを推定する。そして、補間画像生成部126は、推定部125が推定した被写体の動きに基づいて、第1画像及び第2画像の間を補間する補間画像を生成する。
【0044】
推定部125は、例えば、第1フィルタサイズと第2フィルタサイズとの比率に基づいて、被写体が、第1被写体の大きさから第2被写体の大きさになるまでの大きさの変化を算出する。また、推定部125は、被写体が、第1画像特徴点によって示される第1画像上の画素の位置から、第2画像特徴点によって示される第2画像上の画素の位置に移動するまでの位置の変化を算出する。推定部125は、このように、被写体の大きさの変化と、被写体の位置の変化とを算出することにより、被写体の動きを推定する。
【0045】
このようにすることで、情報処理装置1は、動画像におけるフレームレートを増やすことができる。各国では、テレビ放送において、NTSC(National Television System Committee)方式及びPAL(Phase Alternating Line)方式等のように様々な方式が用いられている。NTSC方式は、約30フレーム/秒であり、PAL方式は25フレーム/秒であり、各方式によってフレームレートが異なる。そのため、例えば、NTSC方式を採用している国のテレビ放送において、PAL方式を採用している国のテレビ動画を放送する場合、フレーム画像を補間する必要がある。
【0046】
特許文献1に記載されている技術を用いることにより、例えば、被写体の位置及び大きさが時々刻々と変化する動画像において連続し、かつ同じ被写体が写る2つのフレーム画像の間に1つのフレーム画像を補間する場合、2つのフレーム画像の間における被写体の変化の度合いが小さいため、2つのフレーム画像において相互に対応関係を有する各フレーム画像の特徴点を検出し、検出した特徴点を用いて補間画像を生成し得る。しかしながら、補間画像を生成するために用いる2つのフレーム画像のフレーム間隔が大きくなるほど、2つのフレーム画像の間における被写体の変化の度合いが大きくなるため、2つのフレーム画像において相互に対応関係を有する各フレーム画像の特徴点の検出に失敗してしまう可能性が生じる。情報処理装置1では、2つのフレーム画像の間における被写体の変化の度合いが大きい場合であっても、2つのフレーム画像において相互に対応関係を有する各フレーム画像の特徴点を検出することができるため、フレーム間隔が大きい2つのフレーム画像の間に複数のフレーム画像を補間する場合に好適である。
【0047】
[情報処理装置1の処理]
続いて、情報処理装置1の処理の流れについて説明する。
図6は、情報処理装置1の処理の流れを示すシーケンス図である。本処理は、取得部121が、第1画像と第2画像とを取得したことを契機として開始する(S1)。
【0048】
伝搬制御部122は、第1画像と第2画像とのそれぞれに、学習モデルMに含まれる複数の処理層を伝搬させる(S2)。抽出部123は、第1画像に基づいて、ネットワーク層M21に含まれる複数の畳み込み層M211のうちのいずれかの畳み込み層M211において活性化しているユニットを示す第1画像出力と、第2画像に基づいて、ネットワーク層M21に含まれる複数の畳み込み層M211のうちのいずれかの畳み込み層M211において活性化しているユニットを示す第2画像出力とを抽出する。(S3)。
【0049】
特徴点検出部124は、第1画像出力と第2画像出力とに基づいて、第1画像に含まれる特徴点である第1画像特徴点と、第2画像に含まれる特徴点である第2画像特徴点とを検出する(S4)。推定部125は、第1画像出力によって示されるユニットを含む畳み込み層M211の畳み込みフィルタのサイズである第1フィルタサイズと第2画像出力によって示されるユニットを含む畳み込み層M211の畳み込みフィルタのサイズである第2フィルタサイズとの関係と、第1画像特徴点と、第2画像特徴点とに基づいて、第1画像及び第2画像の間における被写体の動きを推定する(S5)。そして、補間画像生成部126は、推定部125が推定した被写体の動きに基づいて、第1画像及び第2画像の間を補間する補間画像を生成する(S6)。
【0050】
[本実施の形態における効果]
以上説明したとおり、情報処理装置1は、第1画像に基づいて、ネットワーク層M21に含まれる複数の畳み込み層M211のうちのいずれかの畳み込み層M211において活性化しているユニットを示す第1画像出力と、第2画像に基づいて、ネットワーク層M21に含まれる複数の畳み込み層M211のうちのいずれかの畳み込み層M211において活性化しているユニットを示す第2画像出力とを抽出する。そして、情報処理装置1は、第1画像出力と第2画像出力とに基づいて、第1画像に含まれる特徴点である第1画像特徴点と、第2画像に含まれる特徴点である第2画像特徴点とを検出する。このようにすることで、情報処理装置1は、複数の画像それぞれに写る被写体の大きさが異なる場合であっても、複数の画像の間において共通する特徴点を抽出することができる。
【0051】
なお、本発明により、国連が主導する持続可能な開発目標(SDGs)の目標9「産業と技術革新の基盤をつくろう」に貢献することが可能となる。
【0052】
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を併せ持つ。
【符号の説明】
【0053】
1 情報処理装置
11 記憶部
12 制御部
121 取得部
122 伝搬制御部
123 抽出部
124 特徴点検出部
125 推定部
126 補間画像生成部
M 学習モデル
M10 入力層
M20 隠れ層
M30 出力層
M21 ネットワーク層
M211 畳み込み層