特開2022-152836 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ ＫＤＤＩ株式会社の特許一覧

特開2022-152836情報処理装置、情報処理方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022152836

(43)【公開日】2022-10-12

(54)【発明の名称】情報処理装置、情報処理方法及びプログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20221004BHJP

【ＦＩ】

G06T7/00 350C

【審査請求】未請求

【請求項の数】6

【出願形態】ＯＬ

(21)【出願番号】P 2021055765

(22)【出願日】2021-03-29

(71)【出願人】

【識別番号】000208891

【氏名又は名称】ＫＤＤＩ株式会社

(74)【代理人】

【識別番号】100166006

【弁理士】

【氏名又は名称】泉通博

(74)【代理人】

【識別番号】100154070

【弁理士】

【氏名又は名称】久恒京範

(74)【代理人】

【識別番号】100153280

【弁理士】

【氏名又は名称】寺川賢祐

(72)【発明者】

【氏名】石川彰夫

(72)【発明者】

【氏名】川田亮一

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096DA01

5L096FA09

5L096GA55

5L096HA02

5L096HA09

5L096HA11

5L096KA04

5L096KA15

(57)【要約】

【課題】複数の画像それぞれに写る被写体の大きさが異なる場合であっても、複数の画像の間において共通する特徴点を抽出する。
【解決手段】情報処理装置１は、ネットワーク層を有する学習モデルを用いて処理を実行する情報処理装置１であって、第１画像と第２画像とのそれぞれに学習モデルに含まれる複数の処理層を伝搬させる伝搬制御部１２２と、第１画像に基づいて、複数の畳み込み層のうちのいずれかの畳み込み層において活性化しているユニットを示す第１画像出力と、第２画像に基づいて、複数の畳み込み層のうちのいずれかの畳み込み層において活性化しているユニットを示す第２画像出力とを抽出する抽出部１２３と、第１画像出力と第２画像出力とに基づいて、第１画像に含まれる特徴点である第１画像特徴点と、第２画像に含まれる特徴点である第２画像特徴点とを検出する特徴点検出部１２４と、を有する。
【選択図】図３

【特許請求の範囲】

【請求項1】

畳み込みフィルタのサイズがそれぞれ異なる複数の畳み込み層を含むネットワーク層であって、前記ネットワーク層の直前の処理層から入力されたデータを前記複数の畳み込み層が並列に畳み込み処理を実行し、前記複数の畳み込み層それぞれが畳み込み処理を実行した結果を集約する前記ネットワーク層を有する学習モデルを用いて処理を実行する情報処理装置であって、
第１被写体を含む第１画像と、前記第１被写体と同じ被写体であって前記第１被写体とは大きさが異なる第２被写体を含む第２画像とのそれぞれに、入力された画像に基づいて当該画像に含まれる被写体の種別を出力可能な前記学習モデルに含まれる複数の処理層であって、複数のユニットをそれぞれ含む前記複数の処理層を伝搬させる伝搬制御部と、
前記第１画像に基づいて、前記複数の畳み込み層のうちのいずれかの畳み込み層において活性化している前記ユニットを示す第１画像出力と、前記第２画像に基づいて、前記複数の畳み込み層のうちのいずれかの畳み込み層において活性化している前記ユニットを示す第２画像出力とを抽出する抽出部と、
前記第１画像出力と前記第２画像出力とに基づいて、前記第１画像に含まれる特徴点である第１画像特徴点と、前記第２画像に含まれる特徴点である第２画像特徴点とを検出する特徴点検出部と、
を有する情報処理装置。

【請求項2】

前記抽出部は、前記第１画像に基づいて前記畳み込み層において活性化している前記ユニットのうち、前記ネットワーク層の直前の前記処理層である前段処理層において活性化している前記ユニットから入力されたデータによって活性化した前記ユニットであって、前記ネットワーク層の直後の前記処理層である後段処理層において活性化している前記ユニットの活性化に寄与した前記ユニットである第１ネットワークユニットを示す前記第１画像出力と、前記第２画像に基づいて前記畳み込み層において活性化している前記ユニットのうち、前記前段処理層において活性化している前記ユニットから入力されたデータによって活性化した前記ユニットであって、前記後段処理層において活性化している前記ユニットの活性化に寄与した前記ユニットである第２ネットワークユニットを示す前記第２画像出力とを抽出する、
請求項１に記載の情報処理装置。

【請求項3】

前記抽出部は、前記第１画像に基づいて前記畳み込み層において活性化している前記ユニットのうち、前記第２画像に基づいて前記後段処理層及び前記前段処理層の両方の処理層において共通して活性化している前記ユニットに対応する前記第１ネットワークユニットを示す前記第１画像出力と、前記第２画像に基づいて前記畳み込み層において活性化している前記ユニットのうち、前記第１画像に基づいて前記両方の処理層において共通して活性化している前記ユニットに対応する前記第２ネットワークユニットを示す前記第２画像出力とを抽出する、
請求項２に記載の情報処理装置。

【請求項4】

前記第１画像出力によって示される前記ユニットを含む前記畳み込み層の畳み込みフィルタのサイズと前記第２画像出力によって示される前記ユニットを含む前記畳み込み層の畳み込みフィルタのサイズとの関係と、前記第１画像特徴点と、前記第２画像特徴点とに基づいて、前記第１画像及び前記第２画像の間における被写体の動きを推定する推定部と、
前記推定部が推定した前記被写体の動きに基づいて、前記第１画像及び前記第２画像の間を補間する補間画像を生成する補間画像生成部と、
をさらに有する、
請求項１に記載の情報処理装置。

【請求項5】

畳み込みフィルタのサイズがそれぞれ異なる複数の畳み込み層を含むネットワーク層であって、前記ネットワーク層の直前の処理層から入力されたデータを前記複数の畳み込み層が並列に畳み込み処理を実行し、前記複数の畳み込み層それぞれが畳み込み処理を実行した結果を集約する前記ネットワーク層を有する学習モデルを用いて処理を実行するコンピュータが実行する、
第１被写体を含む第１画像と、前記第１被写体と同じ被写体であって前記第１被写体とは大きさが異なる第２被写体を含む第２画像とのそれぞれに、入力された画像に基づいて当該画像に含まれる被写体の種別を出力可能な前記学習モデルに含まれる複数の処理層であって、複数のユニットをそれぞれ含む前記複数の処理層を伝搬させるステップと、
前記第１画像に基づいて、前記複数の畳み込み層のうちのいずれかの畳み込み層において活性化している前記ユニットを示す第１画像出力と、前記第２画像に基づいて、前記複数の畳み込み層のうちのいずれかの畳み込み層において活性化している前記ユニットを示す第２画像出力とを抽出するステップと、
前記第１画像出力と前記第２画像出力とに基づいて、前記第１画像に含まれる特徴点である第１画像特徴点と、前記第２画像に含まれる特徴点である第２画像特徴点とを検出するステップと、
を有する情報処理方法。

【請求項6】

畳み込みフィルタのサイズがそれぞれ異なる複数の畳み込み層を含むネットワーク層であって、前記ネットワーク層の直前の処理層から入力されたデータを前記複数の畳み込み層が並列に畳み込み処理を実行し、前記複数の畳み込み層それぞれが畳み込み処理を実行した結果を集約する前記ネットワーク層を有する学習モデルを用いて処理を実行するコンピュータを、
第１被写体を含む第１画像と、前記第１被写体と同じ被写体であって前記第１被写体とは大きさが異なる第２被写体を含む第２画像とのそれぞれに、入力された画像に基づいて当該画像に含まれる被写体の種別を出力可能な前記学習モデルに含まれる複数の処理層であって、複数のユニットをそれぞれ含む前記複数の処理層を伝搬させる伝搬制御部、
前記第１画像に基づいて、前記複数の畳み込み層のうちのいずれかの畳み込み層において活性化している前記ユニットを示す第１画像出力と、前記第２画像に基づいて、前記複数の畳み込み層のうちのいずれかの畳み込み層において活性化している前記ユニットを示す第２画像出力とを抽出する抽出部、及び
前記第１画像出力と前記第２画像出力とに基づいて、前記第１画像に含まれる特徴点である第１画像特徴点と、前記第２画像に含まれる特徴点である第２画像特徴点とを検出する特徴点検出部、
として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置、情報処理方法及びプログラムに関する。

【背景技術】

【0002】

従来、複数の画像の間において共通する特徴点を抽出する技術が知られている。特許文献１には、撮像画像と、当該撮像画像に所定の変換が施された変換画像との間において共通する特徴点を検出する技術が開示されている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０２０－００９２２７号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、特許文献１で開示されている技術では、例えば、変換画像が撮像画像を拡大又は縮小した画像である場合において、拡大又は縮小の度合いが高くなるほど、撮像画像と変換画像との間において共通する特徴点を検出できない蓋然性が高くなり得る。ＣＮＮ（Convolutional Neural Network）の学習モデルにおいては、拡大及び縮小に対して一定のロバスト性を有するが、各処理層では、撮像画像及び変形画像それぞれに対して同じ演算処理が行われるため、変換画像における拡大又は縮小の度合いが高くなると、各処理層における撮像画像に写る被写体の大きさと変換画像に写る被写体の大きさとが合わず、撮像画像と変形画像との間において、特徴点が共通しない可能性が生じる。撮像画像に写る被写体の大きさと変換画像に写る被写体の大きさとが合う処理層をそれぞれ選択することにより、撮像画像と変換画像との間において共通する特徴点を検出することができ得るが、この場合、処理層を選択するための処理が複雑になるという問題があった。

【0005】

そこで、本発明はこれらの点に鑑みてなされたものであり、複数の画像それぞれに写る被写体の大きさが異なる場合であっても、複数の画像の間において共通する特徴点を抽出することができる情報処理装置、情報処理方法及びプログラムを提供することを目的とする。

【課題を解決するための手段】

【0006】

本発明の第１の態様にかかる情報処理装置は、畳み込みフィルタのサイズがそれぞれ異なる複数の畳み込み層を含むネットワーク層であって、前記ネットワーク層の直前の処理層から入力されたデータを前記複数の畳み込み層が並列に畳み込み処理を実行し、前記複数の畳み込み層それぞれが畳み込み処理を実行した結果を集約する前記ネットワーク層を有する学習モデルを用いて処理を実行する情報処理装置であって、第１被写体を含む第１画像と、前記第１被写体と同じ被写体であって前記第１被写体とは大きさが異なる第２被写体を含む第２画像とのそれぞれに、入力された画像に基づいて当該画像に含まれる被写体の種別を出力可能な前記学習モデルに含まれる複数の処理層であって、複数のユニットをそれぞれ含む前記複数の処理層を伝搬させる伝搬制御部と、前記第１画像に基づいて、前記複数の畳み込み層のうちのいずれかの畳み込み層において活性化している前記ユニットを示す第１画像出力と、前記第２画像に基づいて、前記複数の畳み込み層のうちのいずれかの畳み込み層において活性化している前記ユニットを示す第２画像出力とを抽出する抽出部と、前記第１画像出力と前記第２画像出力とに基づいて、前記第１画像に含まれる特徴点である第１画像特徴点と、前記第２画像に含まれる特徴点である第２画像特徴点とを検出する特徴点検出部と、を有する。

【0007】

【0008】

【0009】

前記情報処理装置は、前記第１画像出力によって示される前記ユニットを含む前記畳み込み層の畳み込みフィルタのサイズと前記第２画像出力によって示される前記ユニットを含む前記畳み込み層の畳み込みフィルタのサイズとの関係と、前記第１画像特徴点と、前記第２画像特徴点とに基づいて、前記第１画像及び前記第２画像の間における被写体の動きを推定する推定部と、前記推定部が推定した前記被写体の動きに基づいて、前記第１画像及び前記第２画像の間を補間する補間画像を生成する補間画像生成部と、をさらに有する。

【0010】

本発明の第２の態様にかかる情報処理方法は、畳み込みフィルタのサイズがそれぞれ異なる複数の畳み込み層を含むネットワーク層であって、前記ネットワーク層の直前の処理層から入力されたデータを前記複数の畳み込み層が並列に畳み込み処理を実行し、前記複数の畳み込み層それぞれが畳み込み処理を実行した結果を集約する前記ネットワーク層を有する学習モデルを用いて処理を実行するコンピュータが実行する、第１被写体を含む第１画像と、前記第１被写体と同じ被写体であって前記第１被写体とは大きさが異なる第２被写体を含む第２画像とのそれぞれに、入力された画像に基づいて当該画像に含まれる被写体の種別を出力可能な前記学習モデルに含まれる複数の処理層であって、複数のユニットをそれぞれ含む前記複数の処理層を伝搬させるステップと、前記第１画像に基づいて、前記複数の畳み込み層のうちのいずれかの畳み込み層において活性化している前記ユニットを示す第１画像出力と、前記第２画像に基づいて、前記複数の畳み込み層のうちのいずれかの畳み込み層において活性化している前記ユニットを示す第２画像出力とを抽出するステップと、前記第１画像出力と前記第２画像出力とに基づいて、前記第１画像に含まれる特徴点である第１画像特徴点と、前記第２画像に含まれる特徴点である第２画像特徴点とを検出するステップと、を有する。

【0011】

本発明の第３の態様にかかるプログラムは、畳み込みフィルタのサイズがそれぞれ異なる複数の畳み込み層を含むネットワーク層であって、前記ネットワーク層の直前の処理層から入力されたデータを前記複数の畳み込み層が並列に畳み込み処理を実行し、前記複数の畳み込み層それぞれが畳み込み処理を実行した結果を集約する前記ネットワーク層を有する学習モデルを用いて処理を実行するコンピュータを、第１被写体を含む第１画像と、前記第１被写体と同じ被写体であって前記第１被写体とは大きさが異なる第２被写体を含む第２画像とのそれぞれに、入力された画像に基づいて当該画像に含まれる被写体の種別を出力可能な前記学習モデルに含まれる複数の処理層であって、複数のユニットをそれぞれ含む前記複数の処理層を伝搬させる伝搬制御部、前記第１画像に基づいて、前記複数の畳み込み層のうちのいずれかの畳み込み層において活性化している前記ユニットを示す第１画像出力と、前記第２画像に基づいて、前記複数の畳み込み層のうちのいずれかの畳み込み層において活性化している前記ユニットを示す第２画像出力とを抽出する抽出部、及び前記第１画像出力と前記第２画像出力とに基づいて、前記第１画像に含まれる特徴点である第１画像特徴点と、前記第２画像に含まれる特徴点である第２画像特徴点とを検出する特徴点検出部、として機能させる。

【発明の効果】

【0012】

本発明によれば、複数の画像それぞれに写る被写体の大きさが異なる場合であっても、複数の画像の間において共通する特徴点を抽出することができるという効果を奏する。

【図面の簡単な説明】

【0013】

【図1】情報処理装置の概要を説明するための図である。

【図2】学習モデルの構成の一部を模式的に表した図である。

【図3】情報処理装置の構成を示す図である。

【図4】抽出部が実行する抽出処理を模式的に表した図である。

【図5】抽出部が実行する抽出処理を模式的に表した図である。

【図6】情報処理装置の処理の流れを示すシーケンス図である。

【発明を実施するための形態】

【0014】

［情報処理装置１の概要］
図１は、情報処理装置１の概要を説明するための図である。情報処理装置１は、学習モデルＭを用いて、複数の画像の間における特徴点を検出するために用いられる装置であり、例えばＰＣ（Personal Computer）である。画像は、被写体を含む静止画像又は動画像である。情報処理装置１は、画像が動画像である場合、動画像に含まれるフレーム画像ごとに隣接する２つのフレーム画像の間における特徴点を検出する処理を実行してもよいし、一フレーム以上の間隔がある２つのフレーム画像の間における特徴点を検出する処理を実行してもよい。

【0015】

学習モデルＭは、入力された画像に含まれる被写体の種別をラベルとして出力するように学習されたモデルである。学習モデルＭは、ＣＮＮの学習モデルであり、複数のユニットをそれぞれ含む複数の処理層を含む。図１に示す例において、学習モデルＭは、複数の処理層として、入力層Ｍ１０、隠れ層Ｍ２０及び出力層Ｍ３０を含む。隠れ層Ｍ２０は、少なくとも、ネットワーク層Ｍ２１を含む。

【0016】

ネットワーク層Ｍ２１は、畳み込みフィルタのサイズがそれぞれ異なる複数の畳み込み層を含む処理層であって、ネットワーク層Ｍ２１の直前の処理層から入力されたデータを複数の畳み込み層が並列に畳み込み処理を実行し、複数の畳み込み層それぞれが畳み込み処理を実行した結果を集約する処理層である。ネットワーク層Ｍ２１に含まれる畳み込み層は、複数のユニットを含んでおり、畳み込みフィルタの受容野が学習モデルＭに入力された画像に含まれる特定の被写体（例えば車両）を捉えると、入力された画像に含まれる一以上の画素に対応するユニットが活性化する。

【0017】

活性化の定義は、例えば、ユニットの出力値又はユニットの出力値と当該ユニットの結合の重みとの積が、所定の閾値を超えた場合でもよいし、出力の大きい順に所定の個数又は所定の割合に含まれた場合であってもよい。また、全結合層以外の処理層においては、例えば、チャンネルごとに出力の大きい順に所定の個数又は所定の割合に含まれた場合であってもよい。

【0018】

情報処理装置１は、画像を学習モデルＭに入力し、入力層Ｍ１０から出力層Ｍ３０までの各処理層を伝搬させることにより、画像に含まれる被写体の種別をラベルとして学習モデルＭに出力させる。

【0019】

図２は、学習モデルＭの構成の一部を模式的に表した図である。図２に示す処理層Ｍｘは、ネットワーク層Ｍ２１と隣接する処理層であって、入力層Ｍ１０側の処理層、すなわち、ネットワーク層Ｍ２１の直前の処理層である。処理層Ｍｘは、入力層、畳み込み層Ｍ２１１とは異なる他の畳み込み層、プーリング層及び正規化層のうちのいずれかの処理層である。図２に示す処理層Ｍｚは、ネットワーク層Ｍ２１と隣接する処理層であって、出力層Ｍ３０側の処理層、すなわち、ネットワーク層Ｍ２１の直後の処理層である。処理層Ｍｘは、他の畳み込み層、プーリング層、正規化層、全結合層及び出力層のうちのいずれかの処理層である。

【0020】

図２に示すように、ネットワーク層Ｍ２１には、畳み込み層Ｍ２１１ａ、Ｍ２１１ｂ等のように複数の畳み込み層Ｍ２１１が含まれる。図２に示す例において、ネットワーク層Ｍ２１では、処理層Ｍｘが出力したデータに対して、各列の畳み込み層Ｍ２１１が畳み込み処理を実行し、各列の畳み込み層Ｍ２１１が実行した結果を集約したデータを処理層Ｍｚに入力する。なお、各列には、１つの畳み込み層Ｍ２１１に限らず、他の畳み込み層及びプーリング層等が含まれてもよい。

【0021】

図１に示す画像Ｇ１、Ｇ２は、道路を走行する車両が写された時系列データである。画像Ｇ１は、第１被写体である車両を含む第１画像であり、当該車両が左上に写っている。画像Ｇ２は、第１被写体と同じ被写体であって第１被写体とは大きさが異なる第２被写体である車両を含む第２画像であり、当該車両が右下に向かって画像Ｇ１よりも大きく車両が写っている。

【0022】

情報処理装置１は、画像Ｇ１、Ｇ２を学習モデルＭに入力し、当該学習モデルＭに画像Ｇ１、Ｇ２それぞれに写る被写体の種別を出力させる。情報処理装置１は、学習モデルＭが被写体の種別を出力するに至った各処理層における計算結果、すなわち、深層学習による抽象度の高い特徴量を用いて、画像Ｇ１及び画像Ｇ２において共通する特徴点を検出する。

【0023】

具体的には、まず、情報処理装置１は、画像Ｇ１に基づいて、ネットワーク層Ｍ２１に含まれる複数の畳み込み層Ｍ２１１のうちのいずれかにおいて活性化しているユニットを示す画像Ｇ１に対応する画像出力を抽出する。また、情報処理装置１は、画像Ｇ２に基づいて、ネットワーク層Ｍ２１に含まれる複数の畳み込み層Ｍ２１１のうちのいずれかにおいて活性化しているユニットを示す画像Ｇ２に対応する画像出力を抽出する。情報処理装置１は、例えば、画像Ｇ２に基づいて、ネットワーク層Ｍ２１に含まれる複数の畳み込み層Ｍ２１１のうち、画像Ｇ１に基づいて抽出したユニットを含む畳み込み層Ｍ２１１とは異なる他の畳み込み層Ｍ２１１において活性化しているユニットを示す画像Ｇ２に対応する画像出力を抽出する。

【0024】

そして、情報処理装置１は、画像Ｇ１に対応する画像出力と、画像Ｇ２に対応する画像出力とに基づいて、画像Ｇ１及び画像Ｇ２において共通する特徴点を検出する。情報処理装置１は、共通する特徴点を検出することにより、画像Ｇ１に写っている被写体の特徴領域と、画像Ｇ２に写っている被写体の特徴領域とにそれぞれ対応関係があることを検出する。対応関係は、画像Ｇ１に対応する特徴点が示す画像Ｇ１に含まれる画素と、画像Ｇ２に対応する特徴点が示す画像Ｇ２に含まれる画素とが一致又は近似した関係である。

【0025】

このようにすることで、情報処理装置１は、複数の画像それぞれに写る被写体の大きさが異なる場合であっても、複数の画像の間において共通する特徴点を抽出することができる。
以下、情報処理装置１の構成について説明する。

【0026】

［情報処理装置１の構成］
図３は、情報処理装置１の構成を示す図である。情報処理装置１は、記憶部１１及び制御部１２を有する。制御部１２は、取得部１２１と、伝搬制御部１２２と、抽出部１２３と、特徴点検出部１２４と、推定部１２５と、補間画像生成部１２６とを有する。

【0027】

記憶部１１は、例えば、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）及びハードディスク等の記憶媒体である。記憶部１１は、制御部１２が実行する各種のプログラムを記憶する。

【0028】

制御部１２は、例えばＣＰＵ（Central Processing Unit）である。制御部１２は、記憶部１１に記憶されているプログラムを実行することにより、情報処理装置１に係る機能を制御する。制御部１２は、プログラムを実行することにより、取得部１２１、伝搬制御部１２２、抽出部１２３、特徴点検出部１２４、推定部１２５及び補間画像生成部１２６として機能する。

【0029】

取得部１２１は、第１被写体を含む第１画像と、第１被写体と同じ被写体であって第１被写体とは画像上の大きさが異なる第２被写体を含む第２画像とを取得する。

【0030】

伝搬制御部１２２は、第１画像と第２画像とのそれぞれに、入力された画像に基づいて当該画像に含まれる被写体の種別を出力可能な学習モデルＭに含まれる複数の処理層であって、複数のユニットをそれぞれ含む複数の処理層を伝搬させる。具体的には、伝搬制御部１２２は、第１画像と第２画像とのそれぞれに、学習モデルＭに含まれる入力層Ｍ１０から出力層Ｍ３０までの各処理層を伝搬させることにより、学習モデルＭに対して第１画像と第２画像とのそれぞれに含まれる被写体の種別を推論させる。

【0031】

抽出部１２３は、第１画像に基づいて、ネットワーク層Ｍ２１に含まれる複数の畳み込み層Ｍ２１１のうちのいずれかの畳み込み層Ｍ２１１において活性化しているユニットを示す第１画像出力を抽出する。また、抽出部１２３は、第２画像に基づいて、ネットワーク層Ｍ２１に含まれる複数の畳み込み層Ｍ２１１のうちのいずれかの畳み込み層Ｍ２１１において活性化しているユニットを示す第２画像出力を抽出する。

【0032】

具体的には、抽出部１２３は、第１画像に基づいてネットワーク層Ｍ２１に含まれる第１の畳み込み層Ｍ２１１において活性化しているユニットを示す第１画像出力を抽出する。また、抽出部１２３は、第２画像に基づいてネットワーク層Ｍ２１に含まれる第２の畳み込み層Ｍ２１１において活性化しているユニットを示す第２画像出力を抽出する。第２の畳み込み層Ｍ２１１は、第１の畳み込み層Ｍ２１１とは異なる畳み込み層Ｍ２１１である。

【0033】

より具体的には、抽出部１２３は、第１画像に基づいてネットワーク層Ｍ２１に含まれる複数の畳み込み層Ｍ２１１のうちのいずれかの畳み込み層Ｍ２１１において活性化しているユニットのうち、ネットワーク層Ｍ２１の直前の処理層である前段処理層において活性化しているユニットから入力されたデータによって活性化したユニットであって、ネットワーク層Ｍ２１の直後の処理層である後段処理層において活性化しているユニットの活性化に寄与したユニットである第１ネットワークユニットを示す第１画像出力を抽出する。また、抽出部１２３は、第２画像に基づいてネットワーク層Ｍ２１に含まれる複数の畳み込み層Ｍ２１１のうちのいずれかの畳み込み層Ｍ２１１において活性化しているユニットのうち、前段処理層において活性化しているユニットから入力されたデータによって活性化したユニットであって、後段処理層において活性化しているユニットの活性化に寄与したユニットである第２ネットワークユニットを示す第２画像出力を抽出する。抽出部１２３は、第１画像出力と第２画像出力とを関連付けて抽出する。

【0034】

図４は、抽出部１２３が実行する抽出処理を模式的に表した図である。図４（ａ）に示す例においては、第１画像を学習モデルＭに入力した場合における、前段処理層である処理層Ｍｘ、ネットワーク層Ｍ２１に含まれる各畳み込み層Ｍ２１１、及び後段処理層である処理層Ｍｚそれぞれに含まれるユニットの状態を示す。図４（ｂ）に示す例においては、第２画像を学習モデルＭに入力した場合における、処理層Ｍｘ、ネットワーク層Ｍ２１に含まれる各畳み込み層Ｍ２１１、及び処理層Ｍｚそれぞれに含まれるユニットの状態を示す。

【0035】

図４においてユニット間を結合する結合線の太さは、結合するユニットからの出力の大きさを示す。図４においてユニットを示すオブジェクトの枠線の太さは、活性化している度合いを示す。図４（ａ）に示す例においては、ユニットＵ１－１、Ｕ２－１、Ｕ２－２、Ｕ４－１が活性化している。図４（ｂ）に示す例においては、ユニットＵ１－１、Ｕ３－２、Ｕ４－１が活性化している。

【0036】

この場合において、抽出部１２３は、第１画像に基づいてネットワーク層Ｍ２１において活性化しているユニットＵ２－１、Ｕ２－２のうち、処理層Ｍｘにおいて活性化しているユニットＵ１－１から入力されたデータによって活性化したユニットであって、処理層Ｍｚにおいて活性化しているユニットＵ４－１の活性化に寄与したユニットである第１ネットワークユニットとして、ユニットＵ２－１を示す第１画像出力を抽出する。また、抽出部１２３は、第２画像に基づいてネットワーク層Ｍ２１において活性化しているユニットＵ３－２のうち、処理層Ｍｘにおいて活性化しているユニットＵ１－１から入力されたデータによって活性化したユニットであって、処理層Ｍｚにおいて活性化しているユニットＵ４－１の活性化に寄与したユニットである第２ネットワークユニットとして、ユニットＵ３－２を示す第２画像出力を抽出する。

【0037】

畳み込み層Ｍ２１１においては、入力されたデータに対して、畳み込みフィルタをずらしながらスキャンするため、フィルタに被写体の一部がかかると、ユニットが活性化する場合がある。しかしながら、上記のように前段処理層において活性化しているユニットと、後段処理層において活性化しているユニットとの関係に基づいて畳み込み層Ｍ２１１において活性化しているユニットを抽出することにより、情報処理装置１は、フィルタに被写体全体がかかることによって活性化したユニットを抽出する蓋然性を高めることができる。

【0038】

抽出部１２３は、第１画像及び第２画像それぞれに基づいて後段処理層及び前段処理層の両方の処理層において共通して活性化しているユニットに対応するネットワーク層Ｍ２１のユニットを抽出してもよい。「第１画像及び第２画像それぞれに基づいて後段処理層及び前段処理層の両方の処理層において共通して活性化しているユニット」は、第１画像に基づいて両方の処理層において活性化しているユニットと、第２画像に基づいて両方の処理層において活性化しているユニットとが相対的に同じ位置にあるユニットである。

【0039】

具体的には、抽出部１２３は、第１画像に基づいてネットワーク層Ｍ２１において活性化しているユニットのうち、第１画像に基づいて後段処理層及び前段処理層の両方の処理層において共通して活性化しているユニットに対応する第１ネットワークユニットを示す第１画像出力を抽出する。また、抽出部１２３は、第２画像に基づいてネットワーク層Ｍ２１において活性化しているユニットのうち、第２画像に基づいて後段処理層及び前段処理層の両方の処理層において共通して活性化しているユニットに対応する第２ネットワークユニットを示す第２画像出力を抽出する。

【0040】

図５は、抽出部１２３が実行する抽出処理を模式的に表した図である。図５（ａ）に示す例においては、第１画像を学習モデルＭに入力した場合における、前段処理層である処理層Ｍｘ、ネットワーク層Ｍ２１に含まれる各畳み込み層Ｍ２１１、及び後段処理層である処理層Ｍｚそれぞれに含まれるユニットの状態を示す。図５（ｂ）に示す例においては、第２画像を学習モデルＭに入力した場合における、処理層Ｍｘ、ネットワーク層Ｍ２１に含まれる各畳み込み層Ｍ２１１、及び処理層Ｍｚそれぞれに含まれるユニットの状態を示す。図５（ａ）に示す例においては、ユニットＵ１－１、Ｕ２－１、Ｕ４－１が活性化している。図５（ｂ）に示す例においては、ユニットＵ１－２、Ｕ３－２、Ｕ４－３が活性化している。

【0041】

図５（ａ）に示す処理層Ｍｘで活性化しているユニットＵ１－１及び処理層Ｍｚで活性化しているユニットＵ４－２は、それぞれ図５（ｂ）に示す処理層Ｍｘで活性化しているユニットＵ１－２及び処理層Ｍｚで活性化しているユニットＵ４－３の左側隣りの位置にある。抽出部１２３は、このように相対的な位置関係が同じであるユニットに対応するネットワークユニット（図５（ａ）に示すユニットＵ２－１と、図５（ｂ）に示すユニットＵ３－２）を示す画像出力を抽出する。このようにすることで、情報処理装置１は、第１画像における第１被写体と、第２画像における第２被写体とがそれぞれ異なる位置（画像上の位置）にある場合であっても、第１画像における第１被写体が写る領域と、第２画像における第２被写体が写る領域とを抽出することができる。

【0042】

特徴点検出部１２４は、第１画像出力と第２画像出力とに基づいて、第１画像に含まれる特徴点である第１画像特徴点と、第２画像に含まれる特徴点である第２画像特徴点とを検出する。具体的には、特徴点検出部１２４は、第１画像出力によって示されるユニットに対応する第１画像上の画素と、第２画像出力によって示されるユニットに対応する第２画像上の画素とに基づいて、相互に対応関係を有する第１画像特徴点と第２画像特徴点とを検出する。

【0043】

情報処理装置１は、検出した第１画像特徴点と第２画像特徴点とに基づいて、第１画像及び第２画像の間を補間する補間画像を生成してもよい。具体的には、まず、推定部１２５は、第１画像出力によって示されるユニットを含む畳み込み層Ｍ２１１の畳み込みフィルタのサイズである第１フィルタサイズと第２画像出力によって示されるユニットを含む畳み込み層Ｍ２１１の畳み込みフィルタのサイズである第２フィルタサイズとの関係と、第１画像特徴点と、第２画像特徴点とに基づいて、第１画像及び第２画像の間における被写体の動きを推定する。そして、補間画像生成部１２６は、推定部１２５が推定した被写体の動きに基づいて、第１画像及び第２画像の間を補間する補間画像を生成する。

【0044】

推定部１２５は、例えば、第１フィルタサイズと第２フィルタサイズとの比率に基づいて、被写体が、第１被写体の大きさから第２被写体の大きさになるまでの大きさの変化を算出する。また、推定部１２５は、被写体が、第１画像特徴点によって示される第１画像上の画素の位置から、第２画像特徴点によって示される第２画像上の画素の位置に移動するまでの位置の変化を算出する。推定部１２５は、このように、被写体の大きさの変化と、被写体の位置の変化とを算出することにより、被写体の動きを推定する。

【0045】

このようにすることで、情報処理装置１は、動画像におけるフレームレートを増やすことができる。各国では、テレビ放送において、ＮＴＳＣ（National Television System Committee）方式及びＰＡＬ（Phase Alternating Line）方式等のように様々な方式が用いられている。ＮＴＳＣ方式は、約３０フレーム／秒であり、ＰＡＬ方式は２５フレーム／秒であり、各方式によってフレームレートが異なる。そのため、例えば、ＮＴＳＣ方式を採用している国のテレビ放送において、ＰＡＬ方式を採用している国のテレビ動画を放送する場合、フレーム画像を補間する必要がある。

【0046】

特許文献１に記載されている技術を用いることにより、例えば、被写体の位置及び大きさが時々刻々と変化する動画像において連続し、かつ同じ被写体が写る２つのフレーム画像の間に１つのフレーム画像を補間する場合、２つのフレーム画像の間における被写体の変化の度合いが小さいため、２つのフレーム画像において相互に対応関係を有する各フレーム画像の特徴点を検出し、検出した特徴点を用いて補間画像を生成し得る。しかしながら、補間画像を生成するために用いる２つのフレーム画像のフレーム間隔が大きくなるほど、２つのフレーム画像の間における被写体の変化の度合いが大きくなるため、２つのフレーム画像において相互に対応関係を有する各フレーム画像の特徴点の検出に失敗してしまう可能性が生じる。情報処理装置１では、２つのフレーム画像の間における被写体の変化の度合いが大きい場合であっても、２つのフレーム画像において相互に対応関係を有する各フレーム画像の特徴点を検出することができるため、フレーム間隔が大きい２つのフレーム画像の間に複数のフレーム画像を補間する場合に好適である。

【0047】

［情報処理装置１の処理］
続いて、情報処理装置１の処理の流れについて説明する。図６は、情報処理装置１の処理の流れを示すシーケンス図である。本処理は、取得部１２１が、第１画像と第２画像とを取得したことを契機として開始する（Ｓ１）。

【0048】

伝搬制御部１２２は、第１画像と第２画像とのそれぞれに、学習モデルＭに含まれる複数の処理層を伝搬させる（Ｓ２）。抽出部１２３は、第１画像に基づいて、ネットワーク層Ｍ２１に含まれる複数の畳み込み層Ｍ２１１のうちのいずれかの畳み込み層Ｍ２１１において活性化しているユニットを示す第１画像出力と、第２画像に基づいて、ネットワーク層Ｍ２１に含まれる複数の畳み込み層Ｍ２１１のうちのいずれかの畳み込み層Ｍ２１１において活性化しているユニットを示す第２画像出力とを抽出する。（Ｓ３）。

【0049】

特徴点検出部１２４は、第１画像出力と第２画像出力とに基づいて、第１画像に含まれる特徴点である第１画像特徴点と、第２画像に含まれる特徴点である第２画像特徴点とを検出する（Ｓ４）。推定部１２５は、第１画像出力によって示されるユニットを含む畳み込み層Ｍ２１１の畳み込みフィルタのサイズである第１フィルタサイズと第２画像出力によって示されるユニットを含む畳み込み層Ｍ２１１の畳み込みフィルタのサイズである第２フィルタサイズとの関係と、第１画像特徴点と、第２画像特徴点とに基づいて、第１画像及び第２画像の間における被写体の動きを推定する（Ｓ５）。そして、補間画像生成部１２６は、推定部１２５が推定した被写体の動きに基づいて、第１画像及び第２画像の間を補間する補間画像を生成する（Ｓ６）。

【0050】

［本実施の形態における効果］
以上説明したとおり、情報処理装置１は、第１画像に基づいて、ネットワーク層Ｍ２１に含まれる複数の畳み込み層Ｍ２１１のうちのいずれかの畳み込み層Ｍ２１１において活性化しているユニットを示す第１画像出力と、第２画像に基づいて、ネットワーク層Ｍ２１に含まれる複数の畳み込み層Ｍ２１１のうちのいずれかの畳み込み層Ｍ２１１において活性化しているユニットを示す第２画像出力とを抽出する。そして、情報処理装置１は、第１画像出力と第２画像出力とに基づいて、第１画像に含まれる特徴点である第１画像特徴点と、第２画像に含まれる特徴点である第２画像特徴点とを検出する。このようにすることで、情報処理装置１は、複数の画像それぞれに写る被写体の大きさが異なる場合であっても、複数の画像の間において共通する特徴点を抽出することができる。

【0051】

なお、本発明により、国連が主導する持続可能な開発目標（SDGs）の目標９「産業と技術革新の基盤をつくろう」に貢献することが可能となる。

【0052】

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を併せ持つ。

【符号の説明】

【0053】

１情報処理装置
１１記憶部
１２制御部
１２１取得部
１２２伝搬制御部
１２３抽出部
１２４特徴点検出部
１２５推定部
１２６補間画像生成部
Ｍ学習モデル
Ｍ１０入力層
Ｍ２０隠れ層
Ｍ３０出力層
Ｍ２１ネットワーク層
Ｍ２１１畳み込み層

【図1】