(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-06-04
(45)【発行日】2025-06-12
(54)【発明の名称】情報処理装置、情報処理方法、及びプログラム
(51)【国際特許分類】
G06F 18/213 20230101AFI20250605BHJP
G06N 3/044 20230101ALI20250605BHJP
G06N 3/0464 20230101ALI20250605BHJP
【FI】
G06F18/213
G06N3/044
G06N3/0464
(21)【出願番号】P 2023557575
(86)(22)【出願日】2021-11-08
(86)【国際出願番号】 JP2021040917
(87)【国際公開番号】W WO2023079723
(87)【国際公開日】2023-05-11
【審査請求日】2024-05-02
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100103894
【氏名又は名称】家入 健
(72)【発明者】
【氏名】澤田 あずさ
【審査官】大倉 崚吾
(56)【参考文献】
【文献】国際公開第2019/019645(WO,A1)
【文献】中国特許出願公開第112749614(CN,A)
【文献】YOO, Jin Hyeok et al.,"ScarfNet: Multi-scale Features with Deeply Fused and Redistributed Semantics for Enhanced Object Detection",arXiv [online],2020年,p. 4321-4329,[2024年12月12日検索],インターネット<URL:https://arxiv.org/abs/1908.00328v2>,1908.00328v2
【文献】神谷龍司 ほか,"Convolutional-Recurrent Neural Networkによる自己運動識別",第22回画像センシングシンポジウム SSII2016,画像センシング技術研究会,2016年,p. 1-6,IS2-13
【文献】UPADHYAY, Shreya G. et al.,"Attentive Convolutional Recurrent Neural Network Using Phoneme-Level Acoustic Representation for Rare Sound Event Detection",INTERSPEECH 2020,2020年10月25日,p. 3102-3106,[2024年12月12日検索],インターネット<URL:https://www.isca-archive.org/Interspeech_2020/upadhyay20_interspeech.pdf>
(58)【調査した分野】(Int.Cl.,DB名)
G06F 18/00-18/40
G06N 3/00-99/00
(57)【特許請求の範囲】
【請求項1】
入力データから複数のスケール別特徴マップを生成する特徴マップ生成手段と、
前記複数のスケール別特徴マップから、特徴系列を生成する特徴系列生成手段と、
前記特徴系列を再帰的モデルに入力することによって特徴情報を生成する特徴情報生成手段と
、
最大スケールを算出する最大スケール算出手段と
を備え、
前記特徴系列生成手段は、
前記最大スケールに応じた長さの特徴系列を生成し、
前記最大スケール算出手段は、
前記入力データ又は前記入力データに関連付けられた関連情報を参照して、前記最大スケールを算出する
情報処理装置。
【請求項2】
前記特徴マップ生成手段は、
前記入力データに対して直列的に作用することによって、前記複数のスケール別特徴マップを生成する複数の畳み込み層を備えている
請求項
1に記載の情報処理装置。
【請求項3】
前記特徴系列生成手段は、
前記複数の畳み込み層の各々に関し、
当該畳み込み層が出力するスケール別特徴マップに作用するグローバルプーリング層と、
前記グローバルプーリング層の出力に作用する全結合層と
を備えている請求項
2に記載の情報処理装置。
【請求項4】
前記特徴系列生成手段は、
複数の前記全結合層の各々が出力する特徴データを、当該特徴データに対応するスケールの順に並べることによって前記特徴系列を生成する
請求項
3に記載の情報処理装置。
【請求項5】
入力データから複数のスケール別特徴マップを生成する特徴マップ生成手段と、
前記複数のスケール別特徴マップから、特徴系列を生成する特徴系列生成手段と、
前記特徴系列を再帰的モデルに入力することによって特徴情報を生成する特徴情報生成手段と、
対象データを複数の長さに切り取ることによって複数の前記入力データを生成する入力データ生成手段と、
前記複数の長さのうち、推奨される長さを、複数の前記入力データの各々に対応する特徴情報を参照することによって決定する推奨手段と
を備えてい
る情報処理装置。
【請求項6】
情報処理装置が、
入力データから複数のスケール別特徴マップを生成することと、
前記複数のスケール別特徴マップから、特徴系列を生成することと、
前記特徴系列を再帰的モデルに入力することによって特徴情報を生成することと
、
最大スケールを算出することと、
を含
み、
前記特徴系列を生成することにおいて、
前記最大スケールに応じた長さの特徴系列を生成し、
前記最大スケールを算出することにおいて、
前記入力データ又は前記入力データに関連付けられた関連情報を参照して、前記最大スケールを算出する
情報処理方法。
【請求項7】
情報処理装置が、
入力データから複数のスケール別特徴マップを生成することと、
前記複数のスケール別特徴マップから、特徴系列を生成することと、
前記特徴系列を再帰的モデルに入力することによって特徴情報を生成することと、
対象データを複数の長さに切り取ることによって複数の前記入力データを生成することと、
前記複数の長さのうち、推奨される長さを、複数の前記入力データの各々に対応する特徴情報を参照することによって決定することと、
を含む情報処理方法。
【請求項8】
コンピュータを、
入力データから複数のスケール別特徴マップを生成する特徴マップ生成手段と、
前記複数のスケール別特徴マップから、特徴系列を生成する特徴系列生成手段と、
前記特徴系列を再帰的モデルに入力することによって特徴情報を生成する特徴情報生成手段と
、
最大スケールを算出する最大スケール算出手段と
として機能させ
、
前記特徴系列生成手段は、
前記最大スケールに応じた長さの特徴系列を生成し、
前記最大スケール算出手段は、
前記入力データ又は前記入力データに関連付けられた関連情報を参照して、前記最大スケールを算出する
プログラム。
【請求項9】
コンピュータを、
入力データから複数のスケール別特徴マップを生成する特徴マップ生成手段と、
前記複数のスケール別特徴マップから、特徴系列を生成する特徴系列生成手段と、
前記特徴系列を再帰的モデルに入力することによって特徴情報を生成する特徴情報生成手段と、
対象データを複数の長さに切り取ることによって複数の前記入力データを生成する入力データ生成手段と、
前記複数の長さのうち、推奨される長さを、複数の前記入力データの各々に対応する特徴情報を参照することによって決定する推奨手段と
として機能させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、特徴情報を生成する情報処理装置、情報処理方法、及びプログラムに関する。
【背景技術】
【0002】
可変長データを入力データとして、当該可変長データの特徴を抽出するモデルが知られている。
【0003】
例えば、非特許文献1には、可変長音声を入力とし、短いターム及び長いタームのコンテキストの間でカーネルサイズの異なる畳み込み層への入力を切り替え、複数の畳み込みブロックの特徴マップをMultiscale Statistics Poolingに入力することにより、特徴を抽出する技術が開示されている。
【先行技術文献】
【非特許文献】
【0004】
【文献】Yanfeng Wu et al., "Improving Deep CNN Architectures with Variable-Length Training Samples for Text-Independent Speaker Verification," In INTERSPEECH 2020
【発明の概要】
【発明が解決しようとする課題】
【0005】
非特許文献1に記載の技術においては、Multiscale Statistics Poolingに入力するすべての特徴マップが1以上の長さを持つ必要がある。そのため、非特許文献1に記載の技術は、適用可能なデータの長さに下限が生じるため、様々な長さを有するデータへの対応という点で改善の余地があった。
【0006】
本発明の一態様は、上記の問題に鑑みてなされたものであり、その目的の一例は、様々な長さを有するデータが入力される場合にも好適に適用できる推論技術を提供することである。
【課題を解決するための手段】
【0007】
本発明の一側面に係る情報処理装置は、入力データから複数のスケール別特徴マップを生成する特徴マップ生成手段と、前記複数のスケール別特徴マップから、特徴系列を生成する特徴系列生成手段と、前記特徴系列を再帰的モデルに入力することによって特徴情報を生成する特徴情報生成手段とを備える。
【0008】
本発明の一側面に係る情報処理方法は、情報処理装置が、入力データから複数のスケール別特徴マップを生成することと、前記複数のスケール別特徴マップから、特徴系列を生成することと、前記特徴系列を再帰的モデルに入力することによって特徴情報を生成することとを含む。
【0009】
本発明の一側面に係るプログラムは、コンピュータを、入力データから複数のスケール別特徴マップを生成する特徴マップ生成手段と、前記複数のスケール別特徴マップから、特徴系列を生成する特徴系列生成手段と、前記特徴系列を再帰的モデルに入力することによって特徴情報を生成する特徴情報生成手段と、として機能させる。
【発明の効果】
【0010】
本発明の一態様によれば、様々な長さを有するデータが入力される場合にも好適に適用できる推論技術を提供することができる。
【図面の簡単な説明】
【0011】
【
図1】本発明の例示的実施形態1に係る情報処理装置の構成を示すブロック図である。
【
図2】本発明の例示的実施形態1に係る情報処理方法の流れを示すフロー図である。
【
図3】本発明の例示的実施形態2に係る情報処理装置の構成を示すブロック図である。
【
図4】本発明の例示的実施形態2に係る制御部が実行する処理例を示す図である。
【
図5】本発明の例示的実施形態2に係る情報処理装置の適用例を示す図である。
【
図6】本発明の例示的実施形態2に係る情報処理装置の適用例を示す他の図である。
【
図7】本発明の例示的実施形態2に係る情報処理装置が実行する処理の流れを示すフローチャートである。
【
図8】本発明の例示的実施形態3に係る情報処理装置の構成を示すブロック図である。
【
図9】本発明の例示的実施形態4に係る情報処理装置の構成を示すブロック図である。
【
図10】本発明の例示的実施形態4に係る情報処理装置が実行する処理の流れを示すフローチャートである。
【
図11】本発明の各例示的実施形態における情報処理装置のハードウェア構成の一例を示すブロック図である。
【発明を実施するための形態】
【0012】
〔例示的実施形態1〕
本発明の第1の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態の基本となる形態である。
【0013】
(情報処理装置1の構成)
本例示的実施形態に係る情報処理装置1の構成について、
図1を参照して説明する。
図1は、本例示的実施形態に係る情報処理装置1の構成を示すブロック図である。
【0014】
情報処理装置1は、入力データから当該入力データに関する特徴情報を生成する装置である。
【0015】
入力データの一例として、動画が挙げられる。また、特徴情報の一例として、入力された動画に含まれる物体を予測した結果を含む特徴情報が挙げられるが、これに限定されない。
【0016】
図1に示すように、情報処理装置1は、特徴マップ生成部11、特徴系列生成部12、及び特徴情報生成部13を備えている。特徴マップ生成部11、特徴系列生成部12、及び特徴情報生成部13は、本例示的実施形態においてそれぞれ特徴マップ生成手段、特徴系列生成手段、及び特徴情報生成手段を実現する構成である。
【0017】
特徴マップ生成部11は、入力データから複数のスケール別特徴マップを生成する。特徴マップ生成部11は、生成したスケール別特徴マップを、特徴系列生成部12に供給する。特徴マップ生成部11は、入力データに対して直列的に作用する複数の畳み込み層を用いることによって、複数のスケール別特徴マップを生成する。
【0018】
入力データに対して直列的に作用する複数の畳み込み層を用いることによって、上流側の畳み込み層からは、入力データの局所的な情報が反映された特徴マップ(スケールの小さい特徴マップ)が得られ、下流側の畳み込み層からは、入力データの大局的な情報が反映された特徴マップ(スケールの大きい特徴マップ)が得られる。なお、スケールの大小は所謂RF(Receptive Field)と正の相関を有している。
【0019】
ここで、特徴マップ生成部11は、入力データに対して直列的に作用する複数の畳み込み層を用いることに限定されず、入力データに対して並列的に作用し、RFが異なる特徴をマップが得られる複数の畳み込み層を用いる構成であってもよい。
【0020】
特徴系列生成部12は、複数のスケール別特徴マップから、特徴系列を生成する。特徴系列生成部12は、生成した特徴系列を、特徴情報生成部13に供給する。特徴系列とは、特徴マップ生成部11から出力される各スケール別特徴マップによって構成される系列のことであり、一例として、これらのスケール別特徴マップをスケール順に並べたものである。
【0021】
特徴情報生成部13は、特徴系列を再帰的モデルに入力することによって特徴情報を生成する。再帰的モデルとは、系列のはじめから順に一単位ずつ繰り返して入力されるモデルである。再帰的モデルの一例として、RNN(Recurrent Neural Network)、LSTM(Long Short Term Memory)、及びGRU(Gated Recurrent Unit)が挙げられるが、これらに限定されない。
【0022】
以上のように、本例示的実施形態に係る情報処理装置1においては、入力データから複数のスケール別特徴マップを生成する特徴マップ生成部11と、複数のスケール別特徴マップから特徴系列を生成する特徴系列生成部12と、特徴系列を再帰的モデルに入力することによって特徴情報を生成する特徴情報生成部13とを備える構成が採用されている。
【0023】
このため、本例示的実施形態に係る情報処理装置1によれば、入力データから生成した複数のスケール別特徴マップによって構成される特徴系列を再帰的モデルに入力するので、様々な長さを有するデータが入力される場合にも好適に適用できる推論技術を提供できる。
【0024】
(情報処理方法S1の流れ)
本例示的実施形態に係る情報処理方法S1の流れについて、
図2を参照して説明する。
図2は、本例示的実施形態に係る情報処理方法S1の流れを示すフロー図である。
【0025】
(ステップS11)
ステップS11において、特徴マップ生成部11は、入力データから複数のスケール別特徴マップを生成する。
【0026】
(ステップS12)
ステップS12において、特徴系列生成部12は、複数のスケール別特徴マップから、特徴系列を生成する。
【0027】
(ステップS13)
ステップS13において、特徴情報生成部13は、特徴系列を再帰的モデルに入力することによって特徴情報を生成する。
【0028】
以上のように、本例示的実施形態に係る情報処理方法S1においては、ステップS11において、特徴マップ生成部11が入力データから複数のスケール別特徴マップを生成し、ステップS12において、特徴系列生成部12が複数のスケール別特徴マップから、特徴系列を生成し、ステップS13において、特徴情報生成部13が、特徴系列を再帰的モデルに入力することによって特徴情報を生成する構成が採用されている。このため、本例示的実施形態に係る情報処理方法S1によれば、情報処理装置1と同様の効果が得られる。
【0029】
〔例示的実施形態2〕
本発明の第2の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を適宜省略する。
【0030】
(情報処理装置2の構成)
本例示的実施形態に係る情報処理装置2の構成について、
図3を参照して説明する。
図3は、本例示的実施形態に係る情報処理装置2の構成を示すブロック図である。
【0031】
情報処理装置2は、入力データINを取得し、入力データINに関する特徴情報FIを生成する装置である。
【0032】
上述した例示的実施形態と同様、入力データINの一例として、動画が挙げられる。また、特徴情報FIの一例として、入力された動画に含まれる物体を予測した結果を含む特徴情報が挙げられるが、これに限定されない。
【0033】
図3に示すように、情報処理装置2は、制御部20、記憶部21、通信部22、入力部23、及び出力部24を備えている。
【0034】
記憶部21には、後述する制御部20が参照するデータが格納される。記憶部21に格納されるデータの一例として、入力データIN、スケール別特徴マップFM、最大スケールMS、特徴系列SF、及び特徴情報FIが挙げられるが、これらに限定されない。入力データIN、スケール別特徴マップFM、特徴系列SF、及び特徴情報FIについては、上述した通りである。最大スケールMSについては後述する。
【0035】
通信部22は、図示しないネットワークを介して他の装置と通信する通信モジュールである。一例として、通信部22は、後述する制御部20から供給されたデータを、ネットワークを介して他の装置に出力したり、他の装置から出力されたデータを、ネットワークを介して取得し、制御部20に供給したりする。
【0036】
入力部23は、接続されている他の装置からデータを取得するインタフェースである。入力部23は、他の装置から取得したデータを、後述する制御部20に供給する。
【0037】
出力部24は、接続されている他の装置にデータを出力するインタフェースである。出力部24は、後述する制御部20から供給されたデータを、他の装置に出力する。
【0038】
(制御部20)
制御部20は、情報処理装置2が備える各部を制御する。一例として、制御部20は、通信部22及び入力部23から取得したデータを記憶部21に格納したり、記憶部21に格納されているデータを通信部22及び出力部24に供給したりする。
【0039】
制御部20は、
図3に示すように、特徴マップ生成部11、特徴系列生成部12、特徴情報生成部13、及び最大スケール算出部14としても機能する。特徴マップ生成部11、特徴系列生成部12、特徴情報生成部13、及び最大スケール算出部14は、本例示的実施形態においてそれぞれ特徴マップ生成手段、特徴系列生成手段、特徴情報生成手段、及び最大スケール算出手段を実現する構成である。
【0040】
特徴マップ生成部11は、記憶部21から入力データINを取得し、取得した入力データINから複数のスケール別特徴マップFMを生成する。特徴マップ生成部11は、入力データINに対して直列的に作用する複数の畳み込み層を用いることによって、複数のスケール別特徴マップFMを生成する。特徴マップ生成部11は、生成した複数のスケール別特徴マップFMを記憶部21に格納する。
【0041】
特徴系列生成部12は、記憶部21から複数のスケール別特徴マップFM及び後述する最大スケール算出部14が算出した最大スケールMSを取得する。そして、特徴系列生成部12は、取得した複数のスケール別特徴マップFMから、取得した最大スケールMSに応じた長さの特徴系列SFを生成する。特徴系列生成部12は、生成した特徴系列SFを記憶部21に格納する。
【0042】
また、特徴系列生成部12は、
図3に示すように、スケール別整形部121及び複数スケール結合部122としても機能する。
【0043】
スケール別整形部121は、複数のスケール別特徴マップFMの長さ及び次元数の違いを吸収した特徴データを生成する。一例として、スケール別整形部121は、グローバルプーリング層(GP:Grobal Pooling)、チャネル数を変える線形変換層、及び活性化関数の組み合わせによって構成される。チャネル数を変える線形変換層は、一例として、入力されるスケール別特徴マップFMに応じて、全結合層(FC:Fully Connected)又はカーネルサイズ1の畳み込み層によって構成される。スケール別整形部121は、生成した特徴データを複数スケール結合部122に供給する。
【0044】
複数スケール結合部122は、スケール別整形部121が出力した特徴データを取得し、当該特徴データを、当該特徴データに対応するスケールの順に並べた特徴系列SFを生成する。特徴データに対応するスケールの順に並べるとは、換言すれば、各全結合層に対応する畳み込み層の順に並べることである。
【0045】
特徴情報生成部13は、記憶部21から特徴系列SFを取得し、取得した特徴系列SFを再帰的モデルに入力することによって特徴情報FIを生成する。再帰的モデルについては、上述した通りである。
【0046】
最大スケール算出部14は、記憶部21から入力データINを取得し、最大スケールMSを算出する。最大スケールとは、入力データINの長さ以下、かつ、最も大きいスケールである。一例として、最大スケール算出部14は、入力データIN又は入力データINに関連付けられた関連情報(入力データINの長さを示す情報など)を参照して、最大スケールMSを算出する。最大スケール算出部14は、算出した最大スケールMSを記憶部21に格納する。
【0047】
(制御部20が実行する処理例)
制御部20が実行する処理例について、
図4を用いて説明する。
図4は、本例示的実施形態に係る制御部20が実行する処理例を示す図である。
【0048】
(特徴マップ生成部11が実行する処理例)
図4に示すように、制御部20の特徴マップ生成部11は、長さがLであり次元数がCである入力データINを記憶部21から取得する。ここで、長さがLであり次元数がCであるデータのことを「ShapeがL*Cであるデータ」と表現することもある。「*」は積の演算記号を表す。また、
図4に示すように、特徴マップ生成部11は、入力データINに対して直列的に作用することによって、複数のスケール別特徴マップを生成するM個(M≧2)の畳み込み層である畳み込みブロックCB
1~畳み込みブロックCB
M(畳み込みブロックCB
Mは
図4に不図示)を備えている。
【0049】
特徴マップ生成部11は、入力データINを取得すると、直列的に作用させるM個の畳み込みブロックCB1~畳み込みブロックCBMのうち、最初に作用させる畳み込みブロックCB1に、取得した入力データINを入力する。畳み込みブロックCB1からは、ShapeがL1*C1のスケール別特徴マップFM1が出力される。
【0050】
特徴マップ生成部11は、畳み込みブロックCB1を恒等写像として入力データINと同一のスケール別特徴マップFM0が出力されるよう構成してもよい。
【0051】
続いて、特徴マップ生成部11は、畳み込みブロックCB1から出力されたスケール別特徴マップFM1を、スケール別特徴マップFM1よりスケールの大きい(RFの大きい)畳み込みブロックCB2に供給する。また、特徴マップ生成部11は、スケール別特徴マップFM1を記憶部21に格納する。
【0052】
特徴マップ生成部11は、畳み込みブロックCB
2から出力されたShapeがL
2*C
2のスケール別特徴マップFM
2を、
図4に図示しない畳み込みブロックCB
3に供給する。また、特徴マップ生成部11は、スケール別特徴マップFM
2を記憶部21に格納する。
【0053】
このように、特徴マップ生成部11は、畳み込みブロックCBn(1≦n≦M-2)から出力されたShapeがLn*Cnのスケール別特徴マップFMnを、畳み込みブロックCBn+1に供給する。また、特徴マップ生成部11は、畳み込みブロックCBM-1から出力されるスケール別特徴マップFMM-1(スケール別特徴マップFMM-1のShapeはLM-1*CM-1)を取得するまで、スケール別特徴マップFMnを記憶部21に格納する。
【0054】
ここで、Lj(1≦j≦M-1)とLj+1との大小関係は特に限定されないが、一例として、LjがLj+1より大きくなるように特徴マップ生成部11を構成することができる。また、CjとCj+1との大小関係も特に限定されないが、一例として、CjはCj+1より大きくなるように特徴マップ生成部11を構成することができる。
【0055】
最後に、特徴マップ生成部11は、畳み込みブロックCBM-1から出力されたスケール別特徴マップFMM-1を、最後に作用させる畳み込みブロックCBMに入力する。特徴マップ生成部11は、畳み込みブロックCBMから出力された、ShapeがLM*CMのスケール別特徴マップFMMを、記憶部21に格納する。
【0056】
(特徴系列生成部12が実行する処理例)
図4に示すように、特徴系列生成部12は、M個の畳み込みブロックCB
1~畳み込みブロックCB
Mの各々に関し、畳み込みブロックCB
k(1≦k≦M)が出力するスケール別特徴マップFM
kに作用するGP(グローバルプーリング層)12
akと、GP12
akの出力に作用するFC(全結合層)12
bkとを備えている。
【0057】
特徴系列生成部12は、記憶部21に格納されているスケール別特徴マップFM1~スケール別特徴マップFMMのそれぞれを、スケール別特徴マップに作用するGP12a1~GP12aMに入力する。
【0058】
そして、GP12a1~GP12aMのそれぞれは、スケール別特徴マップFM1~スケール別特徴マップFMMが入力されると、スケール別特徴マップFM1~スケール別特徴マップFMMの互いの長さ(L)の違いを吸収した特徴マップFM1_1~FMM_1を出力する。
【0059】
一例として、スケール別特徴マップFM1がGP12a1に入力されると、長さ(L)の違いが吸収され、GP12a1からShapeが(1*)C1の特徴マップFM1_1が出力される。他の例として、スケール別特徴マップFMMがGP12aMに入力されると、長さ(L)の違いが吸収され、GP12aMからShapeが(1*)CMの特徴マップFMM_1が出力される。
【0060】
続いて、特徴系列生成部12は、GP12a1~GP12aMのそれぞれから出力された特徴マップFM1_1~特徴マップFMM_1を、FC12b1~FC12bMにそれぞれ入力する。FC12b1~FC12bMのそれぞれは、特徴マップFM1_1~特徴マップFMM_1が入力されると、特徴マップFM1_1~特徴マップFMM_1の互いの次元数(C)の違いを吸収した特徴データFD1~特徴データFDMを出力する。
【0061】
一例として、特徴マップFM1_1がFC12b1に入力されると、次元数(C)の違いが吸収され、FC12b1からShapeがCfの特徴データFD1が出力される。他の例として、特徴マップFMM_1がFC12bMに入力されると、次元数(C)の違いが吸収され、FC12bMからShapeがC fの特徴データFDMが出力される。
【0062】
次に、特徴系列生成部12は、記憶部21から最大スケールMSを取得し、最大スケールMSを参照し、FC12b1~FC12bMから出力された特徴データFD1~特徴データFDMを、特徴データFD1~特徴データFDMに対応するスケールの順に並べ、ShapeがCf*mの特徴系列SFを生成する。ここで、mは長さL以下のRFを持つブロック数であり、かつ、m≦M(すなわち、mは最大スケールMSの値)である。特徴系列生成部12は、生成した特徴系列SFを、特徴情報生成部13に供給する。
【0063】
(特徴情報生成部13が実行する処理例)
特徴情報生成部13は、取得した特徴系列SFを再帰的ブロックに入力し、ShapeがCfの特徴情報FIを生成する。
【0064】
特徴情報生成部13が生成した特徴情報FIは、出力する形式に応じて、FC18に供給されたり、通信部22又は出力部24に供給されたりする。
【0065】
(情報処理装置2の適用例)
情報処理装置2の適用例について、
図5及び
図6を用いて説明する。
図5は、本例示的実施形態に係る情報処理装置2の適用例を示す図であり、
図6は、本例示的実施形態に係る情報処理装置2の適用例を示す他の図である。
【0066】
図5及び
図6に示す例において、情報処理装置2は、液体が入った容器CNを揺動させた様子を撮影した動画像を入力データINとして取得し、容器CNの中に含まれる物体が気泡であるか否かを示す特徴情報FIを出力する。
【0067】
一例として、
図5の左側に示す容器CNには、液体の中に物体DM1及び物体DM2が含まれている。
図5の左側に示すように、容器CNを揺動すると、
図5の右側に示すように、物体DM1は軌跡DL1を描き、物体DM2は軌跡DL2及び軌跡DL3を描いて移動する。情報処理装置2の制御部20は、容器CNを揺動させた様子を撮影した動画像を入力データINとして取得し、物体DM1が描いた軌跡DL1と、物体DM2が描いた軌跡DL2及び軌跡DL3を識別する。
【0068】
次に、制御部20は、識別した軌跡から、容器CNに含まれる物体を特定する。
図5に示す図において、制御部20は、軌跡DL1は気泡が描く軌跡であると判定し、軌跡DL1を描いた物体DM1は気泡であることを示す特徴情報FIを出力する。また、
図5に示す図において、制御部20は、軌跡DL2は気泡が描く軌跡であり、軌跡DL3は気泡以外の物体が描く軌跡であると判定し、物体DM2は気泡以外の物体であることを示す特徴情報FIを出力する。
【0069】
他の例として、
図6の左側に示す容器CNには、液体の中に物体DM4及び物体DM5が含まれている。
図6の左側に示すように、容器CNを揺動すると、
図6の右側に示すように、物体DM4は軌跡DL4を描き、物体DM5は軌跡DL5を描いて移動する。制御部20は、容器CNを揺動させた様子を撮影した動画像を入力データINとして取得し、軌跡DL4及び軌跡DL5を識別する。そして、制御部20は、軌跡DL4及び軌跡DL5は、両方とも気泡が描く軌跡であると判定し、軌跡DL4を描いた物体DM4及び軌跡DL5を描いた物体DM5は、両方とも気泡であることを示す特徴情報FIを出力する。
【0070】
ここで、容器CNを揺動させた様子を撮影した動画像を解析し、容器CNに含まれる物体の軌跡を識別する処理は、制御部20が行ってもよいし、情報処理装置2以外の装置が行ってもよい。情報処理装置2以外の装置が容器CNに含まれる物体の軌跡を識別する場合、情報処理装置2は入力データINとして、情報処理装置2以外の装置が識別した軌跡を取得する構成であってもよい。
【0071】
例えば、
図5及び
図6に示す例では、情報処理装置2は入力データINとして、軌跡DL1~軌跡DL5を取得する。そして、情報処理装置2は、軌跡DL1~軌跡DL5を参照し、物体DM1~物体DM5が気泡であるか否かを示す特徴情報FIを出力する。
【0072】
このように、情報処理装置2は、液体を入れた容器CNに含まれる物体が気泡であるか否かを示す特徴情報FIを出力する。そのため、情報処理装置2は、液体に異物が含まれているか否かの検査に用いることができる。また、情報処理装置2は、様々な長さを有する軌跡DL1~軌跡DL5を入力データINとして入力されても、好適に液体に異物が含まれているか否かを推定することができる。
【0073】
(情報処理装置2が実行する処理S2)
情報処理装置2が実行する処理S2の流れについて、
図7を用いて説明する。
図7は、本例示的実施形態に係る情報処理装置2が実行する処理S2の流れを示すフローチャートである。
図7に示す処理の前に、情報処理装置2は、通信部22又は入力部23を介して入力データINを取得し、取得した入力データINを記憶部21に格納する。また、
図7に示す処理の前、又は後述するステップS24の処理の前に、最大スケール算出部14は最大スケールMSを算出し、算出した最大スケールMSを記憶部21に格納する。
【0074】
(ステップS21)
ステップS21において、特徴マップ生成部11は、記憶部21から入力データINを取得する。特徴マップ生成部11は、入力データに対して直列的に作用することによって複数のスケール別特徴マップを生成する複数の畳み込み層に、取得した入力データINを入力し、畳み込み層による計算を実施する。
【0075】
(ステップS22)
ステップS22において、特徴マップ生成部11は、畳み込み層による計算により、複数のスケール別特徴マップFMを生成する。特徴マップ生成部11がスケール別特徴マップFMを生成する処理の詳細は、上述した通りである。特徴マップ生成部11は、生成した複数のスケール別特徴マップFMを、記憶部21に格納する。
【0076】
(ステップS23)
ステップS23において、特徴系列生成部12は、記憶部21から複数のスケール別特徴マップFMを取得する。特徴系列生成部12は、取得した複数のスケール別特徴マップFMをスケール別整形部121に入力し、取得した複数のスケール別特徴マップFMのそれぞれの長さ及び次元数の違いを吸収することにより整形し、特徴データを生成する。特徴系列生成部12が特徴データを生成する処理の詳細は、上述した通りである。特徴系列生成部12は、生成した特徴データを複数スケール結合部122に供給する。
【0077】
(ステップS24)
ステップS24において、複数スケール結合部122は、スケール別整形部121が生成した特徴データと、記憶部21に格納された最大スケールMSとを取得する。続いて、複数スケール結合部122は、最大スケールMSが示す値に対応する特徴系列SFを生成する。複数スケール結合部122が特徴系列SFを生成する処理の詳細は、上述した通りである。複数スケール結合部122は、生成した特徴系列SFを、記憶部21に格納する。
【0078】
(ステップS25)
ステップS25において、特徴情報生成部13は、記憶部21に格納されている特徴系列SFを取得する。そして、特徴情報生成部13は、取得した特徴系列SFを再帰的モデルである再帰的ブロックに入力し、特徴情報FIを生成する。
【0079】
上述したように、特徴情報生成部13が生成した特徴情報FIは、出力する形式に応じて、FC18に供給されたり、通信部22又は出力部24に供給されたりする。
【0080】
以上のように、本例示的実施形態に係る情報処理装置2は、入力データINから複数のスケール別特徴マップFMを生成する特徴マップ生成部11と、複数のスケール別特徴マップFMから特徴系列SFを生成する特徴系列生成部12と、特徴系列SFを再帰的モデルに入力することによって特徴情報FIを生成する特徴情報生成部13とを備える構成が採用されている。このため、本例示的実施形態に係る情報処理装置2によれば、情報処理装置1と同様の効果が得られる。
【0081】
[例示的実施形態3]
本発明の第3の例示的実施形態について、図面を参照して詳細に説明する。なお、上述の例示的実施形態にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を適宜省略する。
【0082】
(情報処理装置2Aの構成)
本例示的実施形態に係る情報処理装置2Aの構成について、
図8を参照して説明する。
図8は、本例示的実施形態に係る情報処理装置2Aの構成を示すブロック図である。
【0083】
情報処理装置2Aは、上述した情報処理装置2が備える制御部20に替えて、制御部20Aを備える構成である。記憶部21、通信部22、入力部23、及び出力部24については、上述した通りである。
【0084】
(制御部20A)
制御部20Aは、情報処理装置2Aが備える各部を制御する。一例として、制御部20Aは、通信部22及び入力部23から取得したデータを記憶部21に格納したり、記憶部21に格納されているデータを通信部22及び出力部24に供給したりする。
【0085】
制御部20Aは、
図8に示すように、特徴マップ生成部11、特徴系列生成部12、特徴情報生成部13、最大スケール算出部14、及び学習部15としても機能する。特徴マップ生成部11、特徴系列生成部12、特徴情報生成部13、及び最大スケール算出部14は、本例示的実施形態においてそれぞれ特徴マップ生成手段、特徴系列生成手段、特徴情報生成手段、及び最大スケール算出手段を実現する構成である。
【0086】
特徴マップ生成部11、特徴系列生成部12、特徴情報生成部13、及び最大スケール算出部14については、上述した通りである。
【0087】
学習部15は、入力データINと、入力データINに関連付けられた正解ラベルとを参照し、特徴マップ生成部11が備える畳み込みブロックと、特徴系列生成部12が備えるGP及びFCとの少なくとも何れかのパラメータを更新する。例えば、学習部15は、入力データINを特徴マップ生成部11に入力し、特徴情報生成部13から出力された特徴情報FIが、正解ラベルと一致しない場合、特徴情報FIと正解ラベルとの相違が小さくなるように、特徴マップ生成部11が備える畳み込みブロックと、特徴系列生成部12が備えるGP及びFCとの少なくとも何れかのパラメータを更新する。
【0088】
以上のように、本例示的実施形態に係る情報処理装置2Aにおいては、入力データINと、入力データINに関連付けられた正解ラベルとを参照し、畳み込みブロック、GP、及びFCの少なくとも何れかのパラメータを更新する構成が採用されている。このように、本例示的実施形態に係る情報処理装置2Aにおいては、畳み込みブロック、GP、及びFCを学習させることができるので、好適に適用できる推論技術を提供できる。
【0089】
[例示的実施形態4]
本発明の第4の例示的実施形態について、図面を参照して詳細に説明する。なお、上述の例示的実施形態にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を適宜省略する。
【0090】
(情報処理装置2Bの構成)
本例示的実施形態に係る情報処理装置2Bの構成について、
図9を参照して説明する。
図9は、本例示的実施形態に係る情報処理装置2Bの構成を示すブロック図である。
【0091】
情報処理装置2Bは、対象データTDを取得し、対象データTDを複数の長さに切り取ることによって複数の入力データINを生成する。そして、情報処理装置2Bは、複数の長さのうち、推奨される長さを示す推奨値RVを、複数の入力データINの各々に対応する特徴情報FIを参照することによって決定する。
【0092】
情報処理装置2Bは、上述した情報処理装置2が備える記憶部21及び制御部20に替えて、記憶部21B及び制御部20Bを備える構成である。通信部22、入力部23、及び出力部24については、上述した通りである。
【0093】
記憶部21Bは、後述する制御部20Bが参照するデータが格納される。一例として、記憶部21Bには、上述した記憶部21に格納されるデータに加えて、対象データTD及び推奨値RVが格納される。
【0094】
(制御部20B)
制御部20Bは、情報処理装置2Bが備える各部を制御する。一例として、制御部20Bは、通信部22及び入力部23から取得したデータを記憶部21Bに格納したり、記憶部21Bに格納されているデータを通信部22及び出力部24に供給したりする。
【0095】
制御部20Bは、
図9に示すように、特徴マップ生成部11、特徴系列生成部12、特徴情報生成部13、最大スケール算出部14、入力データ生成部16、及び推奨部17としても機能する。特徴マップ生成部11、特徴系列生成部12、特徴情報生成部13、最大スケール算出部14、入力データ生成部16、及び推奨部17は、本例示的実施形態においてそれぞれ特徴マップ生成手段、特徴系列生成手段、特徴情報生成手段、最大スケール算出手段、入力データ生成手段、及び推奨手段を実現する構成である。
【0096】
特徴マップ生成部11、特徴系列生成部12、特徴情報生成部13、及び最大スケール算出部14については、上述した通りである。
【0097】
入力データ生成部16は、対象データTDを複数の長さに切り取ることによって複数の入力データINを生成する。入力データ生成部16は、一例として、対象データTDを所定の時間(3秒、5秒、及び10秒など)に切り取った入力データINを生成する。入力データ生成部16は、生成した入力データINを記憶部21Bに格納する。
【0098】
推奨部17は、入力データ生成部16が切り取った複数の長さのうち、推奨される長さを示す推奨値RVを、複数の入力データINの各々に対応する特徴情報FIを参照することによって決定する。推奨部17は、一例として、特徴情報FIに含まれる確度情報が所定の値より高く、かつ、最も入力データINが短い長さを、推奨値RVに決定する。推奨部17は、決定した推奨値RVを記憶部21Bに格納する。
【0099】
(情報処理装置2Bが実行する処理S2A)
情報処理装置2Bが実行する処理の流れについて、
図10を用いて説明する。
図10は、本例示的実施形態に係る情報処理装置2Bが実行する処理S2Aの流れを示すフローチャートである。
図10に示す処理の前に、情報処理装置2は、通信部22又は入力部23を介して対象データTDを取得し、取得した対象データTDを記憶部21Bに格納する。また、
図7に示す処理と同様に、
図10に示す処理の前、又はステップS24の処理の前に、最大スケール算出部14は最大スケールMSを算出し、算出した最大スケールMSを記憶部21Bに格納する。
【0100】
(ステップS31)
ステップS31において、入力データ生成部16は、記憶部21Bから対象データTDを取得する。そして、入力データ生成部16は、取得した対象データTDを複数の長さに切り取ることによって複数の入力データINを生成する。入力データ生成部16は、生成した複数の入力データINを記憶部21Bに格納する。
【0101】
(ステップS21~ステップS25)
特徴マップ生成部11が記憶部21Bから入力データINを取得し、特徴情報生成部13が特徴情報FIを生成する処理であるステップS21~ステップS25は、上述した通りである。
【0102】
(ステップS32)
ステップS32において、推奨部17は、ステップS31において入力データ生成部16が切り取った複数の長さのうち、推奨される長さを示す推奨値RVを、複数の入力データINの各々に対応する特徴情報FIを参照することによって決定する。推奨部17は、決定した推奨値RVを記憶部21Bに格納する。
【0103】
推奨値RVは、入力データ生成部16が参照し、推奨値RVの長さの入力データINを生成する構成であってもよい。また、推奨値RVは、情報処理装置2以外の装置において参照され、当該装置において推奨値RVの長さの入力データINを生成し、生成された入力データINが情報処理装置2Bに入力される構成であってもよい。
【0104】
以上のように、本例示的実施形態に係る情報処理装置2Bにおいては、対象データTDを複数の長さに切り取ることによって複数の入力データINを生成する入力データ生成部16と、複数の長さのうち、推奨される長さを示す推奨値RVを、複数の入力データINの各々に対応する特徴情報FIを参照することによって決定する推奨部17と、を備える構成が採用されている。このように、本例示的実施形態に係る情報処理装置2Bにおいては、確度が高く、かつ、処理する時間が短くなる入力データINを生成することができる。
【0105】
〔ソフトウェアによる実現例〕
情報処理装置1、2、2A、2Bの一部又は全部の機能は、集積回路(ICチップ)等のハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。
【0106】
後者の場合、情報処理装置1、2、2A、2Bは、例えば、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータによって実現される。このようなコンピュータの一例(以下、コンピュータCと記載する)を
図11に示す。コンピュータCは、少なくとも1つのプロセッサC1と、少なくとも1つのメモリC2と、を備えている。メモリC2には、コンピュータCを情報処理装置1、2、2A、2Bとして動作させるためのプログラムPが記録されている。コンピュータCにおいて、プロセッサC1は、プログラムPをメモリC2から読み取って実行することにより、情報処理装置1、2、2A、2Bの各機能が実現される。
【0107】
プロセッサC1としては、例えば、CPU(Central Processing Unit)、GPU(Graphic Processing Unit)、DSP(Digital Signal Processor)、MPU(Micro Processing Unit)、FPU(Floating point number Processing Unit)、PPU(Physics Processing Unit)、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。メモリC2としては、例えば、フラッシュメモリ、HDD(Hard Disk Drive)、SSD(Solid State Drive)、又は、これらの組み合わせなどを用いることができる。
【0108】
なお、コンピュータCは、プログラムPを実行時に展開したり、各種データを一時的に記憶したりするためのRAM(Random Access Memory)を更に備えていてもよい。また、コンピュータCは、他の装置との間でデータを送受信するための通信インタフェースを更に備えていてもよい。また、コンピュータCは、キーボードやマウス、ディスプレイやプリンタなどの入出力機器を接続するための入出力インタフェースを更に備えていてもよい。
【0109】
また、プログラムPは、コンピュータCが読み取り可能な、一時的でない有形の記録媒体Mに記録することができる。このような記録媒体Mとしては、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブルな論理回路などを用いることができる。コンピュータCは、このような記録媒体Mを介してプログラムPを取得することができる。また、プログラムPは、伝送媒体を介して伝送することができる。このような伝送媒体としては、例えば、通信ネットワーク、又は放送波などを用いることができる。コンピュータCは、このような伝送媒体を介してプログラムPを取得することもできる。
【0110】
〔付記事項1〕
本発明は、上述した実施形態に限定されるものでなく、請求項に示した範囲で種々の変更が可能である。例えば、上述した実施形態に開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。
【0111】
〔付記事項2〕
上述した実施形態の一部又は全部は、以下のようにも記載され得る。ただし、本発明は、以下の記載する態様に限定されるものではない。
【0112】
(付記1)
入力データから複数のスケール別特徴マップを生成する特徴マップ生成手段と、前記複数のスケール別特徴マップから、特徴系列を生成する特徴系列生成手段と、前記特徴系列を再帰的モデルに入力することによって特徴情報を生成する特徴情報生成手段とを備える情報処理装置。
【0113】
上記の構成によれば、様々な長さを有するデータが入力される場合にも好適に適用できる推論技術を提供することができる。
【0114】
(付記2)
最大スケールを算出する最大スケール算出手段を備え、前記特徴系列生成手段は、前記最大スケールに応じた長さの特徴系列を生成する付記1に記載の情報処理装置。
【0115】
上記の構成によれば、不要なデータの処理を省略することができる。
【0116】
(付記3)
前記最大スケール算出手段は、前記入力データ又は前記入力データに関連付けられた関連情報を参照して、前記最大スケールを算出する付記2に記載の情報処理装置。
【0117】
上記の構成によれば、データを好適に処理することができる。
【0118】
(付記4)
前記特徴マップ生成手段は、前記入力データに対して直列的に作用することによって、前記複数のスケール別特徴マップを生成する複数の畳み込み層を備えている付記1から3の何れかに記載の情報処理装置。
【0119】
上記の構成によれば、様々な長さを有するデータが入力される場合にも好適に適用できる推論技術を提供することができる。
【0120】
(付記5)
前記特徴系列生成手段は、前記複数の畳み込み層の各々に関し、当該畳み込み層が出力するスケール別特徴マップに作用するグローバルプーリング層と、前記グローバルプーリング層の出力に作用する全結合層とを備えている付記4に記載の情報処理装置。
【0121】
上記の構成によれば、様々な長さを有するデータが入力される場合にも好適に適用できる推論技術を提供することができる。
【0122】
(付記6)
前記特徴系列生成手段は、複数の前記全結合層の各々が出力する特徴データを、当該特徴データに対応するスケールの順に並べることによって前記特徴系列を生成する付記5に記載の情報処理装置。
【0123】
上記の構成によれば、データを好適に処理することができる。
【0124】
(付記7)
対象データを複数の長さに切り取ることによって複数の前記入力データを生成する入力データ生成手段と、前記複数の長さのうち、推奨される長さを、複数の前記入力データの各々に対応する特徴情報を参照することによって決定する推奨手段とを備えている付記1から6の何れかに記載の情報処理装置。
【0125】
上記の構成によれば、データを好適に処理することができる。
【0126】
(付記8)
情報処理装置が、入力データから複数のスケール別特徴マップを生成することと、前記複数のスケール別特徴マップから、特徴系列を生成することと、前記特徴系列を再帰的モデルに入力することによって特徴情報を生成することとを含む情報処理方法。
【0127】
上記の構成によれば、様々な長さを有するデータが入力される場合にも好適に適用できる推論技術を提供することができる。
【0128】
(付記9)
前記情報処理装置が、最大スケールを算出することを含み、前記特徴系列を生成することにおいて、前記最大スケールに応じた長さの特徴系列を生成する付記8に記載の情報処理方法。
【0129】
上記の構成によれば、不要なデータの処理を省略することができる。
【0130】
(付記10)
前記最大スケールを算出することにおいて、前記入力データ又は前記入力データに関連付けられた関連情報を参照して、前記最大スケールを算出する付記9に記載の情報処理方法。
【0131】
上記の構成によれば、データを好適に処理することができる。
【0132】
(付記11)
前記特徴マップを生成することにおいて、複数の畳み込み層が、前記入力データに対して直列的に作用することによって、前記複数のスケール別特徴マップを生成する付記8から10の何れかに記載の情報処理方法。
【0133】
上記の構成によれば、様々な長さを有するデータが入力される場合にも好適に適用できる推論技術を提供することができる。
【0134】
(付記12)
前記特徴系列を生成することにおいて、前記複数の畳み込み層の各々に関し、グローバルプーリング層が、当該畳み込み層が出力するスケール別特徴マップに作用することと、全結合層が、前記グローバルプーリング層の出力に作用することとを含む付記11に記載の情報処理方法。
【0135】
上記の構成によれば、様々な長さを有するデータが入力される場合にも好適に適用できる推論技術を提供することができる。
【0136】
(付記13)
前記特徴系列を生成することにおいて、複数の前記全結合層の各々が出力する特徴データを、当該特徴データに対応するスケールの順に並べることによって前記特徴系列を生成する付記12に記載の情報処理方法。
【0137】
上記の構成によれば、データを好適に処理することができる。
【0138】
(付記14)
前記情報処理装置が、対象データを複数の長さに切り取ることによって複数の前記入力データを生成することと、前記複数の長さのうち、推奨される長さを、複数の前記入力データの各々に対応する特徴情報を参照することによって決定することとを含む付記8から13の何れかに記載の情報処理方法。
【0139】
上記の構成によれば、データを好適に処理することができる。
【0140】
(付記15)
コンピュータを付記1~7の何れか一に記載の情報処理装置として動作させるためのプログラムであって、前記コンピュータを前記各手段として機能させる、ことを特徴とするプログラム。
【0141】
上記の構成によれば、様々な長さを有するデータが入力される場合にも好適に適用できる推論技術を提供することができる。
【0142】
〔付記事項3〕
上述した実施形態の一部又は全部は、更に、以下のように表現することもできる。
【0143】
少なくとも1つのプロセッサを備え、前記プロセッサは、入力データから複数のスケール別特徴マップを生成する特徴マップ生成処理と、前記複数のスケール別特徴マップから、特徴系列を生成する特徴系列生成処理と、前記特徴系列を再帰的モデルに入力することによって特徴情報を生成する特徴情報生成処理とを実行する情報処理装置。
【0144】
なお、この情報処理装置は、更にメモリを備えていてもよく、このメモリには、前記特徴マップ生成処理と、前記特徴系列生成処理と、前記特徴情報生成処理とを前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。
【符号の説明】
【0145】
1、2、2A、2B 情報処理装置
11 特徴マップ生成部
12 特徴系列生成部
13 特徴情報生成部
14 最大スケール算出部
15 学習部
16 入力データ生成部
17 推奨部
20、20A、20B 制御部
21、21B 記憶部
22 通信部
23 入力部
24 出力部
121 スケール別整形部
122 複数スケール結合部