IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 沖電気工業株式会社の特許一覧

特開2024-32098情報処理装置、情報処理方法およびプログラム
<>
  • 特開-情報処理装置、情報処理方法およびプログラム 図1
  • 特開-情報処理装置、情報処理方法およびプログラム 図2
  • 特開-情報処理装置、情報処理方法およびプログラム 図3
  • 特開-情報処理装置、情報処理方法およびプログラム 図4
  • 特開-情報処理装置、情報処理方法およびプログラム 図5
  • 特開-情報処理装置、情報処理方法およびプログラム 図6
  • 特開-情報処理装置、情報処理方法およびプログラム 図7
  • 特開-情報処理装置、情報処理方法およびプログラム 図8
  • 特開-情報処理装置、情報処理方法およびプログラム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024032098
(43)【公開日】2024-03-12
(54)【発明の名称】情報処理装置、情報処理方法およびプログラム
(51)【国際特許分類】
   G06V 10/82 20220101AFI20240305BHJP
   G06T 7/00 20170101ALI20240305BHJP
【FI】
G06V10/82
G06T7/00 350C
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2022135555
(22)【出願日】2022-08-29
(71)【出願人】
【識別番号】000000295
【氏名又は名称】沖電気工業株式会社
(74)【代理人】
【識別番号】100140958
【弁理士】
【氏名又は名称】伊藤 学
(74)【代理人】
【識別番号】100137888
【弁理士】
【氏名又は名称】大山 夏子
(74)【代理人】
【識別番号】100190942
【弁理士】
【氏名又は名称】風間 竜司
(72)【発明者】
【氏名】国定 恭史
(72)【発明者】
【氏名】泊口 万里子
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096CA02
5L096DA02
5L096GA51
5L096HA11
5L096JA03
(57)【要約】
【課題】評価用データに正解ラベルが付与されていない場合においても、評価用データを用いたモデルの信頼性に対する評価の精度をさらに向上させる。
【解決手段】評価用画像データを取得する入力部と、学習用画像データを用いて生成された学習済みモデルと前記評価用画像データとに基づいて、所定の被写体を構成する部位が前記評価用画像データに写っている確からしさを前記評価用画像データの位置ごとに推論して信頼性マップを得る推論部と、前記信頼性マップに基づいて、前記評価用画像データに前記部位が写っている確からしさを示す信頼スコアを算出する信頼スコア算出部と、前記信頼スコアに基づいて、前記評価用画像データが前記学習用画像データの分布内であるか否かを判定する判定部と、を備える、情報処理装置が提供される。
【選択図】図1

【特許請求の範囲】
【請求項1】
評価用画像データを取得する入力部と、
学習用画像データを用いて生成された学習済みモデルと前記評価用画像データとに基づいて、所定の被写体を構成する部位が前記評価用画像データに写っている確からしさを前記評価用画像データの位置ごとに推論して信頼性マップを得る推論部と、
前記信頼性マップに基づいて、前記評価用画像データに前記部位が写っている確からしさを示す信頼スコアを算出する信頼スコア算出部と、
前記信頼スコアに基づいて、前記評価用画像データが前記学習用画像データの分布内であるか否かを判定する判定部と、
を備える、情報処理装置。
【請求項2】
前記判定部は、前記信頼スコアと閾値とを比較することにより、前記評価用画像データが前記学習用画像データの分布内であるか否かを判定する、
請求項1に記載の情報処理装置。
【請求項3】
前記判定部は、検証用画像データの信頼スコアの分布に基づいて、前記閾値を決定する、
請求項2に記載の情報処理装置。
【請求項4】
前記閾値は、あらかじめ登録されている、
請求項2に記載の情報処理装置。
【請求項5】
前記判定部は、前記評価用画像データの信頼スコアの分布と、検証用画像データの信頼スコアの分布との間に有意な差分があるか否かを統計的検定により算出し、前記有意な差分があるか否かに基づいて前記評価用画像データが前記学習用画像データの分布外であるか否かを判定する、
請求項1に記載の情報処理装置。
【請求項6】
前記信頼スコア算出部は、前記評価用画像データの位置ごとの前記確からしさに基づいて、前記確からしさの最大値を前記信頼スコアとして算出する、
請求項1に記載の情報処理装置。
【請求項7】
前記判定部は、前記評価用画像データが前記学習用画像データの分布内であるか否かにより、前記評価用画像データに前記被写体が写っているか否かを判定する、
請求項1に記載の情報処理装置。
【請求項8】
前記学習済みモデルは、学習済みニューラルネットワークである、
請求項1に記載の情報処理装置。
【請求項9】
評価用画像データを取得することと、
学習用画像データを用いて生成された学習済みモデルと前記評価用画像データとに基づいて、所定の被写体を構成する部位が前記評価用画像データに写っている確からしさを前記評価用画像データの位置ごとに推論して信頼性マップを得ることと、
前記信頼性マップに基づいて、前記評価用画像データに前記部位が写っている確からしさを示す信頼スコアを算出することと、
前記信頼スコアに基づいて、前記評価用画像データが前記学習用画像データの分布内であるか否かを判定することと、
を含む、コンピュータにより実行される情報処理方法。
【請求項10】
コンピュータを、
評価用画像データを取得する入力部と、
学習用画像データを用いて生成された学習済みモデルと前記評価用画像データとに基づいて、所定の被写体を構成する部位が前記評価用画像データに写っている確からしさを前記評価用画像データの位置ごとに推論して信頼性マップを得る推論部と、
前記信頼性マップに基づいて、前記評価用画像データに前記部位が写っている確からしさを示す信頼スコアを算出する信頼スコア算出部と、
前記信頼スコアに基づいて、前記評価用画像データが前記学習用画像データの分布内であるか否かを判定する判定部と、
として機能させるプログラム。



【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法およびプログラムに関する。
【背景技術】
【0002】
ニューラルネットワーク(以下、単に「NN」とも表記する。)は、画像認識などの問題において高い性能を有する。一般的に、学習用データを用いた学習によって得られたモデルに、学習用データの分布外の評価用データが入力された場合であっても、その評価用データが学習用データの分布外のデータであることをモデルが判定することができない。そのため、評価用データによってはモデルの挙動が保証されなくなってしまう。
【0003】
例えば、犬が写る画像データと鳥が写る画像データとを用いた学習によって、画像データに写る被写体が犬であるのか鳥であるのかを分類する能力を獲得したモデルに、魚が写る画像データを入力させた場合を想定する。このとき、魚が写る画像データに対応して、モデルから「魚である」という出力、もしくは「犬でも鳥でもない」という出力が得られるのが理想的である。しかし、実際には、魚が写る画像データに対応して、モデルから「犬である」という出力または「鳥である」という出力が得られてしまう。
【0004】
そのため、評価用データが学習用データの分布外のデータであるか否かを判定することによりモデルの信頼性に対する評価を行うことが肝要となる。
【0005】
なお、以下の説明においては、評価用データが学習用データの分布外のデータであるか否かを判定することを、単に「分布内外判定」とも言う。また、学習用データの分布外のデータを単に「分布外データ」とも言う。分布外データは、学習用データに類似しないデータである。一方、学習用データの分布内のデータを単に「分布内データ」とも言う。分布内データは、学習用データと同一または類似するデータである。
【0006】
例えば、分布内外判定に関する種々の技術が知られている(例えば、非特許文献1および非特許文献2参照。)。かかる分布内外判定により、評価用データに正解ラベルが付与されていない場合においてもモデルの信頼性に対する評価が可能となる。また、学習により生成されたモデルを用いて、被写体を構成する部位に関する推定を行う技術(以下、「骨格推定技術」とも言う。)が知られている(例えば、非特許文献3参照。)。
【先行技術文献】
【非特許文献】
【0007】
【非特許文献1】Dan Hendrycks、他1名、"A Baseline for Detecting Misclassified and Out-of-Distribution Examples in Neural Networks"、[online]、[令和4年8月19日検索]、インターネット<https://arxiv.org/abs/1610.02136v3>
【非特許文献2】Kimin Lee、他3名、"A Simple Unified Framework for Detecting Out-of-Distribution Samples and Adversarial Attacks"、[online]、[令和4年8月19日検索]、インターネット<https://arxiv.org/abs/1807.03888>
【非特許文献3】Zhe Cao、他4名、"OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields"、[online]、[令和4年8月19日検索]、インターネット<https://arxiv.org/abs/1812.08008>
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかし、評価用データに正解ラベルが付与されていない場合においても、評価用データを用いたモデルの信頼性に対する評価の精度をさらに向上させる技術が求められる。
【0009】
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、評価用データに正解ラベルが付与されていない場合においても、評価用データを用いたモデルの信頼性に対する評価の精度をさらに向上させることが可能な、新規かつ改良された技術を提供することにある。
【課題を解決するための手段】
【0010】
上記課題を解決するために、本発明のある観点によれば、評価用画像データを取得する入力部と、学習用画像データを用いて生成された学習済みモデルと前記評価用画像データとに基づいて、所定の被写体を構成する部位が前記評価用画像データに写っている確からしさを前記評価用画像データの位置ごとに推論して信頼性マップを得る推論部と、前記信頼性マップに基づいて、前記評価用画像データに前記部位が写っている確からしさを示す信頼スコアを算出する信頼スコア算出部と、前記信頼スコアに基づいて、前記評価用画像データが前記学習用画像データの分布内であるか否かを判定する判定部と、を備える、情報処理装置が提供される。
【0011】
前記判定部は、前記信頼スコアと閾値とを比較することにより、前記評価用画像データが前記学習用画像データの分布内であるか否かを判定してもよい。
【0012】
前記判定部は、検証用画像データの信頼スコアの分布に基づいて、前記閾値を決定してもよい。
【0013】
前記閾値は、あらかじめ登録されていてもよい。
【0014】
前記判定部は、前記評価用画像データの信頼スコアの分布と、検証用画像データの信頼スコアの分布との間に有意な差分があるか否かを統計的検定により算出し、前記有意な差分があるか否かに基づいて前記評価用画像データが前記学習用画像データの分布外であるか否かを判定してもよい。
【0015】
前記信頼スコア算出部は、前記評価用画像データの位置ごとの前記確からしさに基づいて、前記確からしさの最大値を前記信頼スコアとして算出してもよい。
【0016】
前記判定部は、前記評価用画像データが前記学習用画像データの分布内であるか否かにより、前記評価用画像データに前記被写体が写っているか否かを判定してもよい。
【0017】
前記学習済みモデルは、学習済みニューラルネットワークであってもよい。
【0018】
また、上記課題を解決するために本発明の別の観点によれば、評価用画像データを取得することと、学習用画像データを用いて生成された学習済みモデルと前記評価用画像データとに基づいて、所定の被写体を構成する部位が前記評価用画像データに写っている確からしさを前記評価用画像データの位置ごとに推論して信頼性マップを得ることと、前記信頼性マップに基づいて、前記評価用画像データに前記部位が写っている確からしさを示す信頼スコアを算出することと、前記信頼スコアに基づいて、前記評価用画像データが前記学習用画像データの分布内であるか否かを判定することと、を含む、コンピュータにより実行される情報処理方法が提供される。
【0019】
また、上記課題を解決するために本発明の別の観点によれば、コンピュータを、評価用画像データを取得する入力部と、学習用画像データを用いて生成された学習済みモデルと前記評価用画像データとに基づいて、所定の被写体を構成する部位が前記評価用画像データに写っている確からしさを前記評価用画像データの位置ごとに推論して信頼性マップを得る推論部と、前記信頼性マップに基づいて、前記評価用画像データに前記部位が写っている確からしさを示す信頼スコアを算出する信頼スコア算出部と、前記信頼スコアに基づいて、前記評価用画像データが前記学習用画像データの分布内であるか否かを判定する判定部と、として機能させるプログラムが提供される。
【発明の効果】
【0020】
以上説明したように本発明によれば、評価用データに正解ラベルが付与されていない場合においても、評価用データを用いたモデルの信頼性に対する評価の精度をさらに向上させることが可能な技術が提供される。
【図面の簡単な説明】
【0021】
図1】本発明の第1の実施形態に係る情報処理装置10の機能構成例を示す図である。
図2】本発明の第1の実施形態に係る情報処理装置10の動作例を示すフローチャートである。
図3】信頼性マップ生成S2の詳細な動作例を示すフローチャートである。
図4】本発明の第1の実施形態に係る分布内外判定S4の詳細な動作例を示すフローチャートである。
図5】検証用画像データの信頼スコア分布の例を示す図である。
図6】判定部104は、検証用画像データの信頼スコア分布の上に評価用画像データの信頼スコア分布が重畳されたヒストグラムの例を示す図である。
図7】本発明の第2の実施形態に係る情報処理装置20の機能構成例を示す図である。
図8】本発明の第2の実施形態に係る分布内外判定S4の詳細な動作例を示すフローチャートである。
図9】本発明の第1の実施形態に係る情報処理装置10および本発明の第2の実施形態に係る情報処理装置20の例としての情報処理装置900のハードウェア構成を示す図である。
【発明を実施するための形態】
【0022】
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
【0023】
(0.概要)
まず、本発明の実施形態に係る概要について説明する。最初に、入力データに対する正解ラベルの付与、学習用データに対する正解ラベルの付与、および、評価用データに対する正解ラベルの付与について説明する。
【0024】
(正解ラベルの付与)
一般的な教師あり学習においては、学習用データを用いて学習が行われ、学習によって生成されたモデルの性能が評価用データを用いて評価される。ここで、学習用データおよび評価用データなどの入力データには、正解ラベルが付与されているのが望ましい。しかし、正解ラベルを入力データに付与する作業によってユーザに掛かる負担が大きくなってしまう。例えば、モデルが適用される分野が特定の分野(例えば、骨格推定技術など)である場合には、正解ラベルをユーザ自身が用意するのが難しい場合もある。
【0025】
(学習用データの正解ラベル)
ユーザは、入力データのうち学習用データとその正解ラベルとして、インターネット上に公開されている、入力データと入力データに既に付与された正解ラベルとの組み合わせである公開データセットをダウンロードして使用することができる。ユーザはこのような公開データセットを使用することにより、学習用データに正解ラベルを改めて付与する作業を行わなくて済む。
【0026】
また、ユーザは、インターネット上に公開されているモデルを使用することもできる。ユーザはこのようなモデルを使用することにより、学習によってモデルを生成するステップを省略することができるため、学習用データに正解ラベルを付与する作業を行わなくて済む。このように、学習用データに正解ラベルを付与する作業は、省略することができる場合がある。
【0027】
(評価用データの正解ラベル)
一方、入力データのうち評価用データは、実際にモデルが運用される際にモデルに入力されるデータと同一または類似するデータであることが望ましい。そのため、インターネット上に公開されている公開データセットから評価用データとして適した入力データを見つけるのは困難であり、評価用データに正解ラベルを付与する作業が必要となってしまう場合が多い。
【0028】
(本実施形態の優位性)
既に説明したように、分布内外判定によりモデルの信頼性に対する評価を行うことが肝要である。さらに、上記したように、公開データセットから評価用データとして適した入力データを見つけるのは困難である。そのため、評価用データに正解ラベルが付与されていない場合においても、分布内外判定により評価用データを用いたモデルの信頼性に対する評価を行う技術が求められる。かかる技術の例が、非特許文献1および非特許文献2に記載されている。
【0029】
非特許文献1に記載の技術は、NNの最終層のソフトマックス層から出力される予測確率の最大値を用いて分布内外判定を行う技術である。かかる技術は、分布内データに対してはNNによる予測が自信を持った予測となるため、ソフトマックス層から出力される予測確率の最大値が大きくなるはずである一方、分布外データに対してはNNによる予測が曖昧な予測となるため、ソフトマックス層から出力される予測確率の最大値が小さくなるはずであるという考え方に基づく技術である。
【0030】
例えば、NNが入力データを3つのクラスのいずれかに分類する場合、NNにとって自信のある予測に基づいて出力される予測確率は、[0.95,0.02,0.03]などと一つのクラスに対応する予測確率が大きくなるため、予測確率の最大値は0.95と大きくなる。一方、NNにとって自信のない予測に基づいて出力される予測確率は、[0.3,0.4,0.3]などといずれの予測確率も小さくなるため、予測確率の最大値は0.4と小さくなる。非特許文献1に記載の技術は、このような考え方に基づく技術である。
【0031】
しかし、非特許文献1に記載の技術は、ソフトマックス層を使う分類モデルにしか適用され得ない。そのため、分布内外判定の精度が低くなってしまい、モデルの信頼性に対する評価の精度が低くなってしまう場合がある。したがって、ソフトマックス層を使わないモデルにも適用可能な技術が求められる。
【0032】
非特許文献2に記載の技術は、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)の特徴マップを用いた技術である。かかる技術は、ソフトマックス層の一層前の層からの出力である特徴マップがクラス条件付きガウス分布に従うと仮定し、特徴マップとガウス分布との間のマハラノビス距離を用いた信頼スコアにより分布内外判定を行う。
【0033】
また、非特許文献2に記載の技術は、非特許文献1に記載された技術と比較し、最終層よりも浅い層の情報を使うことにより、分布内外判定の結果が分類タスクに過剰に適合してしまうことを避けることを目的の一つとしている。
【0034】
しかし、非特許文献2に記載の技術は、分類モデルに適用され得るが、分類モデルと骨格推定技術とでは推論処理が異なる。そのため、非特許文献2に記載の技術がそのまま骨格推定技術に適用されると、分布内外判定の精度が低くなってしまい、モデルの信頼性に対する評価の精度が低くなってしまう場合がある。したがって、骨格推定技術に適用可能な技術が求められる。
【0035】
本発明の実施形態に係る技術は、ソフトマックス層を使わないモデルにも適用可能な技術であり、骨格推定技術に適用可能な技術である。より詳細に、本発明の実施形態に係る技術は、骨格推定の段階において得られる信頼性マップに基づいて分布内外判定を行う。そして、評価用データが分布内データである場合には、骨格推定結果の信頼性が高いと判定される。一方、評価用データが分布外データである場合には、骨格推定結果の信頼性が低いと判定される。信頼性マップについては後に詳細に説明する。
【0036】
これにより、本発明の実施形態に係る技術によれば、骨格推定技術の分野において、評価用データに正解ラベルが付与されていない場合においても、評価用データを用いたモデルの信頼性に対する評価の精度がより一層向上することが期待される。
【0037】
以上、本発明の実施形態に係る概要について説明した。
【0038】
(1.第1の実施形態)
まず、本発明の第1の実施形態について説明する。本発明の第1の実施形態では、学習用画像データと正解ラベルとに基づく学習によって得られた学習済みの機械学習モデルの信頼性を、正解ラベルが付与されていない評価用画像データを用いて評価する情報処理装置について説明する。学習に用いられる機械学習アルゴリズムは、典型的にはニューラルネットワークであってよい。しかし、学習に用いられる機械学習アルゴリズムは、ニューラルネットワークに限定されない。例えば、学習に用いられる機械学習アルゴリズムは、SVM(Support Vector Machine)などといった、ニューラルネットワーク以外の機械学習アルゴリズムであってもよい。
【0039】
なお、以下に説明する、情報処理装置によって実行される処理は、学習済みの機械学習モデルが生成された後、所定のタイミング(例えば、ユーザが学習済みの機械学習モデルの評価を指示したタイミングなど)に実行されてよい。以下では、学習済みの機械学習モデルを、単に「学習済みモデル」または「モデル」とも表記する。
【0040】
(1.1.情報処理装置の構成例)
図1は、本発明の第1の実施形態に係る情報処理装置10の機能構成例を示す図である。図1に示されるように、本発明の第1の実施形態に係る情報処理装置10は、コンピュータによって実現され、入力部101と、推論部102と、信頼スコア算出部103と、判定部104とを備える。さらに、本発明の第1の実施形態に係る情報処理装置10によってデータセット100が用いられる。
【0041】
データセット100は、図示しない記憶部によって記憶される。かかる記憶部は、RAM(Random Access Memory)、ハードディスクドライブまたはフラッシュメモリなどのメモリによって構成されてよい。
【0042】
入力部101と、推論部102と、信頼スコア算出部103と、判定部104とは、CPU(Central Processing Unit)またはGPU(Graphics Processing Unit)などの演算装置を含み、ROM(Read Only Memory)により記憶されているプログラムが演算装置によりRAMに展開されて実行されることにより、その機能が実現され得る。このとき、当該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。あるいは、これらのブロックは、専用のハードウェアにより構成されていてもよいし、複数のハードウェアの組み合わせにより構成されてもよい。演算装置による演算に必要なデータは、図示しない記憶部によって適宜記憶される。
【0043】
(データセット100)
データセット100は、複数の入力画像データを含む。複数の入力画像データには、検証時に使用される検証用画像データおよび評価時に使用される評価用画像データが含まれる。検証用画像データは、学習用画像データの分布内データおよび分布外データの双方を含んでおり、検証用画像データには、分布内データおよび分布外データのいずれかを示す正解ラベルが付与されている。データセット100には、かかる検証用画像データに付与された正解ラベルも含まれる。なお、評価用画像データには、正解ラベルは付与されていない。
【0044】
また、本発明の実施形態では、複数の学習用画像データと学習用画像データに付与された正解ラベルとを用いた学習により生成されたモデルがあらかじめ用意されており、モデルによる追加的な学習は行われない場合を想定する。このとき、学習用画像データと学習用画像データに付与された正解ラベルとは、データセット100に含まれていなくてよい。しかし、後にも説明するように、モデルによる追加的な学習が行われてもよい。
【0045】
かかる場合には、データセット100に、学習用画像データと学習用画像データに付与された正解ラベルとが含まれてよい。なお、後にも説明するように、学習用画像データに付与される正解ラベルは、学習用画像データに写る被写体を構成する部位の位置を示す。
【0046】
本発明の実施形態では、学習用画像データ、検証用画像データおよび評価用画像データそれぞれが、別々に用意されている場合を主に想定する。しかし、学習用画像データ、検証用画像データおよび評価用画像データのいずれか二つまたは三つは、相互に重複する画像データを有してもよい。一例として、検証用画像データと、学習用画像データまたは評価用画像データとは、相互に重複する画像データを有してもよい。
【0047】
また、本発明の実施形態では、学習用画像データ、検証用画像データおよび評価用画像データそれぞれが、画像データである場合(特に、静止画像データである場合)を主に想定する。しかし、学習用画像データ、検証用画像データおよび評価用画像データそれぞれの種類は特に限定されない。例えば、学習用画像データ、検証用画像データおよび評価用画像データそれぞれは、複数のフレームを含んだ動画像データであってもよい。
【0048】
(入力部101)
入力部101は、データセット100から入力画像データを取得する。そして、入力部101は、データセット100から取得した入力画像データを推論部102に出力する。
【0049】
例えば、入力部101は、評価時においては、データセット100から評価用画像データを取得する。そして、入力部101は、データセット100から取得した評価用画像データを推論部102に出力する。一方、入力部101は、検証時においては、データセット100から検証用画像データと検証用画像データに付与された正解ラベルとを順次に取得する。入力部101は、データセット100から取得した検証用画像データを順次に推論部102に出力する。
【0050】
なお、入力部101は、モデルによる追加的な学習が行われる場合には、データセット100から学習用画像データと学習用画像データに付与された正解ラベルとを順次に取得してよい。そして、入力部101は、データセット100から取得した学習用画像データを順次に推論部102に出力してよい。このとき、入力部101は、推論部102によって要求される形式に一致するように学習用画像データの形式の変換(例えば、ミニバッチの作成など)を行ってもよい。
【0051】
(推論部102)
推論部102は、モデルを含んで構成され、入力部101から出力された入力画像データとモデルとに基づいて推論を行う。上記したように、入力画像データには、検証用画像データおよび評価用画像データが含まれる。
【0052】
なお、本発明の実施形態においては、モデルへの入力に基づいてモデルからの出力を得ることを広く「推論」と言う。モデルは、特徴抽出部1021、信頼性マップ生成部1029などを含んで構成される。本発明の実施形態においては、かかるモデルが図示しないサーバから取得される場合を主に想定する。しかし、情報処理装置10によって学習により生成されてもよい。
【0053】
(特徴抽出部1021)
特徴抽出部1021は、畳み込みニューラルネットワークなどを含んで構成され、畳み込みニューラルネットワークを用いて入力画像データの特徴量を抽出する。特徴抽出部1021は、抽出した特徴量を信頼性マップ生成部1029に出力する。
【0054】
(信頼性マップ生成部1029)
信頼性マップ生成部1029は、特徴量に基づいて入力画像データに写る被写体を構成する部位が入力画像データに写っている確からしさを入力画像データの位置ごとに推論する。そして、信頼性マップ生成部1029は、推論して得られた結果を信頼性マップとして得る。したがって、信頼性マップは、入力画像データに写る被写体を構成する部位が入力画像データに写っている確からしさ(すなわち、推論値)を入力画像データの位置ごとに示すマップであり得る。
【0055】
本発明の実施形態においては、入力画像データに写る被写体が人物である場合を主に想定する。しかし、入力画像データに写る被写体は人物以外の物体(例えば、ロボットなど)であってもよい。また、本発明の実施形態においては、被写体を構成する部位が関節である場合を主に想定する。しかし、被写体を構成する部位は、関節以外の部位であってもよい。
【0056】
モデルは、信頼性マップを用いて被写体を構成する部位の位置を推定し、推定した部位の位置を出力する。このようなモデルとしては、非特許文献3に記載された「OpenPose」によって得られるモデルが用いられ得る。
【0057】
より詳細に、非特許文献3に記載された「OpenPose」によって得られるモデル(以下、「OpenPoseモデル」とも言う。)は、特徴量から信頼性マップ(Confidence Map)と部位同士の連関ベクトル(PAFs:Part Affinity Fields)とを抽出し、信頼性マップと部位同士の連関ベクトルとを組み合わせることにより、被写体を構成する部位の位置を高精度に推定し、推定した結果を骨格推定結果として出力する。
【0058】
したがって、本発明の実施形態においては、モデルの例として、図示しないサーバからOpenPoseモデルが取得され、OpenPoseモデルのうち、入力データから特徴量を抽出する構成が、特徴抽出部1021として用いられ得る。さらに、OpenPoseモデルのうち、特徴量から信頼性マップを生成する構成が、信頼性マップ生成部1029として用いられ得る。
【0059】
なお、上記したように、モデルによる追加的な学習が行われる場合も想定される。かかる場合には、推論部102は、学習用画像データとモデルとに基づいて推定された、被写体を構成する部位の位置と、学習用画像データに付与された正解ラベルによって示される、被写体を構成する部位の位置との誤差に基づいて、モデルの重みパラメータを更新してもよい。
【0060】
(信頼スコア算出部103)
信頼スコア算出部103は、信頼性マップに基づいて、入力画像データに被写体を構成する部位が写っている確からしさを示す信頼スコアを算出する。例えば、信頼性マップには、入力画像データを構成する各位置に部位が写る確からしさ(以下、「信頼性推論値」とも言う。)が含まれている。そこで、信頼スコア算出部103は、入力画像データを構成する各位置における信頼性推論値の最大値を信頼スコアとして算出してもよい。
【0061】
例えば、検証時においては、信頼スコア算出部103は、検証用画像データを構成する各位置における信頼性推論値の最大値を検証用画像データの信頼スコアとして算出してもよい。一方、評価時においては、信頼スコア算出部103は、評価用画像データを構成する各位置における信頼性推論値の最大値を評価用画像データの信頼スコアとして算出してもよい。
【0062】
信頼性推論値の最大値を評価用画像データの信頼スコアとして算出するとよい理由は、以下の通りである。すなわち、その理由は、自信のある予測が行われた場合には、評価用画像データの一つの位置に対応する出力が大きく、信頼性推論値の最大値が閾値以上であると考えられる一方、自信のない予測が行われた場合には、評価用画像データのいずれの位置に対応する出力も小さく、信頼性推論値の最大値が閾値未満であると考えられるからである。
【0063】
(判定部104)
判定部104は、検証時において、検証用画像データの信頼スコアの分布に基づいて、分布内外判定のための閾値を決定する。かかる閾値をどのようにして決定するかについては、後に詳細に説明する。
【0064】
さらに、判定部104は、評価時において、評価用画像データの信頼スコアに基づいて、分布内外判定(すなわち、評価用画像データが学習用画像データの分布内のデータであるか否かの判定)を行う。より詳細に、判定部104は、評価用画像データの信頼スコアと閾値とを比較することにより、分布内外判定を行ってもよい。
【0065】
例えば、評価用画像データの信頼スコアが閾値以上である場合には、自信のある予測が行われたと考えられる。そのため、かかる場合には、判定部104は、モデルの評価に対する信頼性が高く、評価用画像データが学習用画像データの分布内のデータであると判定してよい。
【0066】
一方、評価用画像データの信頼スコアが閾値未満である場合には、自信のない予測が行われたと考えられる。そのため、かかる場合には、判定部104は、モデルの評価に対する信頼性が低く、評価用画像データが学習用画像データの分布外のデータであると判定してよい。
【0067】
以上、本発明の第1の実施形態に係る情報処理装置10の構成例について説明した。
【0068】
(1.2.情報処理装置の動作例)
図2図6を参照しながら(適宜図1も参照しながら)、本発明の第1の実施形態に係る情報処理装置10の動作例について説明する。図2は、本発明の第1の実施形態に係る情報処理装置10の動作例を示すフローチャートである。
【0069】
まず、図2に示されたように、入力部101は、図示しないサーバからモデルを取得する(S1)。続いて、信頼性マップ生成部1029は、モデルと入力データとに基づいて、入力データに対応する信頼性マップを生成する(S2)。ここで、図3を参照しながら、信頼性マップ生成S2の詳細について説明する。
【0070】
図3は、信頼性マップ生成S2の詳細な動作例を示すフローチャートである。図3に示されるように、入力部101は、データセット100から評価用画像データと検証用画像データと検証用画像データに付与された正解ラベルとを取得する(S201)。入力部101は、評価用画像データと検証用画像データと検証用画像データに付与された正解ラベルとを推論部102に出力する。
【0071】
推論部102は、評価用画像データとモデルとに基づいて推論を行って評価用画像データの信頼性マップを生成するとともに、検証用画像データとモデルとに基づいて推論を行って検証用画像データの信頼性マップを生成する(S202)。推論部102は、評価用画像データの信頼性マップと検証用画像データの信頼性マップと検証用画像データに付与された正解ラベルとを図示しない記憶部に記録する(S203)。
【0072】
入力部101は、すべての入力データ(すなわち、評価用画像データおよび検証用画像データ)に対する推論が終了したか否かを判定する(S204)。すべての入力データに対する推論が終了していない場合には(S204において「NO」)、S201に動作が移行される。一方、すべての入力データに対する推論が終了した場合には(S204において「YES」)、信頼性マップ生成S2が終了し、S3に動作が移行される。
【0073】
図2に示されるように、信頼スコア算出部103は、評価用画像データの信頼性マップの最大値を評価用画像データの信頼スコアとして算出する(S3)。例えば、信頼スコア算出部103は、評価用画像データを構成する各位置における信頼性推論値の最大値を評価用画像データの信頼スコアとして算出する。さらに、判定部104は、分布内外判定(すなわち、評価用画像データが学習用画像データの分布内のデータであるか否かの判定)を行う(S4)。
【0074】
図4は、本発明の第1の実施形態に係る分布内外判定S4の詳細な動作例を示すフローチャートである。図4に示されるように、信頼スコア算出部103は、検証用画像データごとに検証用画像データの信頼性マップの最大値を検証用画像データの信頼スコアとして算出する。例えば、信頼スコア算出部103は、検証用画像データを構成する各位置における信頼性推論値の最大値を検証用画像データの信頼スコアとして算出する。これによって、検証用画像データの信頼スコアごとの度数が検証用画像データの信頼スコア分布として生成される(S401)。
【0075】
続いて、判定部104は、検証用画像データの信頼スコア分布に基づいて閾値を決定する(S402)。図5および図6を参照しながら、かかる閾値決定の詳細な動作例について説明する。
【0076】
図5は、検証用画像データの信頼スコア分布の例を示す図である。図5を参照すると、検証用画像データの信頼スコア分布が、検証用画像データの信頼スコア(Confidence score)を横軸とし、信頼スコアに対応する検証用画像データの度数(Frequency)を縦軸としたヒストグラムによって示されている。
【0077】
図5において「id」は、検証用画像データのうち分布内データ(id:in-distribution)の信頼スコア分布であり、分布内データの信頼スコアと信頼スコアに対応する検証用画像データの度数との対応を示す。一方、図5において「ood」は、検証用画像データのうち分布外データ(ood:out-of-distribution)の信頼スコア分布であり、分布外データの信頼スコアと信頼スコアに対応する検証用画像データの度数との対応を示す。信頼スコアの所定の値を境界として、分布内データと分布外データとが分離されていることが把握される。この所定の値を閾値として決定することを考える。
【0078】
一例として、判定部104は、信頼スコアの低い方から高い方に仮の閾値を増加させながら、仮の閾値に対応するTPR(True Positive Rate)とFPR(False Positive Rate)とを算出し、仮の閾値に対応するTPR-FPRを算出してもよい。そして、判定部104は、最大値を取るTPR-FPRを閾値として決定してもよい。
【0079】
なお、TPRは、真陽性率であり、仮の閾値を基準として検証用画像データに対する分布内外判定を行った場合に、分布内データの正解ラベルが付与された全検証用画像データのうち、正しく分布内データと判定できたものの割合である。一方、FPRは、偽陽性率であり、仮の閾値を基準として検証用画像データに対する分布内外判定を行った場合に、分布外データの正解ラベルが付与された全検証用画像データのうち、誤って分布内データと判定したものの割合である。一例として、図5に示された例では、「閾値=0.582」と決定されてよい。
【0080】
このように閾値が決定されることにより、分布内データと同一または類似する評価用画像データが誤って分布外データとして判定されてしまう可能性、および、分布内データと類似しない評価用画像データが誤って分布内データとして判定されてしまう可能性が低減され得る。ただし、ここで説明した閾値決定手法は、閾値決定手法の一例に過ぎないため、閾値は、他の手法によって決定されてもよい。
【0081】
続いて、判定部104は、評価用画像データの信頼スコアと閾値とを比較して、評価用画像データが学習用画像データの分布内であるか否かを判定する(S403)。例えば、判定部104は、評価用画像データの信頼スコアが閾値以上である場合には、評価用画像データが学習用画像データの分布内のデータであると判定する。一方、判定部104は、評価用画像データの信頼スコアが閾値未満である場合には、評価用画像データが学習用画像データの分布外のデータであると判定する。
【0082】
図6は、判定部104は、検証用画像データの信頼スコア分布の上に評価用画像データの信頼スコア分布が重畳されたヒストグラムの例を示す図である。図6において「test」は、評価用画像データの信頼スコア分布であり、評価用画像データの信頼スコアと信頼スコアに対応する評価用画像データの度数との対応を示す。
【0083】
一例として、「閾値=0.582」と決定された場合、評価用画像データの信頼スコアは、閾値以上となる。そのため、評価用画像データは分布内データであると判定部104によって判定される。
【0084】
以上、本発明の第1の実施形態に係る情報処理装置10の動作例について説明した。
【0085】
(1.3.効果)
以上に説明したように、本発明の第1の実施形態によれば、骨格推定に用いられるモデルによって生成される評価用画像データの信頼性マップに基づいて評価用画像データの信頼スコアが算出され得る。そして、信頼スコアに基づいて評価用画像データの分布内外判定が行われ得る。
【0086】
これにより、骨格推定技術の分野において、評価用画像データに正解ラベルが付与されていない場合においても、評価用画像データを用いたモデルの信頼性に対する評価の精度がより一層向上するという効果が享受され得る。特に、本発明の第1の実施形態では、分布内外判定のための閾値が検証用画像データの信頼スコア分布に基づいて自動的に決定されるため、閾値決定に要する手間が低減されるという効果も享受され得る。
【0087】
以上、本発明の第1の実施形態が奏する効果について説明した。
【0088】
(2.第2の実施形態)
続いて、本発明の第2の実施形態について説明する。
【0089】
(2.1.情報処理装置の構成例)
図7は、本発明の第2の実施形態に係る情報処理装置20の機能構成例を示す図である。図7に示されるように、本発明の第2の実施形態に係る情報処理装置20は、コンピュータによって実現され、入力部101と、推論部102と、信頼スコア算出部103と、判定部204とを備える。さらに、本発明の第2の実施形態に係る情報処理装置20によってデータセット100が用いられる。
【0090】
本発明の第2の実施形態に係る情報処理装置20は、本発明の第1の実施形態に係る情報処理装置10が備える判定部104の代わりに、判定部204を備える点が本発明の第1の実施形態に係る情報処理装置10と主に異なる。したがって、以下では、判定部204について主に説明し、情報処理装置20が備える他の構成の詳細な説明は省略する。
【0091】
判定部204は、評価用画像データの信頼スコア分布と検証用画像データの信頼スコア分布との間に有意差があるかを、統計的検定により判定する。そして、判定部204は、評価用画像データの信頼スコア分布と検証用画像データの信頼スコア分布との間に有意差があるかに基づいて評価用画像データが学習用画像データの分布外であるか否かを判定する。
【0092】
例えば、検証用画像データは、分布内データであってもよい。このとき、判定部204は、評価用画像データの信頼スコア分布と検証用画像データの信頼スコア分布との間に有意差がある場合には、評価用画像データが分布外データであると判定する。一方、判定部204は、評価用画像データの信頼スコア分布と検証用画像データの信頼スコア分布との間に有意差がない場合には、評価用画像データが分布内データであると判定する。
【0093】
なお、統計的検定は、二つの分布間に有意差があるかを調べることを意味し得る。ここで、統計的検定は、t検定などであってもよい。なお、検証用画像データの信頼スコア分布よりも評価用画像データの信頼スコアのほうが大きい傾向にあれば問題がないため、統計的検定として片方検定が用いられてもよい。さらに、統計的検定のためには、評価用画像データおよび検証用画像データのデータ量はより多いほうが望ましい。
【0094】
以上、本発明の第2の実施形態に係る情報処理装置20の構成例について説明した。
【0095】
(2.2.情報処理装置の動作例)
図8を参照しながら(適宜図7も参照しながら)、本発明の第2の実施形態に係る情報処理装置20の動作例について説明する。図8は、本発明の第2の実施形態に係る分布内外判定S4の詳細な動作例を示すフローチャートである。なお、本発明の第2の実施形態に係るS401(図8)は、本発明の第1の実施形態に係るS401(図4)と同様に実行されてよい。
【0096】
判定部204は、評価用画像データの信頼スコア分布と検証用画像データの信頼スコア分布との間に有意差があるか否かを、統計的検定により判定する(S412)。そして、判定部204は、評価用画像データの信頼スコア分布と検証用画像データの信頼スコア分布との間に有意差があるか否かに基づいて評価用画像データが学習用画像データの分布外であるか否かを判定する(S413)。
【0097】
例えば、検証用画像データは、分布内データであってもよい。このとき、判定部204は、評価用画像データの信頼スコア分布と検証用画像データの信頼スコア分布との間に有意差がある場合には、評価用画像データが分布外データであると判定する。一方、判定部204は、評価用画像データの信頼スコア分布と検証用画像データの信頼スコア分布との間に有意差がない場合には、評価用画像データが分布内データであると判定する。
【0098】
以上、本発明の第2の実施形態に係る情報処理装置20の動作例について説明した。
【0099】
(2.3.効果)
以上に説明したように、本発明の第2の実施形態によれば、本発明の第1の実施形態と同様に、骨格推定に用いられるモデルによって生成される評価用画像データの信頼性マップに基づいて評価用画像データの信頼スコアが算出され得る。そして、信頼スコアに基づいて評価用画像データの分布内外判定が行われ得る。
【0100】
これにより、本発明の第1の実施形態と同様に、骨格推定技術の分野において、評価用画像データに正解ラベルが付与されていない場合においても、評価用画像データを用いたモデルの信頼性に対する評価の精度がより一層向上するという効果が享受され得る。特に、本発明の第2の実施形態では、統計的検定により分布内外判定が行われるため、分布内外判定のための閾値の設定が不要となるという効果も享受され得る。
【0101】
以上、本発明の第2の実施形態が奏する効果について説明した。
【0102】
(3.ハードウェア構成例)
続いて、本発明の第1の実施形態に係る情報処理装置10および本発明の第2の実施形態に係る情報処理装置20のハードウェア構成例について説明する。以下では、本発明の第1の実施形態に係る情報処理装置10および本発明の第2の実施形態に係る情報処理装置20のハードウェア構成例として、情報処理装置900のハードウェア構成例について説明する。
【0103】
なお、以下に説明する情報処理装置900のハードウェア構成例は、情報処理装置10および情報処理装置20のハードウェア構成の一例に過ぎない。したがって、情報処理装置10および情報処理装置20のハードウェア構成は、以下に説明する情報処理装置900のハードウェア構成から不要な構成が削除されてもよいし、新たな構成が追加されてもよい。
【0104】
図9は、本発明の第1の実施形態に係る情報処理装置10および本発明の第2の実施形態に係る情報処理装置20の例としての情報処理装置900のハードウェア構成を示す図である。情報処理装置900は、CPU(Central Processing Unit)901と、ROM(Read Only Memory)902と、RAM(Random Access Memory)903と、ホストバス904と、ブリッジ905と、外部バス906と、インタフェース907と、入力装置908と、出力装置909と、ストレージ装置910と、通信装置911と、を備える。
【0105】
CPU901は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置900内の動作全般を制御する。また、CPU901は、マイクロプロセッサであってもよい。ROM902は、CPU901が使用するプログラムや演算パラメータ等を記憶する。RAM903は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはCPUバス等から構成されるホストバス904により相互に接続されている。
【0106】
ホストバス904は、ブリッジ905を介して、PCI(Peripheral Component Interconnect/Interface)バス等の外部バス906に接続されている。なお、必ずしもホストバス904、ブリッジ905および外部バス906を分離構成する必要はなく、1つのバスにこれらの機能を実装してもよい。
【0107】
入力装置908は、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチおよびレバー等ユーザが情報を入力するための入力手段と、ユーザによる入力に基づいて入力信号を生成し、CPU901に出力する入力制御回路等から構成されている。情報処理装置900を操作するユーザは、この入力装置908を操作することにより、情報処理装置900に対して各種のデータを入力したり処理動作を指示したりすることができる。
【0108】
出力装置909は、例えば、CRT(Cathode Ray Tube)ディスプレイ装置、液晶ディスプレイ(LCD)装置、OLED(Organic Light Emitting Diode)装置、ランプ等の表示装置およびスピーカ等の音声出力装置を含む。
【0109】
ストレージ装置910は、データ格納用の装置である。ストレージ装置910は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置等を含んでもよい。ストレージ装置910は、例えば、HDD(Hard Disk Drive)で構成される。このストレージ装置910は、ハードディスクを駆動し、CPU901が実行するプログラムや各種データを格納する。
【0110】
通信装置911は、例えば、ネットワークに接続するための通信デバイス等で構成された通信インタフェースである。また、通信装置911は、無線通信または有線通信のどちらに対応してもよい。
【0111】
以上、本発明の第1の実施形態に係る情報処理装置10および本発明の第2の実施形態に係る情報処理装置20のハードウェア構成例について説明した。
【0112】
(4.まとめ)
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
【0113】
例えば、本発明の第1の実施形態では、分布内外判定のための閾値が検証用画像データの信頼スコア分布に基づいて自動的に決定される場合について主に説明した。しかし、分布内外判定のための閾値は、図示しない記憶部にあらかじめ登録されていてもよい。このとき、判定部104は、分布内外判定のための閾値を、図示しない記憶部から取得し、取得した閾値を分布内外判定に用いればよい。
【0114】
また、分布内外判定の結果の用途は、いかなる用途であってもよい。一例として、分布内外判定の結果は、被写体の検知技術に適用されてもよい。すなわち、判定部104は、評価用画像データが学習用画像データの分布内であるか否かにより、評価用画像データに被写体が写っているか否かを判定してもよい。
【0115】
このとき、評価用画像データに被写体が写っていない状態には、評価用画像データに写っている被写体の姿勢と同じ姿勢の被写体が、いずれの学習用画像データにも写っていない状態、または、評価用画像データから被写体を構成する部位の位置が推定されない状態(例えば、カメラから見た奥行き方向に被写体が寝そべっており、カメラから当該部位が見えない状態など)が含まれてもよい。
【符号の説明】
【0116】
10、20 情報処理装置
100 データセット
101 入力部
102 推論部
1021 特徴抽出部
1029 信頼性マップ生成部
103 信頼スコア算出部
104、204 判定部



図1
図2
図3
図4
図5
図6
図7
図8
図9