特許7550615 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ キヤノン株式会社の特許一覧

特許7550615情報処理装置、情報処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-09-05

(45)【発行日】2024-09-13

(54)【発明の名称】情報処理装置、情報処理方法

(51)【国際特許分類】

G06T 7/00 20170101AFI20240906BHJP

G02B 7/28 20210101ALI20240906BHJP

G03B 13/36 20210101ALI20240906BHJP

H04N 23/60 20230101ALI20240906BHJP

【ＦＩ】

G06T7/00 350C

G02B7/28 N

G03B13/36

H04N23/60 500

【請求項の数】 16

(21)【出願番号】P 2020191892

(22)【出願日】2020-11-18

(65)【公開番号】P2022080686

(43)【公開日】2022-05-30

【審査請求日】2023-11-13

(73)【特許権者】

【識別番号】000001007

【氏名又は名称】キヤノン株式会社

(74)【代理人】

【識別番号】110003281

【氏名又は名称】弁理士法人大塚国際特許事務所

(72)【発明者】

【氏名】内田悠美子

【審査官】藤原敬利

(56)【参考文献】

【文献】国際公開第２０１５／０４９８２６（ＷＯ，Ａ１）

【文献】特開２０２０－０９１５４３（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００－７／９０

Ｇ０６Ｖ１０／００－２０／９０

Ｈ０４Ｎ２３／６０

Ｇ０２Ｂ７／２８

Ｇ０３Ｂ１３／３６

(57)【特許請求の範囲】

【請求項1】

画像における検出対象の領域を表す第１マップを取得する第１取得手段と、
前記画像を入力した学習モデルから出力される、該画像において該検出対象が位置すると推論される推論領域を表す第２マップを取得する第２取得手段と、
前記画像において検出対象の位置として許容する許容領域を表す第３マップを取得する第３取得手段と、
前記第１マップと前記第２マップとの誤差を表す誤差マップにおいて前記許容領域の範囲外が前記許容領域の範囲内よりも大きい重み値で重み付けされている第４マップを取得する第４取得手段と、
前記第４マップに基づいて前記学習モデルにおける重み係数を更新する更新手段と
を備えることを特徴とする情報処理装置。

【請求項2】

前記画像における検出対象の位置に対応する前記第１マップにおける位置を対応位置とし、前記第１マップにおいて該対応位置により近い位置の要素値はより大きいことを特徴とする請求項１に記載の情報処理装置。

【請求項3】

前記第２マップにおける推論領域は、該第２マップにおいて検出対象の存在確率が一定値以上の領域であることを特徴とする請求項１または２に記載の情報処理装置。

【請求項4】

前記第３取得手段は、前記画像におけるオブジェクトのそれぞれの部位の位置に基づいて前記許容領域を求め、該許容領域を表す第３マップを取得することを特徴とする請求項１乃至３の何れか１項に記載の情報処理装置。

【請求項5】

前記第３取得手段は、前記画像におけるオブジェクトに設定された検出対象の位置と、前記画像に対する領域分割の結果と、に基づいて前記許容領域を求め、該許容領域を表す第３マップを取得することを特徴とする請求項１乃至３の何れか１項に記載の情報処理装置。

【請求項6】

前記第３取得手段は、前記画像におけるオブジェクトに設定された検出対象の位置の周辺の画像特徴量と類似する画像特徴量を有する領域を前記許容領域として求め、該許容領域を表す第３マップを取得することを特徴とする請求項１乃至３の何れか１項に記載の情報処理装置。

【請求項7】

更に、
前記第２マップにおける推論領域のうち前記許容領域に属さない推論領域を表す第５マップを取得する第５取得手段を備え、
前記第４取得手段は、前記誤差マップにおいて前記第５マップが表す推論領域を前記許容領域に属する推論領域よりも大きい重み値で重み付けした第４マップを取得する
ことを特徴とする請求項１乃至３の何れか１項に記載の情報処理装置。

【請求項8】

更に、
前記第３マップにおける許容領域には含まれるが、前記画像における検出対象の領域には含まれない領域を表す第５マップを取得する手段を備え、
前記第４取得手段は、前記誤差マップにおいて前記第５マップが表す領域を該領域の範囲外よりも小さい重み値で重み付けした第４マップを取得する
ことを特徴とする請求項１乃至３の何れか１項に記載の情報処理装置。

【請求項9】

前記更新手段は、前記第４マップにおける全ての誤差の総和を損失として求め、該損失に基づいて前記重み係数を更新することを特徴とする請求項１乃至８の何れか１項に記載の情報処理装置。

【請求項10】

前記誤差は交差エントロピーであることを特徴とする請求項１乃至９の何れか１項に記載の情報処理装置。

【請求項11】

前記学習モデルは、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）であることを特徴とする請求項１乃至１０の何れか１項に記載の情報処理装置。

【請求項12】

画像における検出対象の領域を表す第１マップを取得する第１取得手段と、
前記画像を入力した学習モデルから出力される、該画像において該検出対象が位置すると推論される推論領域を表す第２マップを取得する第２取得手段と、
前記画像において検出対象としない無視領域を表す第３マップを取得する第３取得手段と、
前記第１マップ、前記第２マップ、前記第３マップに基づいて、前記無視領域および前記第２マップにおける誤検出領域を表す第４マップを取得する第４取得手段と、
前記第１マップと前記第２マップとの誤差を表す誤差マップを前記第４マップに基づいて重み付けした第５マップを取得する第５取得手段と、
前記第５マップに基づいて前記学習モデルにおける重み係数を更新する更新手段と
を備えることを特徴とする情報処理装置。

【請求項13】

前記誤差マップにおいて前記無視領域に対する重み値は０であることを特徴とする請求項１２に記載の情報処理装置。

【請求項14】

情報処理装置が行う情報処理方法であって、
前記情報処理装置の第１取得手段が、画像における検出対象の領域を表す第１マップを取得する第１取得工程と、
前記情報処理装置の第２取得手段が、前記画像を入力した学習モデルから出力される、該画像において該検出対象が位置すると推論される推論領域を表す第２マップを取得する第２取得工程と、
前記情報処理装置の第３取得手段が、前記画像において検出対象の位置として許容する許容領域を表す第３マップを取得する第３取得工程と、
前記情報処理装置の第４取得手段が、前記第１マップと前記第２マップとの誤差を表す誤差マップにおいて前記許容領域の範囲外が前記許容領域の範囲内よりも大きい重み値で重み付けされている第４マップを取得する第４取得工程と、
前記情報処理装置の更新手段が、前記第４マップに基づいて前記学習モデルにおける重み係数を更新する更新工程と
を備えることを特徴とする情報処理方法。

【請求項15】

情報処理装置が行う情報処理方法であって、
前記情報処理装置の第１取得手段が、画像における検出対象の領域を表す第１マップを取得する第１取得工程と、
前記情報処理装置の第２取得手段が、前記画像を入力した学習モデルから出力される、該画像において該検出対象が位置すると推論される推論領域を表す第２マップを取得する第２取得工程と、
前記情報処理装置の第３取得手段が、前記画像において検出対象としない無視領域を表す第３マップを取得する第３取得工程と、
前記情報処理装置の第４取得手段が、前記第１マップ、前記第２マップ、前記第３マップに基づいて、前記無視領域および前記第２マップにおける誤検出領域を表す第４マップを取得する第４取得工程と、
前記情報処理装置の第５取得手段が、前記第１マップと前記第２マップとの誤差を表す誤差マップを前記第４マップに基づいて重み付けした第５マップを取得する第５取得工程と、
前記情報処理装置の更新手段が、前記第５マップに基づいて前記学習モデルにおける重み係数を更新する更新工程と
を備えることを特徴とする情報処理方法。

【請求項16】

コンピュータを、請求項１乃至１３の何れか１項に記載の情報処理装置の各手段として機能させるためのコンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、学習モデルの学習技術に関するものである。

【背景技術】

【0002】

撮像装置のフォーカスを被写体に自動的に合わせること（オートフォーカス）を目的として、画像中の被写体を検出することが行われている。例えば、人物を被写体とする場合には、顔検出や頭部検出、胴体検出などが行われている。

【0003】

物体検出を用いたオートフォーカスにおいては、可能な限り物体の中心を正確に検出し、該検出した中心にフォーカスを合わせることが望ましい。しかし、検出位置が物体の中心から少し外れていても、該検出位置が検出対象の物体上である場合は、物体の中心と深度が近いために許容可能である場合が多い。一方、検出位置が検出対象の物体以外の背景領域に含まれている場合には、物体とは異なる深度にフォーカスが合ってしまうために問題となる。

【0004】

物体領域を検出する技術としては近年、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）を活用した深層学習手法が多数開発されている。

【0005】

他方で、物体検出における誤検出を抑制するための取り組みとして、特許文献１がある。特許文献１に記載の技術では、メインタスクとサブタスクを持ち、それぞれが異なる検出対象を学習する物体検出の学習方法が開示されている。学習画像内のメインタスクにおける誤検出マップを作成し、該マップを用いてのサブタスクの損失に対して重みづけを行うことで、メインタスクの誤検出を抑制することを目的としている。

【先行技術文献】

【特許文献】

【0006】

【文献】特開２０２０－９１５４３号公報

【発明の概要】

【発明が解決しようとする課題】

【0007】

特許文献１では、物体の中心から外れた位置の検出を誤検出として扱い、その結果、誤検出を抑制することができる。しかし、特許文献１では、検出位置が物体の中心から少し外れているが物体上の位置である場合と物体外の誤検出とを区別して扱うことができなかった。本発明では、検出対象の位置として許容する許容領域を考慮した検出のための技術を提供する。

【課題を解決するための手段】

【0008】

本発明の一様態は、画像における検出対象の領域を表す第１マップを取得する第１取得手段と、前記画像を入力した学習モデルから出力される、該画像において該検出対象が位置すると推論される推論領域を表す第２マップを取得する第２取得手段と、前記画像において検出対象の位置として許容する許容領域を表す第３マップを取得する第３取得手段と、前記第１マップと前記第２マップとの誤差を表す誤差マップにおいて前記許容領域の範囲外が前記許容領域の範囲内よりも大きい重み値で重み付けされている第４マップを取得する第４取得手段と、前記第４マップに基づいて前記学習モデルにおける重み係数を更新する更新手段とを備えることを特徴とする。

【発明の効果】

【0009】

本発明の構成によれば、検出対象の位置として許容する許容領域を考慮した検出のための技術を提供することができる。

【図面の簡単な説明】

【0010】

【図1】（Ａ）は情報処理装置のハードウェア構成例を示すブロック図、（Ｂ）は情報処理装置の学習モデルの学習に係る機能構成例を示すブロック図。

【図2】ＣＮＮを用いた一般的な物体検出の学習方法を説明する図。

【図3】ＣＮＮを用いた本実施形態に係る物体検出の学習方法を説明する図。

【図4】学習モデル１１９の学習処理のフローチャート。

【図5】ステップＳ４０４における処理の詳細を示すフローチャート。

【図6】ステップＳ４０４における処理の詳細を説明する図。

【図7】ステップＳ４０６における処理の詳細を示すフローチャート。

【図8】ステップＳ４０７における処理の詳細を示すフローチャート。

【図9】許容マップ１１６の生成方法を説明する図。

【図10】重み付け方法を説明する図。

【図11】許容マップ１１６の与え方、および損失重み付けの方法を示す図。

【発明を実施するための形態】

【0011】

以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

【0012】

［第１の実施形態］
本実施形態では、画像から物体を検出するためのモデルとしてＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）を用いるケースについて説明する。また、本実施形態では、「人物の胴の中心」を検出対象とするケースについて説明する。

【0013】

まず、本実施形態に係る情報処理装置のハードウェア構成例について、図１（Ａ）のブロック図を用いて説明する。本実施形態に係る情報処理装置には、ＰＣ（パーソナルコンピュータ）、タブレット端末装置、スマートフォンなどのコンピュータ装置が適用可能である。

【0014】

ＣＰＵ１０１は、ＲＯＭ１０２やＲＡＭ１０８に格納されているコンピュータプログラムやデータを用いて各種の処理を実行する。これによりＣＰＵ１０１は、情報処理装置全体の動作制御を行うと共に、情報処理装置が行うものとして説明する各処理を実行もしくは制御する。

【0015】

ＲＯＭ１０２には、情報処理装置の設定データ、情報処理装置の起動に係るコンピュータプログラムやデータ、情報処理装置の基本動作に係るコンピュータプログラムやデータ、などが格納されている。さらにＲＯＭ１０２には、生成部１０３、推論部１０４、生成部１０５、損失計算部１０６、更新部１０７、の各機能部がコンピュータプログラムの形態でもって格納されている。以下では、生成部１０３、推論部１０４、生成部１０５、損失計算部１０６、更新部１０７、の各機能部を処理の主体として説明する場合がある。しかし実際には、該機能部に対応するコンピュータプログラムをＣＰＵ１０１が実行することで、該機能部の機能が実現される。

【0016】

ＲＡＭ１０８は、ＲＯＭ１０２や記憶部１０９からロードされたコンピュータプログラムやデータを格納するためのエリア、通信部１１２により外部から受信したデータを格納するためのエリア、を有する。さらにＲＡＭ１０８は、ＣＰＵ１０１が各種の処理を実行する際に用いるワークエリアを有する。このようにＲＡＭ１０８は、各種のエリアを適宜提供することができる。

【0017】

記憶部１０９は、ハードディスクドライブ装置やフラッシュメモリなどの不揮発性メモリである。記憶部１０９には、学習モデルや該学習モデルの学習に用いる各種のデータが保存されている。なお、ＲＯＭ１０２に格納されているものとして説明した上記のコンピュータプログラムやデータの一部若しくは全部を記憶部１０９に保存するようにしても良い。また、記憶部１０９は、ＣＤ－ＲＯＭやＤＶＤ－ＲＯＭなどの記憶媒体に対するコンピュータプログラムやデータの読み書きを行う装置であっても良く、その場合には、記憶部１０９に保存するものとして説明した上記のコンピュータプログラムやデータを該記憶媒体に格納する。

【0018】

入力部１１０は、キーボード、マウス、タッチパネルなどのユーザインターフェースであり、ユーザが操作することで各種の指示をＣＰＵ１０１に対して入力することができる。

【0019】

表示部１１１は、液晶画面やタッチパネル画面などの画面であり、ＣＰＵ１０１による処理結果を画像や文字などでもって表示することができる。なお、表示部１１１は、画像や文字を投影するプロジェクタなどの投影装置であっても良い。

【0020】

通信部１１２は、外部とのデータ通信を行うための通信インターフェースであり、各種の規格に準拠した通信インターフェースを適用することができる。情報処理装置は通信部１１２を介して外部との間でデータの送受信を行う。

【0021】

本実施形態に係る情報処理装置の、学習モデルの学習に係る機能構成例を示すブロック図を図１（Ｂ）に示す。まず、ＣＮＮを用いた一般的な物体検出の学習方法を図１（Ｂ）の構成で実装したケースについて、図２を用いて説明する。

【0022】

推論部１０４は、記憶部１０９から入力画像１１３を取得する。入力画像１１３は図２に示す如く、人物２０１を含む画像である。そして推論部１０４は、入力画像１１３を学習モデル１１９に入力し、該学習モデル１１９が該入力画像１１３に対する推論結果として出力する推論マップ１１７を取得する。学習モデル１１９は入力層、複数の中間層、出力層を有するＣＮＮであり、入力画像１１３が入力層に入力されると、複数の中間層および出力層により、該入力画像１１３に対応する推論マップ１１７が生成されて出力される。ＣＮＮの各層は、学習パラメータとして重み係数を保持しており、各層では入力に対して重みづけを行った結果を次の層へ渡す処理を順次実行していくことで、最終的に出力される推論マップ１１７を生成する。推論マップ１１７は、入力画像１１３における検出対象「人物２０１の胴の中心」の存在確率（０～１の実数値）の分布を表すマップであり、該推論マップ１１７において、存在確率がより高いと推論した位置の要素値はより高く、存在確率がより低いと推論した位置の要素値はより低い。図２において推論領域２０４は、推論マップ１１７において検出対象「人物２０１の胴の中心」の存在確率が一定値以上の領域（検出対象「人物２０１の胴の中心」が位置するとＣＮＮが推論した領域）である。以下では、推論マップ１１７は、入力画像１１３と同じ解像度を有する２次元配列であるものとし、２次元配列における各要素を「画素」と称する。推論マップ１１７における着目画素位置には、該着目画素位置における存在確率が要素値として保持される。

【0023】

生成部１０３は、記憶部１０９から正解情報１１４を取得する。正解情報１１４は入力画像１１３における検出対象「人物２０１の胴の中心」の画素位置を表す情報である。正解情報１１４は図２に示す如く、入力画像１１３と同じ解像度を有し（縦の画素数と横の画素数が入力画像１１３と同じ）、入力画像１１３中の「人物２０１の胴の中心」の画素位置に対応する対応画素２０２の画素値が「１」、該対応画素２０２以外の画素の画素値が「０」の２値画像である。そして生成部１０３は、正解情報１１４の複製を正解マップ１１５として生成する。そして生成部１０３は、該正解マップ１１５において対応画素２０２により近い画素位置の画素の画素値を「０～１の実数の範囲においてより１に近い実数値」に更新し、正解マップ１１５において対応画素２０２からより遠い画素位置の画素の画素値を「０～１の実数の範囲においてより０に近い実数値」に更新する。一般的にはガウス分布に従う広がりを持たせた分布を利用する。図２の正解マップ１１５は更新後の正解マップ１１５である。図２の正解マップ１１５において正解領域２０３は、画素値が一定値以上の画素群の領域である。

【0024】

そして損失計算部１０６は、推論マップ１１７と正解マップ１１５とに基づいて損失を計算する。一般に、正解をマップ形式で与える方式における物体検出手法においては、以下の式（１）および式（２）に示すように、画素ごとの交差エントロピーの総和を損失とすることが一般的である。

【0025】

【数1】

【0026】

【数2】

【0027】

式（１）では、正解マップ１１５におけるｉ番目の画素の画素値をｙｉ、推論マップ１１７において該画素に対応する画素位置の要素値をｐｉとして、該画素に対応する交差エントロピーＥｉを求めている。式（２）では、全ての画素について求めた交差エントロピーの総和Ｌｏｓｓを損失として求めている。

【0028】

そして更新部１０７は、損失計算部１０６が求めた損失に基づいて、誤差逆伝搬法（バックプロパゲーション）などの手法を用いて、学習モデル１１９（ＣＮＮ）における各層の重み係数を更新することで該学習モデル１１９の学習を行う。学習が進むにつれて、推論マップ１１７は正解マップ１１５に近いものとなっていく。

【0029】

次に、ＣＮＮを用いた本実施形態に係る物体検出の学習方法を図１（Ｂ）の構成で実装したケースについて、図３を用いて説明する。推論部１０４は、図２のケースと同様、記憶部１０９から入力画像１１３を取得し、該入力画像１１３を学習モデル１１９に入力することで該学習モデル１１９から出力される推論マップ１１７を取得する。推論マップ１１７には図３に示す如く、入力画像１１３における検出対象「人物２０１の胴の中心」の存在確率が一定値以上の領域（検出対象「人物２０１の胴の中心」が位置するとＣＮＮが推論した領域）である推論領域３０４，３０５，３０６が存在する。推論領域３０４は、人物２０１の胴の中心近辺の領域であるが、後述の正解領域３０２と比較すると要素値（存在確率）が小さくなっている。推論領域３０５は、人物２０１の胴の中心からは外れているが、腰近辺に位置している。推論領域３０６は、人物２０１の領域外に位置しており、誤検出された領域である。

【0030】

一方、生成部１０３は、図２のケースと同様、記憶部１０９から入力画像１１３の正解情報１１４を取得し、該正解情報１１４から正解マップ１１５を生成する。正解マップ１１５には図３に示す如く正解領域３０２が存在する。また、生成部１０３は、入力画像１１３から許容マップ１１６を生成する。許容マップ１１６中の許容領域３０３は、入力画像１１３における人物２０１の胴全体の領域に対応する対応領域である。例えば、許容マップ１１６は、入力画像１１３と同じ解像度を有し（縦の画素数と横の画素数が入力画像１１３と同じ）、入力画像１１３中の「人物２０１の胴全体の領域」に対応する許容領域３０３に属する画素の画素値が「１」、該許容領域３０３以外の画素の画素値が「０」の２値画像である。許容マップ１１６は、正解マップ１１５とは異なり、推論マップ１１７が許容マップ１１６に近づくよう学習させる目的のものではなく、検出位置が検出対象の中心から外れている場合であっても、検出されることを相対的に許容する領域を示すものである。許容マップ１１６の生成方法については後述する。

【0031】

生成部１０５は、推論マップ１１７における推論領域３０４～３０６のうち許容マップ１１６における許容領域３０３と重ならない推論領域３０６を誤検出領域３１１として示すマップを重み付けマップ１１８として生成する。以下では、重み付けマップ１１８は、入力画像１１３と同じ解像度を有する２次元配列であるものとし、２次元配列における各要素を「画素」と称する。許容マップ１１６を用いることにより、人物２０１の腰近辺に出力された推論領域３０５を誤検出として扱わず、人物２０１から外れた出力である推論領域３０６のみを誤検出として扱うことができる。

【0032】

損失計算部１０６は、推論マップ１１７と正解マップ１１５との画素ごとの誤差を表す誤差マップ３０７を求める。誤差マップ３０７は、入力画像１１３と同じ解像度を有し（縦の画素数と横の画素数が入力画像１１３と同じ）、誤差マップ３０７における着目画素位置の要素値は、正解マップ１１５における該着目画素位置の画素の画素値と、推論マップ１１７において該着目画素位置に対応する対応位置の要素値と、の誤差である。誤差マップ３０７には、誤差が一定値以上の領域である誤差領域３０８，３０９，３１０が存在する。誤差領域３０８は、正解領域３０２に対して推論領域３０４の要素値が小さいために生じている誤差の領域である。誤差領域３０９および誤差領域３１０はそれぞれ、正解領域３０２外に推論領域３０５および推論領域３０６が位置しているために生じている誤差の領域である。

【0033】

そして損失計算部１０６は、誤差マップ３０７の複製を重み付け誤差マップ３１２として生成し、重み付け誤差マップ３１２における着目画素位置の誤差を、「該誤差に、重み付けマップ１１８において該着目画素位置に対応する画素位置の要素値に応じた重み値を乗じた結果」に更新する。図３のケースでは、誤差領域３１３および誤差領域３１４は許容領域３０３に属するために重み付けはされないが、誤差領域３１５は許容領域３０３には属していないため、重み付けされて誤差は大きくなっている。そして損失計算部１０６は、重み付け誤差マップ３１２における各画素位置の誤差の総和を損失として計算する。

【0034】

そして更新部１０７は、損失計算部１０６が求めた損失に基づいて、図２のケースと同様にして、学習モデル１１９（ＣＮＮ）における各層の重み係数を更新することで該学習モデル１１９の学習を行う。学習が進むにつれて、推論マップ１１７は正解マップ１１５に近いものとなっていく。

【0035】

次に、本実施形態に係る学習モデル１１９の学習処理について、図４のフローチャートに従って説明する。なお、新規に学習モデル１１９の学習処理を行う場合には、該学習モデル１１９のパラメータをランダムな値で初期化して、ＲＡＭ１０８上に展開する。既存の学習モデル１１９に対する追加学習をおこなう場合には、該学習モデル１１９を記憶部１０９から読み出し、ＲＡＭ１０８上に展開する。

【0036】

ステップＳ４０１では、推論部１０４は、記憶部１０９から入力画像１１３を取得する。ステップＳ４０２では、生成部１０３は、記憶部１０９から入力画像１１３の正解情報１１４を取得する。以下では、正解情報１１４は、入力画像１１３内における検出対象（人物の胴の中心、該人物の左右の肩関節、該人物の左右の腰関節）の画素位置を表す情報であるものとして説明する。正解情報１１４は人が手作業で入力することが一般的であるが、高精度の別の学習モデルを用いて付与してもよい。

【0037】

ステップＳ４０３では、生成部１０３は、ステップＳ４０２で取得した正解情報１１４の複製を正解マップ１１５として生成する。そして生成部１０３は、該正解マップ１１５において「人物の胴の中心」に対応する対応画素により近い画素位置の画素の画素値を「０～１の実数の範囲においてより１に近い実数値」に更新し、該対応画素からより遠い画素位置の画素の画素値を「０～１の実数の範囲においてより０に近い実数値」に更新する。

【0038】

ステップＳ４０４では、生成部１０３は、「人物の胴の中心、該人物の左右の肩関節、該人物の左右の腰関節」の各位置を用いて、入力画像１１３から許容マップ１１６を生成する。ステップＳ４０４における処理の詳細については、図５，６を用いて後述する。

【0039】

ステップＳ４０５では、推論部１０４は、ステップＳ４０１で取得した入力画像１１３を学習モデル１１９に入力することで該学習モデル１１９から出力される推論マップ１１７を取得する。

【0040】

ステップＳ４０６では、生成部１０５は、ステップＳ４０５で取得した推論マップ１１７において、許容マップ１１６における許容領域と重ならない推論領域を誤検出領域として示すマップを重み付けマップ１１８として生成する。ステップＳ４０６の詳細については、図７を用いて後述する。

【0041】

ステップＳ４０７では、損失計算部１０６は、推論マップ１１７と正解マップ１１５との画素ごとの誤差を表す誤差マップ３０７を求め、該誤差マップ３０７を重み付けマップ１１８で重み付けした結果を、重み付け誤差マップ３１２として求める。そして損失計算部１０６は、重み付け誤差マップ３１２における各画素位置の誤差の総和を損失として計算する。ステップＳ４０７における処理の詳細については、図８を用いて後述する。

【0042】

ステップＳ４０８では、更新部１０７は、損失計算部１０６が求めた損失に基づいて、学習モデル１１９（ＣＮＮ）における各層の重み係数を更新することで該学習モデル１１９の学習を行う。

【0043】

ステップＳ４０９では、ＣＰＵ１０１は、処理の終了条件が満たされたか否かを判断する。処理の終了条件には様々な条件があり、特定の終了条件に限らない。例えば、「学習回数（ステップＳ４０１～Ｓ４０８の繰返し回数）が規定回数以上」、「学習を開始してからの経過時間が規定時間以上」、「前回からの重み係数の変化量が規定量未満」、「ユーザが入力部１１０を操作して処理の終了指示を入力した」、「画像に対する精度が所定以上」などがある。

【0044】

このような判断の結果、処理の終了条件が満たされた場合には図４のフローチャートに従った処理は終了する。一方、処理の終了条件が満たされていない場合には、処理はステップＳ４０１に進む。

【0045】

次に、上記のステップＳ４０４における処理の詳細について、図５のフローチャートに従って説明する。図６（Ａ）に、正解情報１１４で規定されている胴中心６０１、右肩関節６０２、左肩関節６０３、右腰関節６０４、左腰関節６０５の位置関係を示す。図６（Ｂ）～図６（Ｉ）は、許容マップ１１６を生成する過程を示している。

【0046】

まず、ステップＳ５０１では、生成部１０３は、入力画像１１３における人物の胴のサイズを算出する。入力画像１１３における人物の胴のサイズは、一例としては、左右の肩関節の間の距離や、胴中心といずれかの肩関節の距離を用いることができる。

【0047】

ステップＳ５０２では、生成部１０３は、胴中心を中心位置とし、胴のサイズを直径とした円領域（胴体円）を算出する。図６（Ｂ）に、胴中心６０１を中心位置とし、胴のサイズを直径とした胴体円６０６の例を示す。

【0048】

そして、ステップＳ５０４～ステップＳ５０５の処理を、肩関節および腰関節の数だけ繰り返す。ステップＳ５０４では、生成部１０３は、右肩関節６０２、左肩関節６０３、右腰関節６０４、左腰関節６０５において未選択の関節から１つを選択関節として選択する。そして生成部１０３は、該選択関節の位置を通り且つ胴体円６０６と接する線分を求め、該線分と該胴体円６０６との接点を求める。図６（Ｃ）では、選択関節として右肩関節６０２を選択しており、右肩関節６０２の位置を通り且つ胴体円６０６と接する線分を求め、該線分と胴体円６０６との接点６０７，６０８を求めている。

【0049】

ステップＳ５０５では、生成部１０３は、選択関節の位置と、ステップＳ５０４で求めた２つの接点の位置と、を頂点とする三角形領域を求める。図６（Ｃ）では、右肩関節６０２の位置、接点６０７の位置、接点６０８の位置、の３つの位置を頂点とする三角形領域６０９を求めている。

【0050】

図６（Ｄ）の三角形領域６１０は、左肩関節６０３を選択関節として選択した場合に求めた三角形領域である。図６（Ｅ）の三角形領域６１１は、右腰関節６０４を選択関節として選択した場合に求めた三角形領域である。図６（Ｆ）の三角形領域６１２は、左腰関節６０５を選択関節として選択した場合に求めた三角形領域である。

【0051】

ステップＳ５０７では、生成部１０３は、２つの肩関節の位置と胴中心の位置を頂点とする三角形領域を求める。図６（Ｇ）の三角形領域６１３は、左肩関節６０３の位置、右肩関節６０２の位置、胴中心６０１の位置、を頂点とする三角形領域である。

【0052】

ステップＳ５０８では、生成部１０３は、２つの腰関節の位置と胴中心の位置を頂点とする三角形領域を求める。図６（Ｈ）の三角形領域６１４は、左腰関節６０５の位置、右腰関節６０４の位置、胴中心６０１の位置、を頂点とする三角形領域である。

【0053】

ステップＳ５０９では、生成部１０３は、ステップＳ５０２で求めた胴体円の領域（図６（Ｂ）の胴体円６０６の領域）、ステップＳ５０４～Ｓ５０８で求めた全ての三角形領域（図６（Ｃ）～（Ｈ）に示した三角形領域）の合計領域を許容領域とする。図６（Ｉ）の許容領域６１５は、図６（Ｂ）～（Ｈ）に示した胴体円および三角形領域の合計領域である。そして生成部１０３は、入力画像１１３と同じ解像度を有する許容マップ１１６であって、上記の処理で求めた許容領域に該当する領域内の画素の画素値を「１」、該領域外の画素の画素値を「０」とする許容マップ１１６を生成する。

【0054】

このような許容マップ１１６の生成方法により、例えば、図６（Ｊ）に示す如く、反り返った姿勢をしている人物についても、該人物の胴体の領域を近似した許容領域６１６を有する許容マップ１１６を生成することができる。

【0055】

次に、上記のステップＳ４０６における処理の詳細について、図７のフローチャートに従って説明する。ステップＳ７０１では、生成部１０５は、重み付けマップ１１８における全ての要素の要素値を「０」に初期化する。そして、ステップＳ７０３～Ｓ７０５の処理を、重み付けマップ１１８における全ての要素について行う。

【0056】

ステップＳ７０３では生成部１０５は、重み付けマップ１１８におけるｉ（１≦ｉ≦Ｍ：Ｍは重み付け誤差マップ３１２における要素の総数）番目の要素（ｉ番目の画素位置における要素）が、許容マップ１１６における許容領域に属しているか否かを判断する。つまり生成部１０５は、重み付けマップ１１８におけるｉ番目の要素に対応する許容マップ１１６中の画素位置の画素値が「１」であるか否かを判断する。重み付けマップ１１８におけるｉ番目の要素に対応する許容マップ１１６における画素位置の画素値が「１」であれば、重み付けマップ１１８におけるｉ番目の要素は許容領域に属していると判断される。一方、重み付けマップ１１８におけるｉ番目の要素に対応する許容マップ１１６における画素位置の画素値が「０」であれば、重み付けマップ１１８におけるｉ番目の要素は許容領域に属していないと判断される。

【0057】

重み付けマップ１１８におけるｉ番目の要素が許容領域に属していると判断された場合は、生成部１０５は変数ｉの値（初期値は１）を１つインクリメントしてステップＳ７０３の処理を行う。一方、重み付けマップ１１８におけるｉ番目の要素が許容領域に属していないと判断された場合は、処理はステップＳ７０４に進む。

【0058】

ステップＳ７０４では、生成部１０５は、重み付けマップ１１８におけるｉ番目の要素に対応する推論マップ１１７中の要素の要素値Ｖが所定値以上であるか否かを判断する。この判断の結果、要素値Ｖが所定値以上であれば、処理はステップＳ７０５に進み、要素値Ｖが所定値未満であれば、生成部１０５は変数ｉの値を１つインクリメントして、処理はステップＳ７０３に進む。ステップＳ７０５では、生成部１０５は、重み付けマップ１１８におけるｉ番目の要素の要素値を「１」に更新する。

【0059】

次に、上記のステップＳ４０７における処理の詳細について、図８のフローチャートに従って説明する。ステップＳ８０２およびステップＳ８０３の処理は、推論マップ１１７における各画素について行われる。

【0060】

ステップＳ８０２では、損失計算部１０６は、推論マップ１１７において未選択の画素位置のうち１つを選択画素位置として選択し、推論マップ１１７における選択画素位置の要素値と正解マップ１１５における選択画素位置の画素値との誤差を求める。誤差としては、例えば、上記の交差エントロピーを求める。

【0061】

ステップＳ８０３では、損失計算部１０６は、ステップＳ８０２で求めた誤差に、重み付けマップ１１８において選択画素位置に対応する画素位置の要素値に応じた重み値を乗じた結果を、重み付け誤差マップ３１２の選択画素位置における要素値とする。例えば、重み付けマップ１１８において選択画素位置に対応する画素位置の要素値が０である場合は、該要素値に応じた重み値を１（変化なし）とする。また、重み付けマップ１１８において選択画素位置に対応する画素位置の要素値が１である場合は、該要素値に応じた重み値を１より大きい値にする。これにより、許容領域外の誤検出領域に対する誤差に対して、該誤差をより大きくする重み値を掛けることができる。

【0062】

推論マップ１１７における全ての画素についてステップＳ８０２およびステップＳ８０３の処理を行うことで、誤差マップ３０７に対して重み付けマップ１１８による重み付けを行った重み付け誤差マップ３１２が完成する。

【0063】

そしてステップＳ８０５では、損失計算部１０６は、上記の処理でもって完成した重み付け誤差マップ３１２における各画素位置の画素の誤差の総和を損失として計算する。例えば、損失は以下の式（３）に基づいて求めても良い。

【0064】

【数3】

【0065】

Ｅｉは重み付け誤差マップ３１２におけるｉ番目の画素の誤差（交差エントロピー）、ｗｉは重み付けマップ１１８においてｉ番目の画素に対応する要素値に対応する重み値、αは任意の係数である。

【0066】

このように、本実施形態によれば、物体を検出するＣＮＮの学習において、優先度の高い誤検出領域に対して誤差の重み付けを行うことができ、優先度の高い誤検出を早期に抑制することが可能となる。

【0067】

［第２の実施形態］
本実施形態を含む以下の各実施形態では、第１の実施形態との差分について説明し、以下で特に触れない限りは、第１の実施形態と同様であるものとする。第１の実施形態では、人物の関節の位置に基づいて許容マップ１１６を生成していたが、本実施形態では、別の方法によって許容マップ１１６を生成する。

【0068】

図９を用いて、本実施形態における許容マップ１１６の生成方法を説明する。本実施形態では、生成部１０３は、入力画像１１３の領域分割情報９０５を取得する。領域分割情報９０５の取得方法は特定の取得方法に限らず、記憶部１０９から取得しても良いし、通信部１１２を介して外部から受信しても良い。領域分割情報９０５は、画像に対する領域分割を行うモデルにより得られる。

【0069】

図９（Ａ）は、入力画像１１３を示しており、該入力画像１１３には、検出対象として人物９０１が映っており、検出対象ではない物体として樹木９０２が映っている。図９（Ｂ）は、入力画像１１３に対する正解情報９０３を示しており、該正解情報９０３は、人物９０１の胴の中心の位置９０４を表している。

【0070】

図９（Ｃ）は、入力画像１１３に対応する領域分割情報９０５を示しており、人物９０１に対応する領域９０６と、樹木９０２に対応する領域９０７と、それ以外の領域と、に分割した結果を示している。領域分割情報９０５は、一例としては、入力画像１１３と同じ解像度を有する２次元配列であり、領域９０６に属する要素の要素値は１、領域９０７に属する要素の要素値は２、それ以外の領域に属する要素の要素値は０である。

【0071】

図９（Ｄ）は、許容マップ１１６を示している。本実施形態では、領域分割情報９０５における領域９０６および領域９０７のうち、正解情報９０３における位置９０４を含む領域、つまり、領域９０６を許容領域とするため、図９（Ｄ）に示す如く、領域９０６を許容領域として表す許容マップ１１６が生成される。このような許容マップ１１６の生成方法では、検出対象の人物全体を許容領域とすることができるため、手足や頭などを誤検出扱いしない場合に有効である。

【0072】

なお、許容マップ１１６の生成方法は、上述の方法に限定されるものではなく、他の方法を用いてもよい。例えば、正解情報１１４として胴の中心の位置９０４のみが与えられた場合には、胴の中心の位置９０４周辺の画像特徴量を用いて許容マップ１１６を生成してもよい。具体的には、入力画像１１３において胴の中心の位置９０４の周辺領域（位置９０４から規定距離内の領域）内の色ヒストグラムを「正解領域の色ヒストグラム」として作成する。その上で、入力画像１１３の各画素について、該画素の周辺領域の色ヒストグラムを作成し、「正解領域の色ヒストグラム」との類似度が所定値以上となる色ヒストグラムを作成した周辺領域を許容領域としても良い。胴の中心の位置９０４の周辺は衣服を身に着けていることが多いため、このような方法では、胴の中心と同じ衣服を着用している領域を許容領域とすることができる。

【0073】

このように、本実施形態によれば、人物の関節位置を正解情報１１４として与える必要がないため、正解情報１１４の作成コストを削減することができる。なお、許容領域を人手で入力することで許容マップ１１６を作成して与える構成としてもよい。この場合には、許容可能な領域を人が定めた上で、より正確に許容領域として指定することができる。

【0074】

［第３の実施形態］
第１の実施形態では、誤検出領域に対して重み付けを行うものであったが、本実施形態では、許容領域の重み値を許容領域の範囲外の重み値よりも下げることによる重み付け方法について説明する。図１０を用いて本実施形態における重み付け方法を説明する。

【0075】

本実施形態では、正解マップ１１５と許容マップ１１６から、重み付けマップ１１８を生成する。本実施形態において重み付けマップ１１８は、許容領域３０３に含まれるが、正解領域３０２には含まれない領域１００１を特定するためのものである。

【0076】

重み付けマップ１１８を用いて、誤差マップ３０７に対して画素ごとに重み付けしたものが、重み付け誤差マップ３１２である。本実施形態においては、重み付けマップ１１８の領域１００１に対する重み値を領域１００１の範囲外に対する重み値よりも下げることで、領域１００１の範囲外の誤検出領域の重みを相対的に高くする効果がある。本例では、誤差領域３１３および誤差領域３１５は領域１００１の範囲外であるため、重み付けはされないが、誤差領域３１４は領域１００１の範囲内であるため、重みを弱くすることで誤差の値が小さくなっている。

【0077】

そして、損失計算部１０６は、上記の処理でもって完成した重み付け誤差マップ３１２における各画素位置の画素の誤差の総和を損失として計算する。例えば、損失は以下の式（４）に基づいて求めても良い。

【0078】

【数4】

【0079】

βは任意の係数である。本実施形態では、推論マップ１１７を用いずに重み付けマップ１１８を生成するため、重み付けマップ１１８の生成処理を事前処理として学習前に実施しておくことも可能となり、学習に要する時間を短縮することができる。

【0080】

［第４の実施形態］
第１～３の実施形態では、許容マップ１１６として検出対象となる人物の胴体の領域を利用していた。これに対し、本実施形態では、検出対象となる人物以外の領域を許容マップ１１６として与える。図１１に本実施形態における許容マップ１１６の与え方、および損失重み付けの方法を示す。

【0081】

入力画像１１３には、人物１１０１と背景人物１１０２とが映っている。人物１１０１は検出対象であり、背景人物１１０２は写っているサイズが小さいため、検出対象ではない。しかし、背景人物１１０２は検出対象と類似した特徴を備えているため、背景人物１１０２を検出しないように学習すると、検出精度が低下する可能性がある。そこで本実施形態では、許容マップ１１６として、背景人物１１０２の胴中心に相当する許容領域１１０３を与え、該許容領域１１０３を検出してもしなくてもよい領域として扱う。本実施形態において、許容マップ１１６は人が手作業によって入力して与えるものとする（例えばユーザが入力部１１０を操作して入力する）。

【0082】

第１の実施形態と同様、入力画像１１３を学習モデル１１９に入力すると、該学習モデル１１９からは、該入力画像１１３に対応する推論マップ１１７が出力される。推論マップ１１７には推論領域１１０４～１１０６が含まれている。推論領域１１０４は、人物１１０１の胴の中心近辺に位置しており、該推論領域１１０４における存在確率は正解領域３０２と比較すると小さい。推論領域１１０５は、人物１１０１および背景人物１１０２のいずれからも外れた位置に存在しており、推論領域１１０６は、背景人物１１０２の胴の中心付近に位置している。

【0083】

推論マップ１１７と正解マップ１１５とから第１の実施形態と同様にして誤差マップ３０７を取得する。誤差マップ３０７において誤差領域１１０７は、正解領域３０２に対して推論領域１１０４における存在確率が弱いために生じている誤差である。誤差マップ３０７において誤差領域１１０８および誤差領域１１０９はそれぞれ、正解領域３０２以外の位置に推論領域１１０５および推論領域１１０６が存在しているために生じている誤差である。

【0084】

本実施形態では、重み付けマップ１１８は、正解マップ１１５と推論マップ１１７と許容マップ１１６とから生成部１０５が生成する。生成部１０５は、全ての要素の要素値が「１」に初期化された２次元配列の重み付けマップ１１８において、許容領域１１０３に対応する領域１１１１に属する要素の要素値を「０」に設定すると共に、推論領域１１０４～１１０６のうち許容領域１１０３にも正解領域３０２にも対応しない誤検出領域である推論領域１１０５に対応する領域１１１０に属する要素の要素値を「２」に設定する。「領域１１１１に属する要素の要素値を「１」に設定する」ことは、「領域１１１１を損失を計算しない無視領域」として設定することを意味する。このような許容マップ１１６を用いることにより、背景人物１１０２への検出結果を無視するよう扱うことができる。

【0085】

損失計算部１０６は第１の実施形態と同様にして、重み付けマップ１１８を用いて誤差マップ３０７の画素ごとに重み付けして重み付け誤差マップ３１２を生成するが、領域１１１１に対応する領域１１１４については、誤差領域１１０９に対応するものの上記の無視領域に該当するため、誤差を無視するよう重み付け（重み値「０」で重み付け）した結果、該領域１１１４内の要素値（誤差）は０となる。誤差領域１１１２は、誤検出領域である領域１１１０および無視領域である領域１１１１の範囲外であるために重み付けはされないが、誤差領域１１１３は領域１１１０に対応するため、より大きい重み値で重み付けされて要素値（誤差）が大きくなる。

【0086】

そして、損失計算部１０６は、上記の処理でもって完成した重み付け誤差マップ３１２における各画素位置の画素の誤差の総和を損失として計算する。例えば、損失は以下の式（５）に基づいて求めても良い。

【0087】

【数5】

【0088】

γは任意の係数である。このように、本実施形態によれば、検出対象となる人物の他に、背景人物などが映りこんでいる画像においても、背景人物を検出対象でも誤検出対象でもない対象として扱うことができ、効率的に学習を行うことができる。

【0089】

＜変形例＞
上述の実施形態では、人物の胴の中心を検出対象としていたが、他の対象を検出対象としてもよく、例えば、人物の他の部位（頭部など）、他の生物（動物など）を検出対象としても良い。どのような対象（オブジェクト）を検出対象としても、上記の実施形態と同様、正解マップと許容マップを与えることで、致命的な誤検出を抑制した学習を効率的に行うことができる。

【0090】

また、許容マップは０、１の２値で表現されるマップではなく、許容領域の中心が１、端にいくに従って０に近くなる分布を持つマップでもよい。この場合には、許容領域内を一律誤検出扱いとしないのではなく、許容マップの値に従って誤検出度合いを付与してもよい。許容領域の値が１に近い部分は誤検出扱いとせず、０に近い部分は弱い誤検出として扱うことで、重み付けマップに強弱をつけることができる。この構成では、許容領域の中央付近と比較して、許容領域の端の部分への検出を相対的に抑制することができる。

【0091】

また、上述の実施形態では、重み付けマップを生成した上で重み付けをおこなう構成としたが、これに限らず、重み付けマップを生成せずに、損失の計算時に直接重みを計算してもよい。

【0092】

また、上記の生成部１０３、推論部１０４、生成部１０５、損失計算部１０６、更新部１０７の各機能部はハードウェアで実装しても良い。その場合、このハードウェアは処理回路として上記のコンピュータ装置に組み込んでも良いし、動画像若しくは静止画像を撮影する撮影装置に組み込んでも良く、その組み込み先は特定のデバイスに限らない。また、これらの機能部の一部をハードウェアやソフトウェアで実装するようにしても良い。

【0093】

また、上記の各実施形態で使用した数値、処理タイミング、処理順、データ（情報）の構成／送信先／送信元などは、具体的な説明を行うために一例として挙げたものであり、このような一例に限定することを意図したものではない。

【0094】

また、以上説明した各実施形態や変形例の一部若しくは全部を適宜組み合わせて使用しても構わない。また、以上説明した各実施形態や変形例の一部若しくは全部を選択的に使用しても構わない。

【0095】

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

【0096】

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。

【符号の説明】

【0097】

１０１：ＣＰＵ１０２：ＲＯＭ１０３：生成部１０４：推論部１０５：生成部１０６：損失計算部１０７：更新部１０８：ＲＡＭ１０９：記憶部１１０：入力部１１１：表示部１１２：通信部

【図1】