特開2024-16546 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2024-16546推論プログラム、推論方法および情報処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024016546

(43)【公開日】2024-02-07

(54)【発明の名称】推論プログラム、推論方法および情報処理装置

(51)【国際特許分類】

G06V 10/70 20220101AFI20240131BHJP

G06T 7/00 20170101ALI20240131BHJP

G06N 20/00 20190101ALI20240131BHJP

【ＦＩ】

G06V10/70

G06T7/00 350B

G06N20/00

【審査請求】未請求

【請求項の数】6

【出願形態】ＯＬ

(21)【出願番号】P 2022118759

(22)【出願日】2022-07-26

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110002918

【氏名又は名称】弁理士法人扶桑国際特許事務所

(72)【発明者】

【氏名】中尾鷹詔

(72)【発明者】

【氏名】雷旭穎

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096FA02

5L096JA11

5L096JA16

5L096KA04

(57)【要約】

【課題】異なる画像領域に対して推論処理を行う複数の機械学習モデルの計算量を削減する。
【解決手段】情報処理装置１０は、異なる第１の座標が付与された複数の画素を含む画像データ１３から生成された、異なる第２の座標が付与された複数の特徴量を含む特徴データ１４を取得する。情報処理装置１０は、特徴データ１４を機械学習モデル１５に入力して、画像データ１３の中の画像領域１６を示す第１の推論結果を生成する。情報処理装置１０は、第１の座標と第２の座標との対応関係を示す座標対応情報１７に基づいて、特徴データ１４から、画像領域１６に対応する特徴データ１８を生成する。情報処理装置１０は、特徴データ１８を機械学習モデル１９に入力して、画像領域１６に対する第２の推論結果を生成する。
【選択図】図１

【特許請求の範囲】

【請求項1】

異なる第１の座標が付与された複数の画素を含む画像データから生成された、異なる第２の座標が付与された複数の特徴量を含む第１の特徴データを取得し、
前記第１の特徴データを第１の機械学習モデルに入力して、前記画像データの中の一部の画像領域を示す第１の推論結果を生成し、
前記異なる第１の座標と前記異なる第２の座標との対応関係を示す座標対応情報に基づいて、前記第１の特徴データから、前記第１の推論結果が示す前記一部の画像領域に対応する第２の特徴データを生成し、
前記第２の特徴データを第２の機械学習モデルに入力して、前記一部の画像領域に対する第２の推論結果を生成する、
処理をコンピュータに実行させる推論プログラム。

【請求項2】

前記第１の特徴データは、前記画像データを第３の機械学習モデルに入力することで生成される、
請求項１記載の推論プログラム。

【請求項3】

前記第２の特徴データは、前記第１の特徴データの中から、前記一部の画像領域に対応する第２の座標が付与された特徴量を抽出することで生成される、
請求項１記載の推論プログラム。

【請求項4】

前記第１の機械学習モデルは、前記画像データの中から検出対象のオブジェクトを含む画像領域を推論し、前記第２の機械学習モデルは、前記オブジェクトの状態を推論する、
請求項１記載の推論プログラム。

【請求項5】

【請求項6】

画像データに含まれる複数の画素に付与される異なる第１の座標と、前記画像データから生成される第１の特徴データに含まれる複数の特徴量に付与される異なる第２の座標との対応関係を示す座標対応情報を記憶する記憶部と、
前記第１の特徴データを取得し、前記第１の特徴データを第１の機械学習モデルに入力して、前記画像データの中の一部の画像領域を示す第１の推論結果を生成し、前記座標対応情報に基づいて、前記第１の特徴データから、前記第１の推論結果が示す前記一部の画像領域に対応する第２の特徴データを生成し、前記第２の特徴データを第２の機械学習モデルに入力して、前記一部の画像領域に対する第２の推論結果を生成する処理部と、
を有する情報処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は推論プログラム、推論方法および情報処理装置に関する。

【背景技術】

【0002】

情報処理装置は、機械学習モデルを用いて画像認識を行うことがある。機械学習モデルは、例えば、深層学習によって訓練されるニューラルネットワークである。ある機械学習モデルは、画像データを受け付け、受け付けた画像データを複数の特徴量を含む特徴データに変換し、特徴データに基づいて、画像データの中で特定のオブジェクトを含む画像領域を推論することがある。また、ある機械学習モデルは、オブジェクトを含む画像データを受け付け、受け付けた画像データを複数の特徴量を含む特徴データに変換し、特徴データに基づいて、オブジェクトのクラスを推論することがある。

【0003】

なお、入力された画像データから特徴量を抽出する特徴量抽出器と、抽出された特徴量を物体認識用の識別量に変換する識別器とを含む画像認識モデルを、訓練データを用いて半教師あり学習によって訓練する情報処理装置が提案されている。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０１９－２０７５６１号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

情報処理装置は、ある機械学習モデルを用いて、画像データの中の一部の画像領域を特定する推論処理を行い、別の機械学習モデルを用いて、特定された画像領域に対して別の推論処理を行いたいことがある。ここで、推論目的が異なる機械学習モデルであっても、画像データから特徴量を抽出する前半部分に同じモデル構造を含むことがある。

【0006】

しかし、上記の２つの機械学習モデルは、異なる画像領域の画像データを処理する。このため、先の推論処理で生成された特徴データをそのままでは後の推論処理に流用することができず、２つの機械学習モデルが画像データからの特徴量の抽出を重複して行うことになる。そこで、１つの側面では、本発明は、異なる画像領域に対して推論処理を行う複数の機械学習モデルの計算量を削減することを目的とする。

【課題を解決するための手段】

【0007】

１つの態様では、コンピュータに以下の処理を実行させる推論プログラムが提供される。異なる第１の座標が付与された複数の画素を含む画像データから生成された、異なる第２の座標が付与された複数の特徴量を含む第１の特徴データを取得する。第１の特徴データを第１の機械学習モデルに入力して、画像データの中の一部の画像領域を示す第１の推論結果を生成する。異なる第１の座標と異なる第２の座標との対応関係を示す座標対応情報に基づいて、第１の特徴データから、第１の推論結果が示す一部の画像領域に対応する第２の特徴データを生成する。第２の特徴データを第２の機械学習モデルに入力して、一部の画像領域に対する第２の推論結果を生成する。

【0008】

また、１つの態様では、コンピュータが実行する推論方法が提供される。また、１つの態様では、記憶部と処理部とを有する情報処理装置が提供される。

【発明の効果】

【0009】

１つの側面では、異なる画像領域に対して推論処理を行う複数の機械学習モデルの計算量を削減できる。

【図面の簡単な説明】

【0010】

【図1】第１の実施の形態の情報処理装置を説明するための図である。

【図2】第２の実施の形態の情報処理システムの例を示す図である。

【図3】サーバ装置のハードウェア例を示すブロック図である。

【図4】監視カメラの画像データの例を示す図である。

【図5】複数の画像認識モデルの連携例を示す図である。

【図6】前段モデルの共通化例を示す図である。

【図7】座標変換関数の例を示す図である。

【図8】プーリング層のデータ変換例を示す図である。

【図9】畳み込み層のデータ変換例を示す図である。

【図10】画像ブロックの並び替え例を示す図である。

【図11】前段モデルの構造例を示す図である。

【図12】後段モデルの構造例を示す図である。

【図13】サーバ装置の機能例を示すブロック図である。

【図14】機械学習用データの例を示す図である。

【図15】機械学習の手順例を示すフローチャートである。

【図16】画像認識の手順例を示すフローチャートである。

【発明を実施するための形態】

【0011】

以下、本実施の形態を図面を参照して説明する。
［第１の実施の形態］
第１の実施の形態を説明する。

【0012】

図１は、第１の実施の形態の情報処理装置を説明するための図である。
第１の実施の形態の情報処理装置１０は、機械学習モデルを用いて画像認識を行う。情報処理装置１０は、ある機械学習モデルを用いて、画像データの中の一部の画像領域を特定することを含む推論処理を行い、別の機械学習モデルを用いて、特定された画像領域に対して別の推論処理を行う。情報処理装置１０は、クライアント装置でもよいしサーバ装置でもよい。情報処理装置１０が、コンピュータまたは推論装置と呼ばれてもよい。

【0013】

情報処理装置１０は、記憶部１１および処理部１２を有する。記憶部１１は、ＲＡＭ（Random Access Memory）などの揮発性半導体メモリでもよいし、ＨＤＤ（Hard Disk Drive）やフラッシュメモリなどの不揮発性ストレージでもよい。処理部１２は、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＤＳＰ（Digital Signal Processor）などのプロセッサである。ただし、処理部１２が、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などの電子回路を含んでもよい。プロセッサは、例えば、ＲＡＭなどのメモリ（記憶部１１でもよい）に記憶されたプログラムを実行する。プロセッサの集合が、マルチプロセッサまたは単に「プロセッサ」と呼ばれてもよい。

【0014】

記憶部１１は、特徴データ１４および座標対応情報１７を記憶する。特徴データ１４は、画像データ１３から生成される。画像データ１３は、異なる第１の座標が付与された複数の画素を含む。画像データ１３は、例えば、複数の画素が矩形に並んだテンソルデータである。画像データ１３は、奥行き方向に２以上のチャネルを含んでもよい。第１の座標は、例えば、行番号および列番号を含む直交座標系の座標である。画像データ１３は、動画像や監視カメラの画像のように、定期的に発生するものであってもよい。

【0015】

特徴データ１４は、異なる第２の座標が付与された複数の特徴量を含む。特徴データ１４は、例えば、複数の特徴量が矩形に並んだテンソルデータである。特徴データ１４は、奥行き方向に２以上のチャネルを含んでもよい。第２の座標は、例えば、行番号および列番号を含む直交座標系の座標である。特徴データ１４は、画像データ１３の変化に合わせて定期的に生成されるものであってもよい。特徴データ１４は、例えば、機械学習モデルを用いて画像データ１３から生成される。機械学習モデルは、ニューラルネットワークであってもよい。画像データ１３から特徴データ１４への変換は、情報処理装置１０が行ってもよいし他の情報処理装置が行ってもよい。

【0016】

座標対応情報１７は、画像データ１３の画素を識別する第１の座標と、特徴データ１４の特徴量を識別する第２の座標との対応関係を示す。画像データ１３が特徴データ１４より大きい場合、第１の座標と第２の座標との対応関係は多対一であり、１つの第１の座標は２以上の第２の座標と対応付けられない。第１の座標に対応する第２の座標が示す特徴量は、当該第１の座標が示す画素を用いて算出されている。ある特徴量の算出に使用される画素は、画像データ１３に含まれる画素のうちの一部である。ある特徴量の算出に使用される２以上の画素は、画像データ１３で隣接していることが好ましい。

【0017】

ニューラルネットワークが特徴データ１４を生成する場合、ニューラルネットワークは、畳み込み層およびプーリング層を含んでもよい一方、全結合層を含まないことが好ましい。画像データ１３と特徴データ１４とは、相似であることがある。特徴データ１４を生成する機械学習モデルは、画素および特徴量の相対位置を保存することがある。例えば、第１の画素が第２の画素の上側にある場合、第１の画素から算出される第１の特徴量が第２の画素から算出される第２の特徴量より上側にあることがある。また、第１の画素が第２の画素の左側にある場合、第１の特徴量が第２の特徴量より左側にあることがある。その場合、第２の座標は第１の座標を定数倍したものである。

【0018】

ただし、機械学習モデルは、画素または特徴量を並び替えることがある。その場合、第１の座標に対応する第２の座標は、第１の座標を定数倍したものにならないことがある。座標対応情報１７は、ユーザによって作成されてもよいし、機械学習モデルのモデル構造を分析することで自動的に生成されてもよい。座標対応情報１７は、ユーザから情報処理装置１０に入力されてもよいし、他の情報処理装置から受信されてもよい。他の情報処理装置は、特徴データ１４を生成する情報処理装置であってもよい。

【0019】

処理部１２は、特徴データ１４を取得し、特徴データ１４を機械学習モデル１５に入力して第１の推論結果を生成する。機械学習モデル１５は、画像データ１３に対して第１の推論処理を行う機械学習モデルである。機械学習モデル１５は、例えば、訓練データを用いて訓練済みである。機械学習モデル１５の訓練は、情報処理装置１０が行ってもよいし他の情報処理装置が行ってもよい。第１の推論処理に関して、特徴データ１４を生成する機械学習モデルは前段モデルに相当し、機械学習モデル１５は後段モデルに相当する。

【0020】

第１の推論処理は、画像データ１３の中の一部の画像領域である画像領域１６を特定することを含む。第１の推論結果は、画像領域１６を少なくとも示す。例えば、機械学習モデル１５は、画像データ１３の中から特定の種類のオブジェクトを含む画像領域を検出する。機械学習モデル１５は、畳み込みニューラルネットワークであってもよい。

【0021】

処理部１２は、座標対応情報１７に基づいて、特徴データ１４から、第１の推論結果が示す画像領域１６に対応する特徴データ１８を生成する。例えば、処理部１２は、画像領域１６に含まれる画素に付与された第１の座標に対応する第２の座標を特定し、特定した第２の座標が付与された特徴量を特徴データ１４から抽出する。特徴データ１８は、例えば、特徴データ１４から抽出された特徴量が矩形に並んだテンソルデータである。特徴データ１８は、特徴データ１４の一部領域を切り出したものであってもよい。特徴データ１８は、奥行き方向に２以上のチャネルを含んでもよい。ただし、処理部１２は、機械学習モデル１９の入力に合うように特徴データ１８を加工してもよい。

【0022】

処理部１２は、特徴データ１８を機械学習モデル１９に入力して第２の推論結果を生成する。機械学習モデル１９は、画像領域１６に対して第２の推論処理を行う機械学習モデルである。機械学習モデル１９は、例えば、訓練データを用いて訓練済みである。機械学習モデル１９の訓練は、情報処理装置１０が行ってもよいし他の情報処理装置が行ってもよい。第２の推論処理に関して、特徴データ１４を生成する機械学習モデルは前段モデルに相当し、機械学習モデル１９は後段モデルに相当する。この場合、第１の推論処理と第２推論処理とは、前段モデルを共有して特徴データ１４を再利用していることになる。

【0023】

第２の推論処理は、画像データ１３の一部である画像領域１６に対して行われる。第２の推論結果は、第２の推論処理の結果を示す。例えば、機械学習モデル１９は、画像領域１６に含まれるオブジェクトの状態を判定する。例えば、機械学習モデル１５が画像データ１３の中から人を含む画像領域を検出し、機械学習モデル１９が人の姿勢を判定する。機械学習モデル１９は、畳み込みニューラルネットワークであってもよい。処理部１２は、第２の推論結果を出力する。処理部１２は、第２の推論結果を不揮発性ストレージに保存してもよいし、表示装置に表示してもよいし、他の情報処理装置に送信してもよい。

【0024】

以上説明したように、第１の実施の形態の情報処理装置１０は、画像データ１３から生成された特徴データ１４を機械学習モデル１５に入力し、画像データ１３の中の画像領域１６を示す第１の推論結果を生成する。情報処理装置１０は、画像データ１３の座標と特徴データ１４の座標との対応関係を示す座標対応情報１７に基づいて、特徴データ１４から画像領域１６に対応する特徴データ１８を生成する。情報処理装置１０は、特徴データ１８を機械学習モデル１９に入力し、画像領域１６に対する第２の推論結果を生成する。

【0025】

これにより、画像データ１３に対して、異なる推論目的の推論処理が実行される。また、第２の推論処理では、座標対応情報１７を参照することで、第１の推論処理で使用した特徴データ１４の一部が再利用され、画像領域１６から特徴データ１８を生成する特徴抽出が省略される。これにより、異なる画像領域を対象とする複数の推論処理の計算量が削減され、情報処理装置１０の負荷が低下する。

【0026】

なお、特徴データ１４は、画像データ１３を機械学習モデルに入力することで生成されてもよい。これにより、第１の推論処理と第２の推論処理とで、特徴抽出を行う前段の機械学習モデルが共有され、重複した特徴抽出が抑制される。また、特徴データ１８は、特徴データ１４の中から、画像領域１６に対応する第２の座標が付与された特徴量を抽出することで生成されてもよい。これにより、画像領域１６に対して特徴抽出を行った場合に算出される特徴量が効率的に再現される。

【0027】

また、機械学習モデル１５は、検出対象のオブジェクトを含む画像領域を推論するものであってもよく、機械学習モデル１５は、検出されたオブジェクトの状態を推論するものであってもよい。これにより、機械学習モデル１５，１９を連携させて、画像データ１３に対して、異なる推論目的の推論処理が効率的に実行される。

【0028】

［第２の実施の形態］
次に、第２の実施の形態を説明する。
図２は、第２の実施の形態の情報処理システムの例を示す図である。

【0029】

第２の実施の形態の情報処理システムは、監視カメラ３１の画像を分析して不審人物を検出する。情報処理システムは、監視カメラ３１、エッジサーバ３２およびクラウドサーバ３３，３４を含む。監視カメラ３１とエッジサーバ３２とは、ＬＡＮ（Local Area Network）または広域ネットワークを介して通信する。エッジサーバ３２とクラウドサーバ３３，３４とは、インターネットなどの広域ネットワークを介して通信する。クラウドサーバ３３は、第１の実施の形態の情報処理装置１０に対応する。

【0030】

監視カメラ３１は、一定のフレームレートで画像データを生成する撮像装置である。監視カメラ３１は、例えば、街路に設定されている。監視カメラ３１は、ネットワークを介してエッジサーバ３２に継続的に画像データを送信する。

【0031】

エッジサーバ３２は、クラウドサーバ３３，３４と比べて監視カメラ３１の近くに設置されたサーバコンピュータである。エッジサーバ３２は、監視カメラ３１から継続的に画像データを受信する。エッジサーバ３２は、受信した画像データに対して、後述するような前段処理を実行し、前段処理の結果をネットワークを介してクラウドサーバ３３に送信する。なお、エッジサーバ３２は、前段処理の結果をクラウドサーバ３４に送信してもよく、クラウドサーバ３３，３４を並列に使用してもよい。

【0032】

クラウドサーバ３３，３４は、エッジサーバ３２と比べて監視カメラ３１から遠くに設置されたサーバコンピュータである。クラウドサーバ３３，３４は、エッジサーバ３２よりも高い演算能力をもつ。クラウドサーバ３３，３４は、いわゆるクラウドシステムに含まれる計算資源であり、データセンタに設置されていてもよい。クラウドサーバ３３，３４は、異なる場所に設置されていてもよく、異なるクラウドシステムに属してもよい。

【0033】

クラウドサーバ３３は、エッジサーバ３２から前段処理の結果を継続的に受信する。クラウドサーバ３３は、受信した前段処理の結果に対して、後述するような後段処理を実行する。後段処理は、画像データの中から人を検出する処理と、検出された人の姿勢を予測する処理とを含む。クラウドサーバ３３は、後段処理の結果を出力する。例えば、クラウドサーバ３３は、不審な動きをする人が検出された場合、オペレータが使用するクライアントコンピュータに対して、不審人物が検出された旨を通知する。

【0034】

クラウドサーバ３４は、クラウドサーバ３３と同様にエッジサーバ３２から前段処理の結果を受信してもよく、クラウドサーバ３３と異なる目的の後段処理をクラウドサーバ３３と並列に実行してもよい。ただし、後述するように、クラウドサーバ３４は、前段処理および後段処理に使用される機械学習モデルを訓練するために用いられてもよい。

【0035】

図３は、サーバ装置のハードウェア例を示すブロック図である。
クラウドサーバ３３は、ＣＰＵ１０１、ＲＡＭ１０２、ＨＤＤ１０３、ＧＰＵ１０４、入力インタフェース１０５、媒体リーダ１０６および通信インタフェース１０７を有する。これらのハードウェアユニットは、バスに接続されている。ＣＰＵ１０１は、第１の実施の形態の処理部１２に対応する。ＲＡＭ１０２またはＨＤＤ１０３は、第１の実施の形態の記憶部１１に対応する。エッジサーバ３２およびクラウドサーバ３４が、クラウドサーバ３３と同様のハードウェアを有してもよい。

【0036】

ＣＰＵ１０１は、プログラムの命令を実行するプロセッサである。ＣＰＵ１０１は、ＨＤＤ１０３に記憶されたプログラムおよびデータをＲＡＭ１０２にロードし、プログラムを実行する。クラウドサーバ３３は、複数のプロセッサを有してもよい。

【0037】

ＲＡＭ１０２は、ＣＰＵ１０１で実行されるプログラムおよびＣＰＵ１０１で演算に使用されるデータを一時的に記憶する揮発性半導体メモリである。クラウドサーバ３３は、ＲＡＭ以外の種類の揮発性メモリを有してもよい。

【0038】

ＨＤＤ１０３は、オペレーティングシステム（ＯＳ：Operating System）やミドルウェアやアプリケーションソフトウェアなどのソフトウェアのプログラムと、データとを記憶する不揮発性ストレージである。クラウドサーバ３３は、フラッシュメモリやＳＳＤ（Solid State Drive）などの他の種類の不揮発性ストレージを有してもよい。

【0039】

ＧＰＵ１０４は、ＣＰＵ１０１と連携して画像処理を行い、クラウドサーバ３３に接続された表示装置１１１に画像を出力する。表示装置１１１は、例えば、ＣＲＴ（Cathode Ray Tube）ディスプレイ、液晶ディスプレイ、有機ＥＬ（Electro Luminescence）ディスプレイまたはプロジェクタである。クラウドサーバ３３に、プリンタなどの他の種類の出力デバイスが接続されてもよい。また、ＧＰＵ１０４は、ＧＰＧＰＵ（General Purpose Computing on Graphics Processing Unit）として使用されてもよい。ＧＰＵ１０４は、ＣＰＵ１０１からの指示に応じてプログラムを実行し得る。クラウドサーバ３３は、ＲＡＭ１０２以外の揮発性半導体メモリをＧＰＵメモリとして有してもよい。

【0040】

入力インタフェース１０５は、クラウドサーバ３３に接続された入力デバイス１１２から入力信号を受け付ける。入力デバイス１１２は、例えば、マウス、タッチパネルまたはキーボードである。クラウドサーバ３３に複数の入力デバイスが接続されてもよい。

【0041】

媒体リーダ１０６は、記録媒体１１３に記録されたプログラムおよびデータを読み取る読み取り装置である。記録媒体１１３は、例えば、磁気ディスク、光ディスクまたは半導体メモリである。磁気ディスクには、フレキシブルディスク（ＦＤ：Flexible Disk）およびＨＤＤが含まれる。光ディスクには、ＣＤ（Compact Disc）およびＤＶＤ（Digital Versatile Disc）が含まれる。媒体リーダ１０６は、記録媒体１１３から読み取られたプログラムおよびデータを、ＲＡＭ１０２やＨＤＤ１０３などの他の記録媒体にコピーする。読み取られたプログラムは、ＣＰＵ１０１によって実行されることがある。

【0042】

記録媒体１１３は、可搬型記録媒体であってもよい。記録媒体１１３は、プログラムおよびデータの配布に用いられることがある。また、記録媒体１１３およびＨＤＤ１０３が、コンピュータ読み取り可能な記録媒体と呼ばれてもよい。

【0043】

通信インタフェース１０７は、ネットワーク３０を介してエッジサーバ３２と通信する。通信インタフェース１０７は、スイッチやルータなどの有線通信装置に接続される有線通信インタフェースでもよいし、基地局やアクセスポイントなどの無線通信装置に接続される無線通信インタフェースでもよい。

【0044】

次に、機械学習モデルを用いた人検出および姿勢予測について説明する。
図４は、監視カメラの画像データの例を示す図である。
監視カメラ３１は、画像データ４１のような画像データをエッジサーバ３２に継続的に送信する。画像データ４１は、チャネル数が１のモノクロ画像でもよいし、チャネル数が３のカラー画像でもよい。監視カメラ３１は、固定点から街路を撮像している。画像データ４１の中央の画像領域には、ランニングする人が写っている。このように、監視カメラ３１が生成する画像データの中の一部の画像領域に、人が含まれることがある。

【0045】

クラウドサーバ３３は、機械学習モデルを用いて、画像データの中から人を含む画像領域を特定する人検出を行う。また、クラウドサーバ３３は、人検出とは異なる機械学習モデルを用いて、特定された画像領域に含まれる人の姿勢を予測する姿勢予測を行う。姿勢のクラスには、例えば、立つ、歩く、走る、座る、しゃがむなどが含まれる。次に、上記の２つの機械学習モデルのシンプルな実装例について説明する。

【0046】

図５は、複数の画像認識モデルの連携例を示す図である。
画像認識モデル５１は、人検出のための機械学習モデルである。画像認識モデル５２は、姿勢予測のための機械学習モデルである。画像認識モデル５１，５２は、畳み込み層やプーリング層を含む畳み込みニューラルネットワークである。

【0047】

画像認識モデル５１は、画像データ４１を受け付ける。画像認識モデル５１は、画像データ４１を処理して位置情報４２を出力する。位置情報４２は、画像データ４１のうち人を含む１以上の画像領域を示す。例えば、位置情報４２は、画像領域を示す矩形の境界ボックス（バウンディングボックス）の左上の座標および右下の座標を含む。

【0048】

画像認識モデル５１は、前段モデル５３および後段モデル５４を含む。前段モデル５３は、画像データ４１に含まれる画素値から特徴量を算出し、算出された特徴量が格子状に並んだ特徴マップを生成する。後段モデル５４は、前段モデル５３が生成した特徴マップに基づいて、人を含む画像領域を検出する。例えば、後段モデル５４は、複数の境界ボックスの候補それぞれに対して人が含まれる確率を算出し、確率が閾値を超える境界ボックスの座標を位置情報４２として出力する。

【0049】

位置情報４２が生成されると、位置情報４２が示す画像領域を画像データ４１から抽出することで、人を含む部分画像データ４３が生成される。画像認識モデル５２は、部分画像データ４３を受け付ける。画像認識モデル５２は、部分画像データ４３を処理して姿勢情報４４を生成する。姿勢情報４４は、部分画像データ４３に含まれる人の姿勢を示す。例えば、姿勢情報４４は、複数の姿勢クラスそれぞれの確率を含む。また、例えば、姿勢情報４４は、確率が最も高い姿勢クラスおよびその確率を含む。

【0050】

画像認識モデル５２は、前段モデル５５および後段モデル５６を含む。前段モデル５５は、部分画像データ４３に含まれる画素値から特徴量を算出し、算出された特徴量が格子状に並んだ特徴マップを生成する。後段モデル５６は、前段モデル５５が生成した特徴マップに基づいて、部分画像データ４３に含まれる人の姿勢を予測する。例えば、後段モデル５６は、複数の姿勢クラスそれぞれの確率を算出し、確率が最も高い姿勢クラスに部分画像データ４３を分類する。姿勢クラスは、立つ、歩く、走る、座る、しゃがむなどの人の姿勢を示す。後段モデル５６は、部分画像データ４３に含まれる頭、手、腕、足、脚などの人のパーツを認識することで、姿勢を予測する。

【0051】

ここで、人検出のための前段モデル５３と姿勢予測のための前段モデル５５は、画素値の集合から特徴量を算出する点で共通しており、同じモデル構造をもつことがある。部分画像データ４３は画像データ４１の一部分であるため、前段モデル５５と同様の特徴抽出が、前段モデル５３の中でも行われていることがある。しかし、前段モデル５３と前段モデル５５は、処理対象の画像領域が異なるため異なる特徴マップを出力する。そのため、後段モデル５６は、前段モデル５３の出力をそのままでは再利用できない。

【0052】

そこで、第２の実施の形態の情報処理システムは、座標変換関数を用いて、前段モデル５３が生成する特徴マップを、後段モデル５６に入力される特徴マップに変換する。情報処理システムは、前段モデル５３，５５を共通化し、人検出で生成された特徴マップを姿勢予測で再利用する。これにより、前段モデル５５による特徴抽出が省略される。

【0053】

図６は、前段モデルの共通化例を示す図である。
前段モデル６１は、人検出および姿勢予測に共通に使用される特徴抽出のための機械学習モデルである。前段モデル６１は、畳み込み層やプーリング層を含む畳み込みニューラルネットワークである。ただし、前段モデル６１は、画素または特徴量の隣接関係の情報が失われる全結合層を含まない。前段モデル６１は、画像データ４１を受け付ける。画像データ４１のサイズは、例えば、３００行×４５０行である。画像データ４１の画素は、行番号および列番号を含む直交座標系の座標で識別される。

【0054】

前段モデル６１は、画像データ４１を処理して特徴マップ４５を生成する。特徴マップ４５は、特徴量が格子状に並べられたテンソルであり、奥行き方向に複数のチャネルを含んでもよい。特徴マップ４５の特徴量は、行番号および列番号を含む直交座標系の座標で識別される。通常、特徴マップ４５のサイズは画像データ４１よりも小さい。前段モデル６１は、前述の前段モデル５３，５５に相当する。

【0055】

後段モデル６２は、人検出のための機械学習モデルである。後段モデル６２はニューラルネットワークであり、畳み込み層やプーリング層を含む畳み込みニューラルネットワークであってもよい。後段モデル６２は、特徴量の隣接関係の情報が失われる全結合層を含んでもよい。後段モデル６２は、特徴マップ４５から位置情報４２を生成する。後段モデル６２は、前述の後段モデル５４に相当する。

【0056】

位置情報４２が生成されると、座標変換関数に基づいて、位置情報４２が示す画像領域に対応する特徴量が特徴マップ４５から抽出されて部分特徴マップ４６が生成される。座標変換関数は、前段モデル６１のモデル構造を考慮して作成されており、画像データ４１の座標と特徴マップ４５の座標との対応関係を示す。ただし、後段モデル６３の入力に合わせて、部分特徴マップ４６が加工されてもよい。例えば、後段モデル６３の入力サイズに合わせて、部分特徴マップ４６が拡大または縮小される。

【0057】

後段モデル６３は、姿勢予測のための機械学習モデルである。後段モデル６３はニューラルネットワークであり、畳み込みニューラルネットワークであってもよい。後段モデル６３は、全結合層を含んでもよい。後段モデル６３は、後段モデル６２と同じモデル構造を含んでもよいし、後段モデル６２と異なるモデル構造を含んでもよい。ただし、推論目的が異なるため、後段モデル６２，６３は個別に訓練され、異なるパラメータ値を含む。後段モデル６３は、部分特徴マップ４６から姿勢情報４４を生成する。後段モデル６３は、前述の後段モデル５６に相当する。

【0058】

第２の実施の形態では、前段モデル６１はエッジサーバ３２によって実行され、後段モデル６２，６３はクラウドサーバ３３によって実行される。よって、エッジサーバ３２からクラウドサーバ３３に特徴マップ４５が送信される。また、座標変換関数はエッジサーバ３２に記憶されており、監視カメラ３１の画像データの処理をクラウドサーバ３３が開始する前にエッジサーバ３２からクラウドサーバ３３に送信される。ただし、前段モデル６１がクラウドサーバ３３によって実行されてもよい。また、後段モデル６２，６３の少なくとも一方がエッジサーバ３２によって実行されてもよい。

【0059】

図７は、座標変換関数の例を示す図である。
座標変換関数４７は、画像データ４１の座標と特徴マップ４５の座標との対応関係を示す。座標変換関数４７は、前段モデル６１のモデル構造を参照してユーザによって作成されて、エッジサーバ３２に保存される。ただし、前段モデル６１のモデル構造に基づいて座標変換関数４７が自動的に生成されてもよい。

【0060】

画像データ４１は、同じ大きさの複数の画像ブロックに分割される。画像ブロックは、一定の個数の画素を含む矩形領域である。特徴マップ４５は、同じ大きさの複数の特徴ブロックに分割される。特徴ブロックは、一定の個数の特徴量を含む矩形領域である。画像ブロックの個数と特徴ブロックの個数は、同じである。座標変換関数４７は、画像データ４１の複数の画像ブロックと特徴マップ４５の複数の特徴ブロックとを、一対一に対応付ける。よって、１つの画像ブロックは２以上の特徴ブロックには対応せず、１つの特徴ブロックは２以上の画像ブロックには対応しない。

【0061】

特徴マップ４５が画像データ４１と相似である場合、特徴マップ４５の高さ方向に並ぶ特徴ブロックの個数は、画像データ４１の高さ方向に並ぶ画像ブロックの個数と同じである。また、特徴マップ４５の幅方向に並ぶ特徴ブロックの個数は、画像データ４１の幅方向に並ぶ画像ブロックの個数と同じである。特徴マップ４５が画像データ４１より小さい場合、特徴ブロックのサイズ、すなわち、特徴ブロック１つに含まれる特徴量の個数は、画像ブロックのサイズ、すなわち、画像ブロック１つに含まれる画素の個数より小さい。

【0062】

画像ブロックの個数および特徴ブロックの個数は、事前に決定される。画像ブロックに含まれる画素の座標は、画像データ４１での当該画像ブロックの位置と画像ブロック１つのサイズとから算出できる。また、特徴ブロックに含まれる特徴量の座標は、特徴マップ４５での当該特徴ブロックの位置と特徴ブロック１つのサイズとから算出できる。

【0063】

前段モデル６１が、画像ブロックまたは特徴ブロックの並べ替えを行わない場合、複数の画像ブロックと複数の特徴ブロックとの間で相互の位置関係が保存される。前段モデル６１が畳み込み層およびプーリング層のみ含む畳み込みニューラルネットワークである場合、このような位置関係が保存される。例えば、特徴マップ４５の左上の特徴ブロックｆ１が、画像データ４１の左上の画像ブロックｂ１と対応する。また、特徴ブロックｆ１の右に隣接する特徴ブロックｆ２が、画像ブロックｂ１の右に隣接する画像ブロックｂ２と対応する。また、特徴ブロックｆ１の下に隣接する特徴ブロックｆ６が、画像ブロックｂ１の下に隣接する画像ブロックｂ６と対応する。

【0064】

ただし、前段モデル６１が、後述するように画像ブロックまたは特徴ブロックの並べ替えを行う場合、上記のような位置関係が保存されないことがある。図７の例では、特徴ブロックｆ１は画像ブロックｂ１０と対応し、特徴ブロックｆ２は画像ブロックｂ１２と対応し、特徴ブロックｆ６は画像ブロックｂ１９と対応する。また、画像ブロックｂ１３は特徴ブロックｆ１７と対応し、画像ブロックｂ１８は特徴ブロックｆ５と対応し、画像ブロックｂ２３は特徴ブロックｆ１０と対応する。

【0065】

クラウドサーバ３３は、画像データ４１からの画像領域の選択を画像ブロック単位で行い、特徴マップ４５からの特徴量の抽出を特徴ブロック単位で行う。クラウドサーバ３３は、後段モデル６２によって境界ボックスが特定されると、画像データ４１の中から、境界ボックスと重なる画像ブロックおよび境界ボックスの内側にある画像ブロックを選択する。クラウドサーバ３３は、座標変換関数４７に基づいて、選択した画像ブロックに対応する特徴ブロックを特定し、特定した特徴ブロックを特徴マップ４５から抽出する。

【0066】

例えば、後段モデル６２は、人を含む画像領域として、画像ブロックｂ１３，ｂ１８，ｂ２３と重なる境界ボックスを特定する。すると、クラウドサーバ３３は、境界ボックスの座標と各画像ブロックの座標とを比較して、画像データ４１から画像ブロックｂ１３，ｂ１８，ｂ２３を選択する。クラウドサーバ３３は、座標変換関数４７を参照して、画像ブロックｂ１３，ｂ１８，ｂ２３に対応する特徴ブロックｆ５，ｆ１０，ｆ１７を特定し、特徴マップ４５から特徴ブロックｆ５，ｆ１０，ｆ１７を抽出する。クラウドサーバ３３は、画像ブロックｂ１３，ｂ１８，ｂ２３の並び方に合わせて特徴ブロックｆ５，ｆ１０，ｆ１７を並べて、部分特徴マップ４６を生成する。

【0067】

次に、座標変換関数４７を作成するにあたって考慮する前段モデル６１のモデル構造について説明する。前段モデル６１は、プーリング層や畳み込み層を含んでもよい。プーリング層や畳み込み層は、特徴マップのテンソル構造を維持する。一方、前段モデル６１は、全結合層を含まない。全結合層は、特徴マップのテンソル構造を失わせる。ただし、前段モデル６１は、画像ブロックまたは特徴ブロックを並べ替える「パッチ化」を行ってもよい。パッチ化が行われない場合、特徴マップ４５は画像データ４１と相似であり、特徴ブロックの相対位置と画像ブロックの相対位置とが一致する。一方、パッチ化が行われる場合、特徴マップ４５は画像データ４１と相似でないことがあり、特徴ブロックの相対位置と画像ブロックの相対位置とが一致しないことがある。

【0068】

図８は、プーリング層のデータ変換例を示す図である。
プーリング層は、特徴マップ７１を特徴マップ７２に変換する。特徴マップ７１は、４×４＝１６個の特徴量を含む。プーリング層は、特徴マップ７１の中の２×２や３×３などの矩形の小領域を、特徴マップ７２の１つの特徴量に変換する。２×２の場合、特徴マップ７２の一辺の長さは特徴マップ７１の２分の１になる。３×３の場合、特徴マップ７２の一辺の長さは特徴マップ７１の３分の１になる。

【0069】

プーリング演算には、最大値プーリングと平均値プーリングとがある。最大値プーリングは、小領域に含まれる特徴量の最大値を選択するプーリング演算である。平均値プーリングは、小領域に含まれる特徴量の平均値を算出するプーリング演算である。図８の例では、プーリング層は２×２の最大値プーリングを行っている。

【0070】

プーリング層は、特徴マップ７１に含まれる座標（０，０），（０，１），（１，０），（１，１）の特徴量の中から最大値を選択し、特徴マップ７２の座標（０，０）の特徴量とする。また、プーリング層は、特徴マップ７１に含まれる座標（０，２），（０，３），（１，２），（１，３）の特徴量の中から最大値を選択し、特徴マップ７２の座標（０，１）の特徴量とする。また、プーリング層は、特徴マップ７１に含まれる座標（２，０），（２，１），（３，０），（３，１）の特徴量の中から最大値を選択し、特徴マップ７２の座標（１，０）の特徴量とする。また、プーリング層は、特徴マップ７１に含まれる座標（２，２），（２，３），（３，２），（３，３）の特徴量の中から最大値を選択し、特徴マップ７２の座標（１，１）の特徴量とする。

【0071】

図９は、畳み込み層のデータ変換例を示す図である。
畳み込み層は、特徴マップ７３を、カーネル７４を用いて特徴マップ７５に変換する。特徴マップ７３は、６×６＝３６個の特徴量を含む。カーネル７４は、３×３や５×５などの係数行列である。カーネル７４に含まれる係数は、機械学習によって訓練されるパラメータである。畳み込み層は、カーネル７４を特徴マップ７３に重ね合わせ、重なった特徴マップ７３の特徴量とカーネル７４の係数との積を算出して合算する積和演算を行う。算出された積和値が、特徴マップ７５の１つの特徴量になる。畳み込み層は、特徴マップ７３上で「ストライド」ずつカーネル７４をシフトしながら積和演算を繰り返す。ストライドは、例えば、１、２または３である。

【0072】

ストライドが１である場合、特徴マップ７５の一辺の長さは、特徴マップ７３の一辺の長さからカーネル７４の一辺の長さを引いて１を足した値である。ただし、畳み込み層は、特徴マップ７３の周囲にパッドを付加するパディングを行うことで、特徴マップ７５のサイズを特徴マップ７３と一致させることがある。ストライドが２である場合、特徴マップ７５の一辺の長さは、特徴マップ７３の約２分の１になる。ストライドが３である場合、特徴マップ７５の一辺の長さは、特徴マップ７３の約３分の１になる。

【0073】

図９の例では、ストライドは１であり、パディングはなしである。例えば、畳み込み層は、特徴マップ７３の座標（０，０），（２，２）で特定される３×３の領域とカーネル７４とから、特徴マップ７５の座標（０，０）の特徴量を算出する。また、畳み込み層は、特徴マップ７３の座標（０，１），（２，３）で特定される３×３の領域とカーネル７４とから、特徴マップ７５の座標（０，１）の特徴量を算出する。また、畳み込み層は、特徴マップ７３の座標（１，０），（３，２）で特定される３×３の領域とカーネル７４とから、特徴マップ７５の座標（１，０）の特徴量を算出する。

【0074】

畳み込み層は、同一の特徴マップに対して異なるカーネルを適用することで、複数のチャネルを含む特徴マップを生成することがある。よって、出力の特徴マップのチャネル数が、入力の特徴マップのチャネル数よりも多いことがある。

【0075】

ＶＧＧ１６（Visual Geometry Group 16）と呼ばれる機械学習モデルは、複数の畳み込み層および複数のプーリング層を含む。ＶＧＧ１６は、最後尾に数個の全結合層を含むものの、それより前には全結合を含まない。そこで、ＶＧＧ１６の全結合層より前の部分を、前段モデル６１として使用することが可能である。

【0076】

図１０は、画像ブロックの並び替え例を示す図である。
ある前段モデルは、複数の画像ブロックまたは複数の特徴ブロックを、一定の方法で並び替えるパッチ化を行うことがある。例えば、前段モデルは、３００×４５０の画像データ７６を、それぞれ１５０×１５０の画像ブロックｂ１，ｂ２，ｂ３，ｂ４，ｂ５，ｂ６に分割する。前段モデルは、画像ブロックｂ１，ｂ２，ｂ３，ｂ４，ｂ５，ｂ６をシーケンシャルに並べることで、１５０×９００の画像データ７７を生成する。前段モデルは、画像データ７７から、畳み込み層やプーリング層などのニューラルネットワークのレイヤを通じて、画像データ７７と相似の特徴マップを生成する。

【0077】

複数の画像ブロックまたは複数の特徴ブロックを並べ替えても、個々の特徴ブロックのテンソル構造は維持され、近接する少数の画素値から１つの特徴量が算出されるという関係が維持される。そのため、１つの特徴ブロックが１つの画像ブロックに対応するという一対一関係が維持される。よって、前段モデルはパッチ化が許容される。

【0078】

ＤＥＴＲ（Detection Transformer）と呼ばれる機械学習モデルは、畳み込みニューラルネットワークが出力する特徴マップを直線化してトランスフォーマエンコーダに入力する。ＤＥＴＲは、平面に並んだｎ×ｍ個の特徴ベクトルを、一直線に並んだ１×ｎｍ個の特徴ベクトルに並び替える。前段モデルは、ＤＥＴＲのように、その内部において複数の特徴ブロックを並び替えることが許容される。

【0079】

次に、前段モデル６１および後段モデル６２，６３の例を説明する。
図１１は、前段モデルの構造例を示す図である。
一例として、ＳＳＤ（Single Shot Multibox Detector）と呼ばれる機械学習モデルの前半を前段モデル６１として使用し、ＳＳＤの後半を後段モデル６２，６３として使用する場合を説明する。前段モデル６１はＳＳＤのベースネットワークに相当し、後段モデル６２，６３はＳＳＤの追加特徴層に相当する。後段モデル６２，６３のモデル構造は同一である。ただし、後段モデル６２は人を検出するように訓練され、後段モデル６３は姿勢を予測するように訓練される。よって、後段モデル６２，６３のパラメータ値は異なる。

【0080】

前段モデル６１は、畳み込み層１４１ａ，１４１ｂ，１４２ａ，１４２ｂ，１４３ａ，１４３ｂ，１４３ｃ，１４４ａ，１４４ｂ，１４４ｃ，１４５ａ，１４５ｂ，１４５ｃ，１４６，１４７を含む。また、前段モデル６１は、最大値プーリング層１４１ｃ，１４２ｃ，１４３ｄ，１４４ｄ，１４５ｄを含む。

【0081】

畳み込み層１４１ａは、画像データ４１を受け付け、畳み込み演算により画像データ４１を特徴マップに変換する。畳み込み層１４１ｂは、畳み込み演算により、畳み込み層１４１ａの特徴マップを別の特徴マップに変換する。最大値プーリング層１４１ｃは、最大値プーリングにより、畳み込み層１４１ｂの特徴マップを別の特徴マップに変換する。畳み込み層１４２ａは、畳み込み演算により、最大値プーリング層１４１ｃの特徴マップを別の特徴マップに変換する。畳み込み層１４２ｂは、畳み込み演算により、畳み込み層１４２ａの特徴マップを別の特徴マップに変換する。最大値プーリング層１４２ｃは、最大値プーリングにより、畳み込み層１４２ｂの特徴マップを別の特徴マップに変換する。

【0082】

畳み込み層１４３ａは、畳み込み演算により、最大値プーリング層１４２ｃの特徴マップを別の特徴マップに変換する。畳み込み層１４３ｂは、畳み込み演算により、畳み込み層１４３ａの特徴マップを別の特徴マップに変換する。畳み込み層１４３ｃは、畳み込み演算により、畳み込み層１４３ｂの特徴マップを別の特徴マップに変換する。最大値プーリング層１４３ｄは、最大値プーリングにより、畳み込み層１４３ｃの特徴マップを別の特徴マップに変換する。

【0083】

畳み込み層１４４ａは、畳み込み演算により、最大値プーリング層１４３ｄの特徴マップを別の特徴マップに変換する。畳み込み層１４４ｂは、畳み込み演算により、畳み込み層１４４ａの特徴マップを別の特徴マップに変換する。畳み込み層１４４ｃは、畳み込み演算により、畳み込み層１４４ｂの特徴マップを別の特徴マップに変換する。畳み込み層１４４ｃは、３８×３８の特徴マップを出力する。最大値プーリング層１４４ｄは、最大値プーリングにより、畳み込み層１４４ｃの特徴マップを別の特徴マップに変換する。

【0084】

畳み込み層１４５ａは、畳み込み演算により、最大値プーリング層１４４ｄの特徴マップを別の特徴マップに変換する。畳み込み層１４５ｂは、畳み込み演算により、畳み込み層１４５ａの特徴マップを別の特徴マップに変換する。畳み込み層１４５ｃは、畳み込み演算により、畳み込み層１４５ｂの特徴マップを別の特徴マップに変換する。最大値プーリング層１４５ｄは、最大値プーリングにより、畳み込み層１４５ｃの特徴マップを別の特徴マップに変換する。

【0085】

畳み込み層１４６は、畳み込み演算により、最大値プーリング層１４５ｄの特徴マップを別の特徴マップに変換する。畳み込み層１４７は、畳み込み演算により、畳み込み層１４６の特徴マップを別の特徴マップに変換する。畳み込み層１４７は、１９×１９の特徴マップを出力する。前段モデル６１は、畳み込み層１４４ｃが生成する３８×３８の特徴マップと、畳み込み層１４７が生成する１９×１９の特徴マップとを出力する。

【0086】

図１２は、後段モデルの構造例を示す図である。
後段モデル６２は、畳み込み層１４８ａ，１４８ｂ，１４９ａ，１４９ｂ，１５０ａ，１５０ｂ，１５１ａ，１５１ｂおよびクラス判定部１５２を含む。後段モデル６２は、これら畳み込み層の間に１以上のプーリング層を含んでもよい。後段モデル６３のモデル構造が、後段モデル６２と同じであってもよい。

【0087】

畳み込み層１４８ａは、畳み込み層１４７が出力した特徴マップを受け付け、畳み込み演算により当該特徴マップを別の特徴マップに変換する。ただし、後段モデル６３には、畳み込み層１４７が出力した特徴マップの一部分が入力される。畳み込み層１４８ｂは、畳み込み演算により、畳み込み層１４８ａの特徴マップを別の特徴マップに変換する。畳み込み層１４８ｂは、１０×１０の特徴マップを出力する。畳み込み層１４９ａは、畳み込み演算により、畳み込み層１４８ｂの特徴マップを別の特徴マップに変換する。畳み込み層１４９ｂは、畳み込み演算により、畳み込み層１４９ａの特徴マップを別の特徴マップに変換する。畳み込み層１４９ｂは、５×５の特徴マップを出力する。

【0088】

畳み込み層１５０ａは、畳み込み演算により、畳み込み層１４９ｂの特徴マップを別の特徴マップに変換する。畳み込み層１５０ｂは、畳み込み演算により畳み込み層１５０ａの特徴マップを別の特徴マップに変換する。畳み込み層１５０ｂは、３×３の特徴マップを出力する。畳み込み層１５１ａは、畳み込み演算により、畳み込み層１５０ｂの特徴マップを別の特徴マップに変換する。畳み込み層１５１ｂは、畳み込み演算により、畳み込み層１５１ａの特徴マップを別の特徴マップに変換する。畳み込み層１５１ｂは、１×１の特徴マップを出力する。

【0089】

クラス判定部１５２は、畳み込み層１４４ｃ，１４７，１４８ｂ，１４９ｂ，１５０ｂ，１５１ｂが出力した異なるサイズの特徴マップを取得する。ただし、後段モデル６３には、畳み込み層１４４ｃ，１４７が出力した特徴マップの一部分が入力される。クラス判定部１５２は、取得した特徴マップを用いて、複数のクラスそれぞれの確率を算出する。クラス判定部１５２は、１以上の全結合層を含んでもよい。

【0090】

後段モデル６２の場合、クラス判定部１５２は、サイズの異なる複数の境界ボックスの候補それぞれに対して確率を算出する。これにより、例えば、確率が閾値を超える境界ボックスが人を囲む境界ボックスと判断され、その境界ボックスの座標が出力される。後段モデル６３の場合、クラス判定部１５２は、複数の姿勢の候補それぞれに対して確率を算出する。これにより、例えば、確率が閾値を超える姿勢が選択される。

【0091】

前段モデル６１および後段モデル６２，６３は、訓練データを用いて機械学習によって訓練される。以下の説明では、クラウドサーバ３４が機械学習を行い、前段モデル６１をエッジサーバ３２に配置し、後段モデル６２，６３をクラウドサーバ３３に配置するものと仮定する。他の情報処理装置が機械学習を行ってもよい。

【0092】

クラウドサーバ３４は、画像データと正解の境界ボックスを示す位置情報と正解の姿勢を示す姿勢情報とを、複数組取得する。画像データは入力データに相当し、位置情報および姿勢情報は教師データに相当する。クラウドサーバ３４は、まず前段モデル６１および後段モデル６２をチューニングし、その後に後段モデル６３をチューニングする。

【0093】

クラウドサーバ３４は、画像データを前段モデル６１に入力して特徴マップを生成し、その特徴マップを後段モデル６２に入力して位置情報を推論する。クラウドサーバ３４は、推論された位置情報と正解の位置情報との誤差を算出し、誤差逆伝播法により、前段モデル６１および後段モデル６２に含まれるパラメータ値を更新する。クラウドサーバ３４は、画像データの入力とパラメータ値の更新を繰り返し、前段モデル６１および後段モデル６２のパラメータ値を最適化する。これにより、前段モデル６１および後段モデル６２が、画像データの中から人を含む画像領域を検出するようにチューニングされる。

【0094】

次に、クラウドサーバ３４は、訓練済みの前段モデル６１に画像データを入力して特徴マップを生成する。クラウドサーバ３４は、その特徴マップを後段モデル６３に入力して姿勢情報を推論する。クラウドサーバ３４は、推論された姿勢情報と正解の姿勢情報との誤差を算出し、誤差逆伝播法により、後段モデル６３に含まれるパラメータ値を更新する。クラウドサーバ３４は、特徴マップの入力とパラメータ値の更新を繰り返し、後段モデル６３のパラメータ値を最適化する。これにより、訓練済みの前段モデル６１の出力を前提として、後段モデル６３が人の姿勢を予測するようにチューニングされる。ただし、上記の機械学習の手順は一例であり、他の手順によって機械学習を行ってもよい。

【0095】

次に、エッジサーバ３２およびクラウドサーバ３３，３４の機能について説明する。
図１３は、サーバ装置の機能例を示すブロック図である。
エッジサーバ３２は、モデル記憶部１２１、関数記憶部１２２、関数送信部１３１、画像受信部１３２および特徴抽出部１３３を有する。モデル記憶部１２１および関数記憶部１２２は、例えば、ＲＡＭまたはＨＤＤを用いて実装される。関数送信部１３１、画像受信部１３２および特徴抽出部１３３は、例えば、ＣＰＵまたはＧＰＵとプログラムと通信インタフェースとを用いて実装される。

【0096】

モデル記憶部１２１は、訓練済みの前段モデル６１を記憶する。前段モデル６１は、ユーザによりエッジサーバ３２に保存されてもよく、他の情報処理装置から転送されてもよい。関数記憶部１２２は、座標変換関数４７を記憶する。座標変換関数４７は、ユーザによりエッジサーバ３２に保存されてもよく、他の情報処理装置から転送されてもよい。

【0097】

関数送信部１３１は、監視カメラ３１の画像データの分析に使用されるクラウドサーバが決定されると、画像データの分析を開始する前に、関数記憶部１２２に記憶された座標変換関数４７を決定されたクラウドサーバに送信する。ここでは、関数送信部１３１は、座標変換関数４７をクラウドサーバ３３に送信する。

【0098】

画像受信部１３２は、監視カメラ３１から画像データを継続的に受信する。例えば、画像受信部１３２は、一定のフレームレートで監視カメラ３１から画像フレームを受信する。特徴抽出部１３３は、画像受信部１３２が受信した画像データを、モデル記憶部１２１に記憶された前段モデル６１に入力し、特徴マップを生成する。特徴抽出部１３３は、生成された特徴マップをクラウドサーバ３３に送信する。

【0099】

クラウドサーバ３３は、モデル記憶部１２３、関数受信部１３４、特徴受信部１３５、入力データ生成部１３６および推論部１３７を有する。モデル記憶部１２３は、例えば、ＲＡＭ１０２またはＨＤＤ１０３を用いて実装される。関数受信部１３４、特徴受信部１３５、入力データ生成部１３６および推論部１３７は、例えば、ＣＰＵまたはＧＰＵとプログラムと通信インタフェースとを用いて実装される。

【0100】

モデル記憶部１２３は、訓練済みの後段モデル６２，６３を記憶する。後段モデル６２，６３は、ユーザによりクラウドサーバ３３に保存されてもよく、他の情報処理装置からクラウドサーバ３３に転送されてもよい。

【0101】

関数受信部１３４は、画像データの分析の開始前に、エッジサーバ３２から座標変換関数４７を受信する。関数受信部１３４は、受信した座標変換関数４７を、ＲＡＭ１０２などの揮発性メモリまたはＨＤＤ１０３などの不揮発性ストレージに保存する。特徴受信部１３５は、エッジサーバ３２から特徴マップを継続的に受信する。例えば、特徴受信部１３５は、一定のフレームレートで画像フレームに対応する特徴マップを受信する。

【0102】

入力データ生成部１３６は、特徴受信部１３５が受信した特徴マップから、後段モデル６２，６３それぞれに入力される入力データを生成する。後段モデル６２に入力される入力データは、エッジサーバ３２から受信された特徴マップそのものである。後段モデル６３に入力される入力データは、エッジサーバ３２から受信された特徴マップのうち、後段モデル６２が検出した画像領域を包含する画像ブロックに対応する特徴ブロックである。人を含む画像領域を包含する画像ブロックに対応する特徴ブロックは、関数受信部１３４が受信した座標変換関数４７を用いて特定される。

【0103】

推論部１３７は、モデル記憶部１２３に記憶された後段モデル６２，６３を用いて、人検出および姿勢判定をそれぞれ実行する。推論部１３７は、入力データ生成部１３６が生成した入力データを後段モデル６２に入力し、人を含む画像領域を示す位置情報４２を生成する。位置情報４２が生成された後、推論部１３７は、入力データ生成部１３６が生成した入力データを後段モデル６３に入力し、人の姿勢を示す姿勢情報４４を生成する。推論部１３７は、位置情報４２および姿勢情報４４を出力する。推論部１３７は、位置情報４２および姿勢情報４４を不揮発性ストレージに保存してもよいし、表示装置１１１に表示してもよいし、他の情報処理装置に送信してもよい。

【0104】

クラウドサーバ３４は、訓練データ記憶部１２４およびモデル訓練部１３８を有する。訓練データ記憶部１２４は、例えば、ＲＡＭまたはＨＤＤを用いて実装される。モデル訓練部１３８は、例えば、ＣＰＵまたはＧＰＵとプログラムとを用いて実装される。

【0105】

訓練データ記憶部１２４は、機械学習に使用される複数の画像データを記憶する。各画像データには、正解の位置情報および正解の姿勢情報が付与されている。正解の位置情報および正解の姿勢情報は、例えば、ユーザによって付与される。

【0106】

モデル訓練部１３８は、訓練データ記憶部１２４に記憶された画像データを用いて、前段モデル６１および後段モデル６２，６３を訓練する。まず、モデル訓練部１３８は、画像データから位置情報が推論されるように、前段モデル６１および後段モデル６２を訓練する。これにより、後段モデル６２が人を含む画像領域を検出するようにチューニングされる。その後、モデル訓練部１３８は、訓練済みの前段モデル６１が生成する特徴マップから姿勢情報が推論されるように、後段モデル６３を訓練する。これにより、後段モデル６３が人の姿勢を予測するようにチューニングされる。

【0107】

モデル訓練部１３８は、訓練済みの前段モデル６１および後段モデル６２，６３を出力する。モデル訓練部１３８は、前段モデル６１および後段モデル６２，６３を不揮発性ストレージに保存してもよいし、表示装置に表示してもよいし、他の情報処理装置に送信してもよい。例えば、モデル訓練部１３８は、前段モデル６１をエッジサーバ３２に送信し、後段モデル６２，６３をクラウドサーバ３３に送信する。

【0108】

図１４は、機械学習用データの例を示す図である。
訓練データ記憶部１２４は、画像データ８１を記憶する。また、訓練データ記憶部１２４は、画像データ８１と対応付けて位置情報８２および姿勢情報８３を記憶する。位置情報８２は、人を含む画像領域を囲む境界ボックス８４の座標を示す。例えば、位置情報８２は、境界ボックス８４の左上の座標および右下の座標を示す。姿勢情報８３は、境界ボックス８４の中に含まれる人の姿勢を示す。

【0109】

図１５は、機械学習の手順例を示すフローチャートである。
（Ｓ１０）モデル訓練部１３８は、画像データと正解の境界ボックスを示す位置情報とを訓練データ記憶部１２４から読み出し、画像データと位置情報のペアを複数組含むデータセットを、人検出用の訓練データとして生成する。

【0110】

（Ｓ１１）モデル訓練部１３８は、ステップＳ１０の訓練データを用いて、前段モデルと第１後段モデルを訓練する。このとき、モデル訓練部１３８は、画像データを前段モデルに入力して特徴マップを生成し、特徴マップを第１後段モデルに入力して位置情報を予測する。モデル訓練部１３８は、位置情報の予測と正解との間の誤差を算出し、誤差が小さくなるように前段モデルおよび第１後段モデルのパラメータ値を更新する。

【0111】

（Ｓ１２）モデル訓練部１３８は、ステップＳ１０の訓練データに含まれる画像データを訓練済みの前段モデルに入力して、特徴マップを生成する。
（Ｓ１３）モデル訓練部１３８は、画像データの中から、ステップＳ１０の訓練データに含まれる位置情報が示す境界ボックスを包含する画像ブロックを特定する。

【0112】

（Ｓ１４）モデル訓練部１３８は、座標変換関数を用いて、ステップＳ１２の特徴マップの中から、ステップＳ１３の画像ブロックに対応する特徴ブロックを抽出し、抽出された特徴ブロックを並べた部分特徴マップを生成する。このとき、モデル訓練部１３８は、第２後段モデルの入力に合わせて部分特徴マップを変形してもよい。

【0113】

（Ｓ１５）モデル訓練部１３８は、正解の姿勢を示す姿勢情報を訓練データ記憶部１２４から読み出し、ステップＳ１４の部分特徴マップと姿勢情報のペアを複数組含むデータセットを、姿勢予測用の訓練データとして生成する。

【0114】

（Ｓ１６）モデル訓練部１３８は、ステップＳ１５の訓練データを用いて、第２後段モデルを訓練する。このとき、モデル訓練部１３８は、部分特徴マップを第２後段モデルに入力して姿勢情報を予測する。モデル訓練部１３８は、姿勢情報の予測と正解との間の誤差を算出し、誤差が小さくなるように第２後段モデルのパラメータ値を更新する。

【0115】

（Ｓ１７）モデル訓練部１３８は、訓練済みの前段モデル、第１後段モデルおよび第２後段モデルを出力する。例えば、モデル訓練部１３８は、前段モデルをエッジサーバ３２に配置し、第１後段モデルおよび第２後段モデルをクラウドサーバ３３に配置する。モデル訓練部１３８は、訓練済みの前段モデル、第１後段モデルおよび第２後段モデルを、不揮発性ストレージに保存してもよいし、表示装置に表示してもよいし、エッジサーバ３２およびクラウドサーバ３３以外の情報処理装置に送信してもよい。

【0116】

図１６は、画像認識の手順例を示すフローチャートである。
（Ｓ２０）関数送信部１３１は、関数記憶部１２２から座標変換関数を読み出してクラウドサーバ３３に送信する。関数受信部１３４は、受信した座標変換関数を保存する。

【0117】

（Ｓ２１）画像受信部１３２は、監視カメラ３１から画像データを受信する。
（Ｓ２２）特徴抽出部１３３は、モデル記憶部１２１に記憶された前段モデルに画像データを入力して、画像データ全体に対応する特徴マップを生成する。

【0118】

（Ｓ２３）特徴抽出部１３３は、特徴マップをクラウドサーバ３３に送信する。
（Ｓ２４）特徴受信部１３５は、エッジサーバ３２から特徴マップを受信する。推論部１３７は、モデル記憶部１２３に記憶された第１後段モデルに特徴マップを入力して、人を含む画像領域を囲む境界ボックスを示す位置情報を生成する。

【0119】

（Ｓ２５）入力データ生成部１３６は、画像データの中から、位置情報が示す境界ボックスを包含する画像ブロックを特定する。
（Ｓ２６）入力データ生成部１３６は、座標変換関数を用いて、特徴マップの中から、ステップＳ２５の画像ブロックに対応する特徴ブロックを抽出し、抽出された特徴ブロックを並べた部分特徴マップを生成する。このとき、入力データ生成部１３６は、第２後段モデルの入力に合わせて部分特徴マップを変形してもよい。

【0120】

（Ｓ２７）推論部１３７は、モデル記憶部１２３に記憶された第２後段モデルに部分特徴マップを入力して、境界ボックス内の人の姿勢を示す姿勢情報を生成する。
（Ｓ２８）推論部１３７は、ステップＳ２４の位置情報およびステップＳ２７の姿勢情報を出力する。推論部１３７は、位置情報および姿勢情報を不揮発性ストレージに保存してもよいし、表示装置に表示してもよいし、他の情報処理装置に送信してもよい。

【0121】

以上説明したように、第２の実施の形態の情報処理システムは、監視カメラ３１の画像データに対して、複数の機械学習モデルを用いて異なる推論目的の推論処理を行う。これにより、画像データが多面的に分析され、分析精度が向上する。また、監視カメラ３１に近いエッジサーバ３２が、画像データからの特徴抽出を行い、演算能力の高いクラウドサーバが、抽出された特徴量を用いて推論処理を行う。これにより、情報処理システムは、画像データの分析のために様々なクラウドサーバを使い分けることができる。

【0122】

また、情報処理システムは、ある機械学習モデルを用いて、画像データから人を含む画像領域を検出し、別の機械学習モデルを用いて、検出された画像領域に含まれる人の姿勢を予測する。後者の機械学習モデルは、絞り込まれた画像領域に対して推論処理を行うため、姿勢予測の精度が向上する。また、情報処理システムは、人検出と姿勢予測とで前段モデルを共通化し、人検出で抽出された特徴量を再利用して姿勢予測を行う。これにより、姿勢予測における特徴抽出が省略されて計算量が減少し、負荷が低下する。

【0123】

また、情報処理システムは、前段モデルのモデル構造に基づく座標変換関数を参照して、人検出で抽出された特徴量のうち姿勢予測に再利用する特徴量を判定する。これにより、検出された画像領域に対応する適切な特徴量が再利用される。また、情報処理システムは、前段モデルおよび第１後段モデルを、人を含む画像領域を検出するようにチューニングし、訓練済みの前段モデルの出力を前提として、第２後段モデルを人の姿勢を予測するようチューニングする。これにより、高品質な前段モデル、第１後段モデルおよび第２後段モデルが生成され、人検出および姿勢予測の推論精度が向上する。

【符号の説明】

【0124】

１０情報処理装置
１１記憶部
１２処理部
１３画像データ
１４，１８特徴データ
１５，１９機械学習モデル
１６画像領域
１７座標対応情報

【図1】