IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社セルシスの特許一覧

特開2022-43749情報処理装置、情報処理システム、情報処理方法及びプログラム
<>
  • 特開-情報処理装置、情報処理システム、情報処理方法及びプログラム 図1
  • 特開-情報処理装置、情報処理システム、情報処理方法及びプログラム 図2
  • 特開-情報処理装置、情報処理システム、情報処理方法及びプログラム 図3
  • 特開-情報処理装置、情報処理システム、情報処理方法及びプログラム 図4
  • 特開-情報処理装置、情報処理システム、情報処理方法及びプログラム 図5
  • 特開-情報処理装置、情報処理システム、情報処理方法及びプログラム 図6
  • 特開-情報処理装置、情報処理システム、情報処理方法及びプログラム 図7
  • 特開-情報処理装置、情報処理システム、情報処理方法及びプログラム 図8
  • 特開-情報処理装置、情報処理システム、情報処理方法及びプログラム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022043749
(43)【公開日】2022-03-16
(54)【発明の名称】情報処理装置、情報処理システム、情報処理方法及びプログラム
(51)【国際特許分類】
   G06T 7/10 20170101AFI20220309BHJP
   H04N 5/232 20060101ALI20220309BHJP
【FI】
G06T7/10
H04N5/232 290
H04N5/232 160
【審査請求】有
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2020149204
(22)【出願日】2020-09-04
(11)【特許番号】
(45)【特許公報発行日】2021-09-01
(71)【出願人】
【識別番号】596021562
【氏名又は名称】株式会社セルシス
(74)【代理人】
【識別番号】100131451
【弁理士】
【氏名又は名称】津田 理
(74)【代理人】
【識別番号】100167933
【弁理士】
【氏名又は名称】松野 知紘
(74)【代理人】
【識別番号】100174137
【弁理士】
【氏名又は名称】酒谷 誠一
(74)【代理人】
【識別番号】100184181
【弁理士】
【氏名又は名称】野本 裕史
(72)【発明者】
【氏名】成島 啓
(72)【発明者】
【氏名】山口 兼太郎
【テーマコード(参考)】
5C122
5L096
【Fターム(参考)】
5C122EA06
5C122EA42
5C122FH11
5C122FH14
5C122FK37
5C122FK38
5C122FK40
5C122FL03
5C122GA18
5C122HA13
5C122HA35
5C122HB01
5C122HB05
5L096DA02
5L096EA35
5L096FA12
5L096HA08
5L096JA03
5L096JA11
(57)【要約】      (修正有)
【課題】対象画像から、所望領域とは異なる領域が誤って検出される可能性を低減する情報処理装置、情報処理システム、情報処理方法及びプログラムを提供する。
【解決手段】情報処理装置1は、対象画像におけるキーポイント位置の推定及び/又はセマンティックセグメンテーションによる領域分類を実行し、当該推定したキーポイント位置及び/又は当該領域分類の結果を用いて、対象画像から所望領域を含む限定領域を抽出する限定領域抽出部と、抽出された限定領域に対して所望領域を認識する処理を実行して、限定領域から所望領域を抽出して出力する所望領域出力部と、を備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
対象画像におけるキーポイント位置の推定及び/又はセマンティックセグメンテーションによる領域分類を実行し、当該推定したキーポイント位置、及び/又は当該領域分類の結果を用いて、前記対象画像から所望領域を含む限定領域を抽出する限定領域抽出部と、
前記抽出された限定領域に対して前記所望領域を認識する処理を実行して、前記限定領域から前記所望領域を抽出して出力する所望領域出力部と、
を備える情報処理装置。
【請求項2】
前記限定領域抽出部は、前記セマンティックセグメンテーションによって前記対象画像を複数の領域に分け、当該領域毎に当該領域が表すカテゴリに分類し、前記所望領域の種類に対応するカテゴリに分類された領域を略含む領域を前記限定領域として抽出し、
前記所望領域出力部は、前記選択された限定領域において前記所望領域を認識する処理を実行して、少なくとも一つの所望領域を出力する
請求項1に記載の情報処理装置。
【請求項3】
前記限定領域抽出部は、前記推定されたキーポイントのうちの1個または複数個を含むように前記限定領域を抽出する
請求項1に記載の情報処理装置。
【請求項4】
前記限定領域抽出部は、前記セマンティックセグメンテーションによって前記対象画像を複数の領域に分け、当該領域毎に当該領域が表すカテゴリに分類し、前記所望領域の種類に対応するカテゴリに分類された領域を略含む領域において、キーポイント位置を推定し、当該推定したキーポイントのうちの1個または複数個を含むように前記限定領域を抽出する
請求項1に記載の情報処理装置。
【請求項5】
前記限定領域抽出部によって抽出された限定領域が複数ある場合、当該複数の限定領域をユーザが選択可能にディスプレイに表示制御する表示制御部と、
ユーザによって選択された限定領域を受け付ける受付部と、
を備え、
前記所望領域出力部は、前記ユーザによって選択された限定領域に対して前記所望領域を認識する処理を実行して、前記限定領域から所望領域を抽出して出力する
請求項1から4のいずれか一項に記載の情報処理装置。
【請求項6】
前記所望領域出力部によって出力された所望領域が複数ある場合、前記出力された前記複数の所望領域のうち、少なくとも一つをユーザが選択可能にディスプレイに表示制御する表示制御部を備える
請求項1から5のいずれか一項に記載の情報処理装置。
【請求項7】
前記所望領域出力部によって出力された所望領域が複数ある場合、前記複数の所望領域のうちユーザによって選択された1以上の所望領域を受け付ける受付部と、
前記ユーザによって選択された1以上の所望領域をストレージに保存させる記憶処理部と、
を更に備える請求項1から6のいずれか一項に記載の情報処理装置。
【請求項8】
前記所望領域の出力において優先する対象を、ユーザによる優先度の指定に基づき取得する取得部を備え、
前記限定領域抽出部は、複数の限定領域を抽出し、当該優先する対象に応じて、複数の限定領域それぞれの優先度を決定し、
前記所望領域出力部は、当該優先度に応じて前記所望領域を出力する
請求項1から7のいずれか一項に記載の情報処理装置。
【請求項9】
対象画像におけるキーポイント位置の推定及び/又はセマンティックセグメンテーションによる領域分類を実行し、当該推定したキーポイント位置、及び/又は当該領域分類の結果を用いて、前記対象画像から所望領域を含む限定領域を抽出する限定領域抽出部と、
前記抽出された限定領域に対して前記所望領域を認識する処理を実行して、前記限定領域から所望領域を抽出して出力する所望領域出力部と、
を備える情報処理システム。
【請求項10】
対象画像におけるキーポイント位置の推定及び/又はセマンティックセグメンテーションによる領域分類を実行し、当該推定したキーポイント位置、及び/又は当該領域分類の結果を用いて、前記対象画像から所望領域を含む限定領域を抽出する限定領域抽出手順と、
前記抽出された限定領域に対して前記所望領域を認識する処理を実行して、前記限定領域から所望領域を抽出して出力する所望領域出力手順と、
を有する情報処理方法。
【請求項11】
コンピュータに、
対象画像におけるキーポイント位置の推定及び/又はセマンティックセグメンテーションによる領域分類を実行し、当該推定したキーポイント位置、及び/又は当該領域分類の結果を用いて、前記対象画像から所望領域を含む限定領域を抽出する限定領域抽出手順、
前記抽出された限定領域に対して前記所望領域を認識する処理を実行して、前記限定領域から所望領域を抽出して出力する所望領域出力手順、
を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理システム、情報処理方法及びプログラムに関する。
【背景技術】
【0002】
従来から、画像認識技術を用いて、画像から特定の領域を抽出することが行われている。たとえば、人体に対しては、人体検知、顔検出、顔認識、顔方向検知、顔器官検出、年齢、性別、表情、また肩、足元、身長等の人体の部位認識(人体特徴認識)を実行することが提案され、また、物体に対しては、大きさや形状の解析、及び椅子や自動車等の物体カテゴリの検出を行うことが提案されている(例えば、特許文献1参照)。
【0003】
一方、非特許文献1には、人物が写った写真から、キーポイントを推定して、人物のポーズを推定する技術が開示されている。ここで、キーポイントとは、関節点(肩、肘、手首、腰、膝、足首など)や特徴点(目、鼻、口、耳など)のことである。
また、非特許文献2には、セマンティックセグメンテーションによって、写真から、人物の領域、自転車の領域、動物の領域など各領域を推定することが開示されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2015-61239号公報
【非特許文献】
【0005】
【非特許文献1】https://arxiv.org/abs/1611.08050 (Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh, "Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields")
【非特許文献2】https://arxiv.org/abs/1605.06211(Evan Shelhamer, Jonathan Long, Trevor Darrell,"Fully Convolutional Networks for Semantic Segmentation")
【発明の概要】
【発明が解決しようとする課題】
【0006】
従来手法として例えば、人物が写った写真の画像から、顔を検出する手法がある。しかし、対象画像に例えば、顔だけでなく「顔と似て非なる物」(例えば、コンセント)が写っている場合、顔ではない領域が誤って検出されて出力されてしまうことがある。このように、対象画像から、ユーザが所望する所望領域(例えば、人物の顔または犬の顔)とは異なる領域が誤って検出されて出力されてしまうことがある。
【0007】
本発明は、上記問題に鑑みてなされたものであり、対象画像から、所望領域とは異なる領域が誤って検出される可能性を低減することを可能とする情報処理装置、情報処理システム、情報処理方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明の第1の態様に係る情報処理装置は、対象画像におけるキーポイント位置の推定及び/又はセマンティックセグメンテーションによる領域分類を実行し、当該推定したキーポイント位置、及び/又は当該領域分類の結果を用いて、前記対象画像から所望領域を含む限定領域を抽出する限定領域抽出部と、前記抽出された限定領域に対して前記所望領域を認識する処理を実行して、前記限定領域から所望領域を抽出して出力する所望領域出力部と、を備える。
【0009】
この構成によれば、キーポイントの推定、及び/又はセマンティックセグメンテーションによる対象画像内の画像領域の推定を用いることにより、所望領域を高精度に検出することができる。このため、対象画像から、所望領域とは異なる領域が誤って検出される可能性を低減することができる。
【0010】
本発明の第2の態様に係る情報処理装置は、第1の態様に係る情報処理装置であって、前記限定領域抽出部は、前記セマンティックセグメンテーションによって前記対象画像を複数の領域に分け、当該領域毎に当該領域が表すカテゴリに分類し、前記所望領域の種類に対応するカテゴリに分類された領域を略含む領域を前記限定領域として抽出し、前記所望領域出力部は、前記選択された限定領域において前記所望領域を認識する処理を実行して、少なくとも一つの所望領域を出力する。
【0011】
この構成によれば、複数のカテゴリの被写体が写った画像であっても、ユーザが所望する所望領域の種類に対応するカテゴリの画像領域だけを抽出することができる。
【0012】
本発明の第3の態様に係る情報処理装置は、第1の態様に係る情報処理装置であって、前記限定領域抽出部は、前記推定されたキーポイントのうちの1個または複数個を含むように前記限定領域を抽出する。
【0013】
この構成によれば、限定領域を確実に作ることができる。
【0014】
本発明の第4の態様に係る情報処理装置は、第1の態様に係る情報処理装置であって、前記限定領域抽出部は、前記セマンティックセグメンテーションによって前記対象画像を複数の領域に分け、当該領域毎に当該領域が表すカテゴリに分類し、前記所望領域の種類に対応するカテゴリに分類された領域を略含む領域において、キーポイント位置を推定し、当該推定したキーポイントのうちの1個または複数個を含むように前記限定領域を抽出する。
【0015】
この構成によれば、2段階で抽出することによって、複数のカテゴリの被写体が写った画像であっても、ユーザが所望する所望領域の種類に対応するカテゴリの画像領域(例えば人の画像領域)であって所望領域の種類の画像領域(例えば、人の顔の画像領域)だけを高精度に抽出することができる。
【0016】
本発明の第5の態様に係る情報処理装置は、第1から4のいずれかの態様に係る情報処理装置であって、前記限定領域抽出部によって抽出された限定領域が複数ある場合、当該複数の限定領域をユーザが選択可能にディスプレイに表示制御する表示制御部と、ユーザによって選択された限定領域を受け付ける受付部と、を備え、前記所望領域出力部は、前記ユーザによって選択された限定領域に対して前記所望領域を認識する処理を実行して、前記限定領域から所望領域を抽出して出力する。
【0017】
この構成によればユーザが複数の限定領域の中から1以上の限定領域を選択することで、ユーザによって選択された限定領域から所望領域が出力されるので、所望領域の出力精度を向上させることができる。
【0018】
本発明の第6の態様に係る情報処理装置は、第1から5のいずれかの態様に係る情報処理装置であって、前記限定領域抽出部は、前記複数の限定領域を抽出し、前記所望領域出力部は、前記選択された複数の限定領域から、複数の所望領域を出力し、前記出力された複数の所望領域のうち、少なくとも一つをユーザが選択可能にディスプレイに表示制御する表示制御部を備える。
【0019】
この構成によれば、ユーザが複数の所望領域から、1以上の領域を選択することができる。
【0020】
本発明の第7の態様に係る情報処理装置は、第1から6のいずれかの態様に係る情報処理装置であって、前記所望領域出力部によって出力された所望領域が複数ある場合、前記複数の所望領域のうちユーザによって選択された1以上の所望領域を受け付ける受付部と、前記ユーザによって選択された1以上の所望領域をストレージに保存させる記憶処理部と、を更に備える。
【0021】
この構成によれば、ユーザが選択した所望の画像を活用することができる。
【0022】
本発明の第8の態様に係る情報処理装置は、第1から7のいずれかの態様に係る情報処理装置であって、前記所望領域の出力において優先する対象を、ユーザによる優先度の指定に基づき取得する取得部を備え、前記限定領域抽出部は、複数の限定領域を抽出し、当該優先する対象に応じて、複数の限定領域それぞれの優先度を決定し、前記所望領域出力部は、当該優先度に応じて前記所望領域を出力する。
【0023】
この構成によれば、ユーザが優先するもの(例えば、手前にいる人物)の画像領域を取得することができる。
【0024】
本発明の第9の態様に係る情報処理システムは、対象画像におけるキーポイント位置の推定及び/又はセマンティックセグメンテーションによる領域分類を実行し、当該推定したキーポイント位置、及び/又は当該領域分類の結果を用いて、前記対象画像から所望領域を含む限定領域を抽出する限定領域抽出部と、前記抽出された限定領域に対して前記所望領域を認識する処理を実行して、前記限定領域から所望領域を抽出して出力する所望領域出力部と、を備える。
【0025】
この構成によれば、キーポイントの推定、及び/又はセマンティックセグメンテーションによる対象画像内の画像領域の推定を用いることにより、所望領域を高精度に検出することができる。このため、対象画像から、所望領域とは異なる領域が誤って検出される可能性を低減することができる。
【0026】
本発明の第10の態様に係る情報処理方法は、対象画像におけるキーポイント位置の推定及び/又はセマンティックセグメンテーションによる領域分類を実行し、当該推定したキーポイント位置、及び/又は当該領域分類の結果を用いて、前記対象画像から所望領域を含む限定領域を抽出する限定領域抽出手順と、前記抽出された限定領域に対して前記所望領域を認識する処理を実行して、前記限定領域から所望領域を抽出して出力する所望領域出力手順と、を有する。
【0027】
この構成によれば、キーポイントの推定、及び/又はセマンティックセグメンテーションによる対象画像内の画像領域の推定を用いることにより、所望領域を高精度に検出することができる。このため、対象画像から、所望領域とは異なる領域が誤って検出される可能性を低減することができる。
【0028】
本発明の第11の態様に係るプログラムは、対象画像におけるキーポイント位置の推定及び/又はセマンティックセグメンテーションによる領域分類を実行し、当該推定したキーポイント位置、及び/又は当該領域分類の結果を用いて、前記対象画像から所望領域を含む限定領域を抽出する限定領域抽出手順、前記抽出された限定領域に対して前記所望領域を認識する処理を実行して、前記限定領域から所望領域を抽出して出力する所望領域出力手順、を実行させるためのプログラムである。
【0029】
この構成によれば、キーポイントの推定、及び/又はセマンティックセグメンテーションによる対象画像内の画像領域の推定を用いることにより、所望領域を高精度に検出することができる。このため、対象画像から、所望領域とは異なる領域が誤って検出される可能性を低減することができる。
【発明の効果】
【0030】
本発明の一態様によれば、キーポイントの推定、及び/又はセマンティックセグメンテーションによる対象画像内の画像領域の推定を用いることにより、所望領域を高精度に検出することができる。このため、対象画像から、所望領域とは異なる領域が誤って検出される可能性を低減することができる。
【図面の簡単な説明】
【0031】
図1】第1の実施形態に係る情報処理装置の概略構成図である。
図2】情報処理装置に表示される画面遷移の一例である。
図3】実施例1の処理について説明するための図である。
図4】実施例2の処理について説明するための図である。
図5】変形例の画面遷移の一例である。
図6】変形例の処理を説明するための図である。
図7】変形例の処理の一例を示すフローチャートである。
図8】第2の実施形態に係る情報処理システムの概略構成図である。
図9】本実施形態に係るコンピュータシステムの概略構成図である。
【発明を実施するための形態】
【0032】
以下、各実施形態について、図面を参照しながら説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。
【0033】
本実施形態では、上記の課題だけでなく、対象画像に所望の人物だけでなく他の人物も写っている場合に、所望の人物の所望領域の画像を取得することができるようにすることも課題とする。
【0034】
第1の実施形態に係る情報処理装置1は、例えば多機能携帯電話(いわゆるスマートフォン)などの携帯電話、タブレット、ノートパソコンなどのモバイルデバイス、またはデスクトップパソコンなどである。本実施形態では、一例として、多機能携帯電話であるものとして説明する。
【0035】
図1は、第1の実施形態に係る情報処理装置の概略構成図である。図1に示すように、情報処理装置1は例えば、入力インタフェース11と、通信モジュール12と、ストレージ13と、メモリ14と、ディスプレイ15と、プロセッサ16と、カメラ17とを備える。
入力インタフェース11は、ユーザの操作を受け付け、受け付けた操作に応じた入力信号をプロセッサ16へ出力する。本実施形態では入力インタフェース11は一例としてタッチパネルである。
通信モジュール12は、通信回路網に接続されて、通信回路網に接続されている他のコンピュータと通信する。この通信は有線であっても無線であってもよい。
【0036】
ストレージ13には、プロセッサ16が読み出して実行するためのアプリケーションのプログラム及び各種のデータが格納されている。このアプリケーションは例えば、サーバもしくはクラウド経由でダウンロードされてインストールされたものである。
メモリ14は、データ及びプログラムを一時的に保持する。メモリ14は、揮発性メモリであり、例えばRAM(Random Access Memory)である。
ディスプレイ15は、プロセッサ16の指令に従って、情報を表示する。
【0037】
プロセッサ16は、ストレージ13から第1の実施形態に係るアプリケーションのプログラムをメモリ14にロードし、当該プログラムに含まれる一連の命令を実行することによって、取得部161、限定領域抽出部162、所望領域出力部163、表示制御部164、受付部165、記憶処理部166として機能する。各部の処理の詳細については後述する。
【0038】
カメラ17は、例えばディスプレイ15側に設けられた背面カメラであり、被写体を撮像可能である。なお、情報処理装置1は、これに加えてまたはこれに替えて、ディスプレイ15側に設けられた前面カメラを備えてもよい。
【0039】
図2は、情報処理装置に表示される画面遷移の一例である。図2の画面G1、G2は、例えば、アプリケーションを立ち上げて表示される画面である。画面G1では、対象画像がユーザによって選択されて表示されている画面の一例である。画面G1には、対象画像を選択するためのファイル選択用ボタンB1と、ユーザが抽出したい所望領域の種類を入力するための入力ボックスB2と、所望領域抽出の開始を指示するための抽出開始ボタンB3と、対象画像F1が表示されている。ここでは、対象画像F1として、二人の男性が写った画像が表示されている。入力ボックスB2ではなく、セレクトボックスや、複数のタグからの選択など、選択式であってもよい。ここでは所望領域は例えば、ユーザが抽出を所望する種類(例えば、人の顔)の画像領域である。なお、所望領域の種類は一例としてユーザが設定するものとして説明するが、これに限らず、所望領域の種類は予め設定されていてもよく、その場合、所望領域は例えば、予め所望する種類(例えば、人の顔)が設定された画像領域である。例えば情報処理装置が、顔検出専用の装置である場合、所望領域の種類は、人の顔に予め設定されていてもよい。
【0040】
例えば、ユーザによって「何を見つけますか?」(抽出したい所望領域の種類)に対する回答として「人の顔」が入力され、抽出開始ボタンB3が押された場合、処理が実行されて、画面G2に表示が遷移する。画面G2では例えば、「見つかった領域」(所望領域)として、二人の男性のうち一人の男性の顔の画像領域が所望領域として表示される。
【0041】
続いて図2の画面G1から画面G2に遷移する間に実行されている処理について、説明する。画面G1で抽出開始ボタンB3が押された場合、取得部161は、対象画像内の領域であってユーザが所望する所望領域の種類(図2の例の場合、人の顔)を取得する。なお、予め所望領域の種類が特定の物(例えば、人の顔)に決められている場合には、取得部161はなくてもよい。限定領域抽出部162は、対象画像から次の手法(下記の<実施例1の処理>から<実施例3の処理>の手法)の一つ以上を使って「限定領域」を抽出する。そして所望領域出力部163は、抽出された限定領域に対して前記所望領域を認識する処理(例えば、顔検出)を実行して、当該限定領域から所望領域を抽出して出力する。
【0042】
<実施例1の処理>
まず、処理の実施例1は、キーポイント推定を使ったものである。実施例1について図3を用いて説明する。図3は、実施例1の処理について説明するための図である。図3において、限定領域抽出部162は、対象画像H1において、非特許文献1などの技術を用いて、キーポイント位置を推定する。画像H2は、推定されたキーポイントの位置が白丸で示されている。このように、キーポイントとして、関節点(肩、肘、手首、腰、膝、足首など)や特徴点(目、鼻、口、耳など)が抽出される。一態様では、限定領域抽出部162によって、顔のキーポイントのバウンディングボックスは、1人の人物について1個設定され、その人物の顔のキーポイント(例えば目、鼻、口、耳のキーポイント)全部を含む1個のバウンディングボックスが設定される。図3の例では、顔のキーポイントのバウンディングボックスH21と、顔のキーポイントのバウンディングボックスH22が示されている。ここでは一例として、顔のキーポイントのバウンディングボックスは、人物の顔のキーポイント全部をちょうど囲うのに必要な大きさの四角い箱(矩形)である。また一態様では、限定領域抽出部162によって、身体のキーポイントに対するバウンディングボックスは、1人の人物について1個設定され、身体のキーポイントに対する関節点(例えば肩、肘、手首、腰、膝、足首のキーポイント)全部を含む1個のバウンディングボックスが設定される。
【0043】
図3の画像H2のように、検出されたキーポイントが複数人分の場合は、限定領域抽出部162は、以下の方法のうちの1つを使って(あるいは複数方法を併用して)、複数人物のうちの1人分に絞り込む。
(1)より多くの顔のキーポイントが検出された人物を選ぶ。
(2)より多くの身体のキーポイントが検出された人物を選ぶ。
(3)顔のキーポイントのバウンディングボックスが大きい人物を選ぶ。
(4)身体のキーポイントのバウンディングボックスが大きい人物を選ぶ。
【0044】
図3の例では、限定領域抽出部162は、上記(1)、(2)の方法では差が付かないので(検出された顔のキーポイントはいずれも6個で同数、検出された身体のキーポイントはいずれも2個で同数)、上記(3)の方法を用いて、顔のキーポイントのバウンディングボックスが大きい人物を選択する。これにより、対象画像に複数の人物が写っている場合に、主たる人物の顔の画像を取得することができる。
【0045】
続いて、限定領域抽出部162は例えば、1人分のキーポイントから、例えば下記の方法で「限定領域」を決定する。
(1)顔のキーポイントのバウンディングボックスを所定量もしくは所定の割合だけ広げた領域を「限定領域」とする。ここで「所定量もしくは所定の割合」は、具体的には下記のようにしてもよい。
(ア)顔のキーポイントのバウンディングボックスの大きさに対する所定の割合。
(イ)身体のキーポイントのバウンディングボックスの大きさに対する所定の割合。
(ウ)ソース画像の大きさに対する所定の割合。
(エ)所定の画素数。
【0046】
(2)顔のキーポイントの重心を中心とする所定の大きさの矩形領域を「限定領域」としてもよい。ここで「所定の大きさ」は,具体的には下記のようにしてもよい。
(ア)顔のキーポイントのバウンディングボックスの大きさに対する所定の割合。
(イ)身体のキーポイントのバウンディングボックスの大きさに対する所定の割合。
(ウ)ソース画像の大きさに対する所定の割合。
(エ)所定の画素数。
なお、顔のキーポイントが検出されなかった場合は,近隣の部位(例えば首,肩など)のキーポイントの位置を元に,顔が含まれるであろう「限定領域」を設定してもよい。
【0047】
図3の例では、限定領域抽出部162は例えば、顔のキーポイントのバウンディングボックスを所定の割合だけ広げた領域を「限定領域」として抽出する。これによって、限定領域H3が抽出される。そして、抽出された限定領域H3に対して、所望領域出力部163によって顔検出が実行されて、所望領域H3が出力される。この顔検出は、公知の方法を用いてもよい。
このように、限定領域抽出部162は、対象画像におけるキーポイント位置を推定し当該推定したキーポイント位置を用いて、前記対象画像から前記所望領域を含む限定領域を抽出する。
【0048】
<実施例2の処理>
続いて、実施例2の処理は、セマンティックセグメンテーションを使ったものである。実施例2について図4を用いて説明する。図4は、実施例2の処理について説明するための図である。図4において、限定領域抽出部162は、対象画像H1において、非特許文献2などのセマンティックセグメンテーションの技術を用いて、画像領域を分類して、人物領域を「限定領域」として抽出する。
【0049】
図4では、対象画像H11に対して、限定領域抽出部162によってセマンティックセグメンテーションが実行されることによって、画像H12に示すように、人物領域R11、R12が抽出される。
限定領域抽出部162は、複数の人物領域が抽出された場合、画像の中心により近い人物領域を限定領域として抽出してもよいし、人物領域の大きさが最も大きい人物領域を限定領域として抽出してもよいし、画像の中心により近く且つ人物領域の大きさが最も大きい人物領域を限定領域として抽出してもよい。
図4の場合、例えば、限定領域抽出部162によって、人物領域R11、R12のうち、中心に近い、及び/又はより領域が大きい人物領域R11が限定領域として抽出される。図4の例の場合、限定領域H13は一例として、画像から人物領域R11に対して上及び左右にマージンを付けて抜き出した領域である。なお、これに限らず、限定領域H13は、人物領域R11に対して上及び左右にマージンがなくてもよく、人物領域R11にぴったり外接する矩形領域であってもよい。そして、抽出された限定領域H13に対して、所望領域出力部163によって顔検出が実行されて、所望領域H14が出力される。この顔検出は、公知の方法を用いてもよい。
【0050】
このように実施例2では、限定領域抽出部162は例えば、セマンティックセグメンテーションによる領域分類を実行し、当該領域分類の結果を用いて、前記対象画像から前記所望領域を含む限定領域を抽出する。
例えば、限定領域抽出部162は、セマンティックセグメンテーションによって対象画像を複数の領域に分け、当該領域毎に当該領域が表すカテゴリに分類し、ユーザが所望する所望領域の種類(例えば、人の顔)に対応するカテゴリ(例えば、人体)に分類された領域を略含む領域を限定領域として選択してもよい。所望領域出力部163は、当該選択された限定領域において当該所望領域を認識する処理(ここでは顔検出)を実行して、当該限定領域から所望領域(例えば、人の顔の画像領域)を抽出して出力してもよい。
【0051】
上記について具体例を用いて説明する。例えば、人と犬が写った画像の場合において、ユーザが所望する所望領域の種類が「人の顔」である場合を例に説明する。この場合、限定領域抽出部162は、セマンティックセグメンテーションによって対象画像を複数の画像領域に分け、その中から、犬の画像領域やその他の画像領域を無視して、人の画像領域のみを選択して、限定領域としてもよい。そして所望領域出力部163は、人の画像領域から人の「顔」を認識し、人の「顔」画像領域を、所望領域として出力してもよい。これにより、2段階で抽出することによって、複数のカテゴリの被写体が写った画像であっても、ユーザが所望する所望領域の種類に対応するカテゴリの画像領域(例えば人の画像領域)であって所望領域の種類の画像領域(例えば、人の顔の画像領域)だけを高精度に抽出することができる。
【0052】
<実施例3の処理>
続いて、実施例3は、セマンティックセグメンテーションとキーポイント推定を使った実施例である。この場合、限定領域抽出部162はまず、対象画像に対してセマンティックセグメンテーションを実行し、人物領域を抽出する。そして限定領域抽出部162は、この人物領域に対して、前記の「キーポイント推定を使った実施例」の手法を実行し、「限定領域」を抽出してもよい。このように、限定領域抽出部162は、セマンティックセグメンテーションによって前記対象画像を複数の領域に分け、当該領域毎に当該領域が表すカテゴリに分類し、前記所望領域の種類に対応するカテゴリに分類された領域(例えば、人物領域)を略含む領域において、キーポイント位置を推定し、当該推定したキーポイントのうちの1個または複数個を含むように前記限定領域を作る。これにより、キーポイントを推定するときに、人物以外のもの(例えば、コンセント)などを対象とすることを未然に防止できる。
【0053】
<変形例:限定領域を複数抽出する例>
以上の実施例では「限定領域」を1個(1人分)に絞り込んだが、数個(複数人)のままにしても良い。あるいは、「限定領域」の個数を,所定の個数(または所定の個数以下)に絞り込んでもよい。
【0054】
続いて変形例について図5及び図6を用いて説明する。図5は、変形例の画面遷移の一例である。図5の画面G11、G12、G13は、例えば、アプリケーションを立ち上げて表示される画面である。画面G11では、対象画像がユーザによって選択されて表示されている画面の一例である。画面G11には、対象画像を選択するためのファイル選択用ボタンB11と、ユーザが抽出したい所望領域の種類を入力するための入力ボックスB12と、所望領域抽出の開始を指示するための抽出開始ボタンB13と、対象画像F11が表示されている。ここでは、対象画像F11として、一人の男性と一人の女性が写った画像が表示されている。入力ボックスB12ではなく、セレクトボックスや、複数のタグからの選択など、選択式であってもよい。
【0055】
例えば、画面G11において、ユーザによって「抽出したい所望領域」として「人の顔」が入力され、抽出開始ボタンB13が押された場合、処理が実行されて、画面G12が表示される。画面G12では例えば、所望領域として、男性の顔の画像領域F12と女性の顔の画像領域F13の両方が、所望領域として表示される。
【0056】
この場合の処理として、限定領域抽出部162は、複数の限定領域を抽出する。そして、所望領域出力部163は、選択された複数の限定領域のそれぞれから、所望領域を出力してもよい。表示制御部164は、出力された複数の所望領域のうち、少なくとも一つをユーザが選択可能にディスプレイ15に表示制御してもよい。これにより、ユーザが複数の所望領域から、1以上の領域を選択することができる。
【0057】
例えば、画面G12において、男性の顔の画像領域F12がユーザによって選択されて、画面G12の保存ボタンB14が押された場合、受付部165は、複数の所望領域のうちユーザによって選択された男性の顔の画像領域F12を受け付ける。記憶処理部166によって男性の顔の画像領域F12がストレージ13に保存され、画面G13に表示が遷移する。このように、受付部165は、複数の所望領域のうちユーザによって選択された1以上の所望領域を受け付ける。そして、記憶処理部166は、ユーザによって選択された1以上の所望領域をストレージ13に保存させる。これにより、ユーザが選択した所望の画像を活用することができる。
【0058】
ユーザによって選択された領域は、ストレージ13に保存され、ユーザは該画像を使用する。たとえば、1枚の集合写真からユーザの自己の顔のみを保存し、サムネイル画像として使用するなどが考えられる。
【0059】
続いて図5の画面G11から画面G12に遷移する間に実行されている処理の一例について、説明する。図6は、変形例の処理を説明するための図である。図6において、限定領域抽出部162は、対象画像H21において、非特許文献2などの技術を用いて、セマンティックセグメンテーションが実行されることによって、画像H22に示すように、人物領域R21、R22が抽出される。
【0060】
そして、限定領域抽出部162によって、人物領域R21を含む限定領域H23が抽出され、人物領域R22を含む限定領域H24が抽出される。そして、所望領域出力部163によって、顔検出が実行され、所望領域H25、所望領域H26が出力される。
【0061】
図7は、変形例の処理の一例を示すフローチャートである。
(ステップS110)まずプロセッサ16は、対象画像が選択され所望領域の種類が指定された状態で、抽出開始ボタンが押されたか否か判定する。
【0062】
(ステップS120)ステップS110で、対象画像が選択され所望領の種域類が指定された状態で、抽出開始ボタンが押された場合、限定領域抽出部162は、対象画像から限定領域を抽出する。
【0063】
(ステップS130)次には、所望領域出力部163は、限定領域に対して所望領域を認識する処理を実行して、限定領域から所望領域を抽出して出力する。
【0064】
(ステップS140)次にプロセッサ16は、ユーザによって保存する所望領域が選択された状態で保存ボタンが押されたか否か判定する。
【0065】
(ステップS150)ステップS140で、ユーザによって保存する所望領域が選択された状態で保存ボタンが押された場合、ユーザによって選択された所望領域をストレージ13に保存させる。以上で本フローチャートの処理を終了する。
【0066】
さらに複数の「限定領域」に優先度を付けてもよい。優先度を付けるには,前記の「複数人物のうちの1人に限定する方法」を使ってもよい。例えば、より多くの顔のキーポイントが検出された人物の「限定領域」の優先度を高くしてもよい。ユーザが「全身が写っている人物を優先する」ことを指定した場合、全身が写っている人物の「限定領域」の優先度を上げて、全身が写っている人物を優先して抽出されてもよい。この場合、限定領域抽出部162は、身体のキーポイントのうち、どのキーポイントが検出されたかによって、身体の写っている割合による優先度を設定してもよい。例えば限定領域抽出部162は、顔だけより顔を含む上半身が写っている方が優先度を高くし、顔を含む上半身だけ写っているより全身が写っている方が優先度を高く設定してもよい。
【0067】
何を優先するかは、ユーザが選択可能であってもよく、取得部161は、所望領域の出力において優先する対象(例えば、大きい画像領域)を、ユーザによる優先度の指定に基づき取得可能であってもよい。この場合、限定領域抽出部162は、複数の限定領域を抽出し、当該優先する対象に応じて、複数の限定領域それぞれに優先度を決定する。例えば、手前にいる人物の画像領域を抽出する場合、限定領域抽出部162は例えば、複数の限定領域のうち、画像領域が大きいほど、優先度を高くしてもよい。所望領域出力部163は、当該優先度に応じて所望領域を出力する。例えば、所望領域出力部163は、優先度が基準以上高い限定領域から所望領域を抽出して出力する。これにより、ユーザが優先するもの(例えば、手前にいる人物)の画像領域を取得することができる。
【0068】
以上の実施例では,領域抽出したい部位が顔であるとしたが,これ以外の部位(例えば手)であってもよい。これにより、例えば人の手を抽出することができる。また、領域抽出したい対象が人であるとしたが、他の動物(例えば、犬または猫)であってもよい。これにより、例えば、犬の顔や猫の顔を抽出することができる。
【0069】
以上、第1の実施形態に係る情報処理装置1は、対象画像におけるキーポイント位置の推定及び/又はセマンティックセグメンテーションによる領域分類を実行し、当該推定したキーポイント位置、及び/又は当該領域分類の結果を用いて、前記対象画像から所望領域を含む限定領域を抽出する限定領域抽出部162と、前記抽出された限定領域に対して前記所望領域を認識する処理を実行して、前記限定領域から所望領域を抽出して出力する所望領域出力部163と、を備える。
【0070】
この構成によれば、キーポイントの推定、及び/又はセマンティックセグメンテーションによる対象画像内の画像領域の推定を用いることにより、所望領域を高精度に検出することができる。このため、対象画像から、所望領域とは異なる領域が誤って検出される可能性を低減することができる。
なお、表示制御部164は、限定領域抽出部162によって抽出された限定領域が複数ある場合、当該複数の限定領域をユーザが選択可能にディスプレイ15に表示制御してもよい。受付部165は、ユーザによって選択された限定領域を受け付ける受付部と、を備える。所望領域出力部163は、前記ユーザによって選択された限定領域に対して前記所望領域を認識する処理を実行して、前記限定領域から所望領域を抽出して出力する。これにより、ユーザが複数の限定領域の中から1以上の限定領域を選択することで、ユーザによって選択された限定領域から所望領域が出力されるので、所望領域の出力精度を向上させることができる。
【0071】
<第2の実施形態>
続いて第2の実施形態について説明する。第1の実施形態では、ユーザが使用する情報処理装置1によって処理を実行したが、第2の実施形態では、ユーザが使用する端末装置が通信回路網を介して接続されたコンピュータシステムによって実行される。
図8は、第2の実施形態に係る情報処理システムの概略構成図である。図8に示すように、情報処理システムSは一例として、端末装置3-1、…、3-N(Nは自然数)と、端末装置3-1~3-Nそれぞれと通信回路網NWを介して接続されたコンピュータシステム2を備える。コンピュータシステム2は、端末装置3-1、…、3-Nからの要求に応じて、処理を実行する。ここではコンピュータシステム2は一例として、一台のサーバであるものとして説明するが、これに限定されるものではなく、クラウドサービスのように複数のコンピュータで構成されてもよい。
【0072】
端末装置3-1~3-Nは、別々のユーザが使用する端末装置であり、例えば、多機能携帯電話(いわゆるスマートフォン)などの携帯電話、タブレット、電子書籍リーダー、ノートパソコンなどのモバイルデバイス、またはデスクトップパソコンなどである。端末装置3-1~3-Nは例えば、WEBブラウザを用いて、コンピュータシステム2から送信された情報を表示してもよいし、端末装置3-1~3-Nにインストールされたアプリケーションにおいて、コンピュータシステム2から送信された情報を表示してもよい。
【0073】
図9は、本実施形態に係るコンピュータシステムの概略構成図である。図9に示すように、コンピュータシステム2は例えば、入力インタフェース21と、通信モジュール22と、ストレージ23と、メモリ24と、プロセッサ25とを備える。
入力インタフェース11は、コンピュータシステム2の管理者の操作を受け付け、受け付けた操作に応じた入力信号をプロセッサ25へ出力する。
通信モジュール22は、通信回路網NWに接続されて、通信回路網NWに接続されている端末装置3-1~3-Nと通信する。この通信は有線であっても無線であってもよい。
【0074】
ストレージ23には、プロセッサ16が読み出して実行するためのプログラム及び各種のデータが格納されている。
メモリ24は、データ及びプログラムを一時的に保持する。メモリ14は、揮発性メモリであり、例えばRAM(Random Access Memory)である。
【0075】
プロセッサ25は、ストレージ23から第1の実施形態に係るプログラムをメモリ24にロードし、当該プログラムに含まれる一連の命令を実行することによって、取得部161、限定領域抽出部162、所望領域出力部163、表示制御部164、受付部165、記憶処理部166として機能する。これらの機能は、第1の実施形態と同様であるので、その説明を省略する。
【0076】
なお、コンピュータシステム2の一部の機能が、端末装置3-1~3-Nで実現されてもよい。
【0077】
なお、上述した実施形態で説明した情報処理装置1の少なくとも一部は、ハードウェアで構成してもよいし、ソフトウェアで構成してもよい。ソフトウェアで構成する場合には、情報処理装置1の少なくとも一部の機能を実現するプログラムをフレキシブルディスクやCD-ROM等の記録媒体に収納し、コンピュータに読み込ませて実行させてもよい。記録媒体は、磁気ディスクや光ディスク等の着脱可能なものに限定されず、ハードディスク装置やメモリなどの固定型の記録媒体でもよい。
【0078】
また、情報処理装置1の少なくとも一部の機能を実現するプログラムを、インターネット等の通信回線(無線通信も含む)を介して頒布してもよい。さらに、同プログラムを暗号化したり、変調をかけたり、圧縮した状態で、インターネット等の有線回線や無線回線を介して、あるいは記録媒体に収納して頒布してもよい。
【0079】
さらに、一つまたは複数の情報処理機器によって情報処理装置1を機能させてもよい。複数の情報処理機器を用いる場合、情報処理機器のうちの1つをコンピュータとし、当該コンピュータが所定のプログラムを実行することにより情報処理装置1の少なくとも1つの手段として機能が実現されてもよい。
【0080】
また、方法の発明においては、全ての工程(ステップ)をコンピュータによって自動制御で実現するようにしてもよい。また、各工程をコンピュータに実施させながら、工程間の進行制御を人の手によって実施するようにしてもよい。また、さらには、全工程のうちの少なくとも一部を人の手によって実施するようにしてもよい。
【0081】
以上、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【符号の説明】
【0082】
1 情報処理装置
11 入力インタフェース
12 通信モジュール
13 ストレージ
14 メモリ
15 ディスプレイ
16 プロセッサ
161 取得部
162 限定領域抽出部
163 所望領域出力部
164 表示制御部
165 受付部
166 記憶処理部
17 カメラ
2 コンピュータシステム
21 入力インタフェース
22 通信モジュール
23 ストレージ
24 メモリ
25 プロセッサ
3-1~3-N 端末装置
S 情報処理システム
図1
図2
図3
図4
図5
図6
図7
図8
図9
【手続補正書】
【提出日】2021-04-12
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
対象画像におけるキーポイント位置の推定及び/又はセマンティックセグメンテーションによる領域分類を実行し、当該推定したキーポイント位置、及び/又は当該領域分類の結果を用いて、前記対象画像から所望領域を含む限定領域を抽出する限定領域抽出部と、
前記抽出された限定領域に対して前記所望領域を認識する処理を実行して、前記限定領域から前記所望領域を抽出して出力する所望領域出力部と、
前記所望領域の出力において優先する対象を、ユーザによる優先度の指定に基づき取得する取得部と、
を備え、
前記限定領域抽出部は、複数の限定領域を抽出し、当該優先する対象に応じて、複数の限定領域それぞれの優先度を決定し、
前記所望領域出力部は、当該優先度に応じて前記所望領域を出力し、
前記限定領域抽出部は、前記複数の限定領域それぞれの優先度を決定する場合、より多くの特定部位のキーポイントが検出された動物の優先度を高くする
情報処理装置。
【請求項2】
対象画像におけるキーポイント位置の推定及び/又はセマンティックセグメンテーションによる領域分類を実行し、当該推定したキーポイント位置、及び/又は当該領域分類の結果を用いて、前記対象画像から所望領域を含む限定領域を抽出する限定領域抽出部と、
前記抽出された限定領域に対して前記所望領域を認識する処理を実行して、前記限定領域から前記所望領域を抽出して出力する所望領域出力部と、
前記所望領域の出力において優先する対象を、ユーザによる優先度の指定に基づき取得する取得部と、
を備え、
前記限定領域抽出部は、複数の限定領域を抽出し、当該優先する対象に応じて、複数の限定領域それぞれの優先度を決定し、
前記所望領域出力部は、当該優先度に応じて前記所望領域を出力し、
前記限定領域抽出部は、前記複数の限定領域それぞれの優先度を決定する場合、より多くの身体のキーポイントが検出された動物の優先度を高くする
報処理装置。
【請求項3】
対象画像におけるキーポイント位置の推定及び/又はセマンティックセグメンテーションによる領域分類を実行し、当該推定したキーポイント位置、及び/又は当該領域分類の結果を用いて、前記対象画像から所望領域を含む限定領域を抽出する限定領域抽出部と、
前記抽出された限定領域に対して前記所望領域を認識する処理を実行して、前記限定領域から前記所望領域を抽出して出力する所望領域出力部と、
前記所望領域の出力において優先する対象を、ユーザによる優先度の指定に基づき取得する取得部と、
を備え、
前記限定領域抽出部は、複数の限定領域を抽出し、当該優先する対象に応じて、複数の限定領域それぞれの優先度を決定し、
前記所望領域出力部は、当該優先度に応じて前記所望領域を出力し、
前記限定領域抽出部は、前記複数の限定領域それぞれの優先度を決定する場合、特定部位のキーポイントのバウンディングボックスが大きい動物の優先度を高くする
報処理装置。
【請求項4】
対象画像におけるキーポイント位置の推定及び/又はセマンティックセグメンテーションによる領域分類を実行し、当該推定したキーポイント位置、及び/又は当該領域分類の結果を用いて、前記対象画像から所望領域を含む限定領域を抽出する限定領域抽出部と、
前記抽出された限定領域に対して前記所望領域を認識する処理を実行して、前記限定領域から前記所望領域を抽出して出力する所望領域出力部と、
前記所望領域の出力において優先する対象を、ユーザによる優先度の指定に基づき取得する取得部と、
を備え、
前記限定領域抽出部は、複数の限定領域を抽出し、当該優先する対象に応じて、複数の限定領域それぞれの優先度を決定し、
前記所望領域出力部は、当該優先度に応じて前記所望領域を出力し、
前記限定領域抽出部は、前記複数の限定領域それぞれの優先度を決定する場合、身体のキーポイントのバウンディングボックスが大きい動物の優先度を高くする
報処理装置。
【請求項5】
対象画像におけるキーポイント位置の推定及び/又はセマンティックセグメンテーションによる領域分類を実行し、当該推定したキーポイント位置、及び/又は当該領域分類の結果を用いて、前記対象画像から所望領域を含む限定領域を抽出する限定領域抽出部と、
前記抽出された限定領域に対して前記所望領域を認識する処理を実行して、前記限定領域から前記所望領域を抽出して出力する所望領域出力部と、
前記所望領域の出力において優先する対象を、ユーザによる優先度の指定に基づき取得する取得部と、
を備え、
前記限定領域抽出部は、複数の限定領域を抽出し、当該優先する対象に応じて、複数の限定領域それぞれの優先度を決定し、
前記所望領域出力部は、当該優先度に応じて前記所望領域を出力し、
前記限定領域抽出部は、前記複数の限定領域それぞれの優先度を決定する場合、全身が写っている動物の優先度を上げる
報処理装置。
【請求項6】
対象画像におけるキーポイント位置の推定及び/又はセマンティックセグメンテーションによる領域分類を実行し、当該推定したキーポイント位置、及び/又は当該領域分類の結果を用いて、前記対象画像から所望領域を含む限定領域を抽出する限定領域抽出部と、
前記抽出された限定領域に対して前記所望領域を認識する処理を実行して、前記限定領域から前記所望領域を抽出して出力する所望領域出力部と、
前記所望領域の出力において優先する対象を、ユーザによる優先度の指定に基づき取得する取得部と、
を備え、
前記限定領域抽出部は、複数の限定領域を抽出し、当該優先する対象に応じて、複数の限定領域それぞれの優先度を決定し、
前記所望領域出力部は、当該優先度に応じて前記所望領域を出力し、
前記限定領域抽出部は、前記複数の限定領域それぞれの優先度を決定する場合、身体のキーポイントのうち、どのキーポイントが検出されたかによって、身体の写っている割合による優先度を設定する
報処理装置。
【請求項7】
対象画像におけるキーポイント位置の推定及び/又はセマンティックセグメンテーションによる領域分類を実行し、当該推定したキーポイント位置、及び/又は当該領域分類の結果を用いて、前記対象画像から所望領域を含む限定領域を抽出する限定領域抽出部と、
前記抽出された限定領域に対して前記所望領域を認識する処理を実行して、前記限定領域から前記所望領域を抽出して出力する所望領域出力部と、
前記所望領域の出力において優先する対象を、ユーザによる優先度の指定に基づき取得する取得部と、
を備え、
前記限定領域抽出部は、複数の限定領域を抽出し、当該優先する対象に応じて、複数の限定領域それぞれの優先度を決定し、
前記所望領域出力部は、当該優先度に応じて前記所望領域を出力し、
前記限定領域抽出部は、前記複数の限定領域それぞれの優先度を決定する場合、特定部位だけより特定部位を含む半身が写っている方が優先度を高くする
報処理装置。
【請求項8】
対象画像におけるキーポイント位置の推定及び/又はセマンティックセグメンテーションによる領域分類を実行し、当該推定したキーポイント位置、及び/又は当該領域分類の結果を用いて、前記対象画像から所望領域を含む限定領域を抽出する限定領域抽出部と、
前記抽出された限定領域に対して前記所望領域を認識する処理を実行して、前記限定領域から前記所望領域を抽出して出力する所望領域出力部と、
前記所望領域の出力において優先する対象を、ユーザによる優先度の指定に基づき取得する取得部と、
を備え、
前記限定領域抽出部は、複数の限定領域を抽出し、当該優先する対象に応じて、複数の限定領域それぞれの優先度を決定し、
前記所望領域出力部は、当該優先度に応じて前記所望領域を出力し、
前記限定領域抽出部は、前記複数の限定領域それぞれの優先度を決定する場合、特定部位を含む半身だけ写っているより全身が写っている方が優先度を高くする
報処理装置。
【請求項9】
対象画像におけるキーポイント位置の推定及び/又はセマンティックセグメンテーションによる領域分類を実行し、当該推定したキーポイント位置、及び/又は当該領域分類の結果を用いて、前記対象画像から所望領域を含む限定領域を抽出する限定領域抽出部と、
前記抽出された限定領域に対して前記所望領域を認識する処理を実行して、前記限定領域から前記所望領域を抽出して出力する所望領域出力部と、
前記所望領域の出力において優先する対象を、ユーザによる優先度の指定に基づき取得する取得部と、
を備え、
前記限定領域抽出部は、複数の限定領域を抽出し、当該優先する対象に応じて、複数の限定領域それぞれの優先度を決定し、
前記所望領域出力部は、当該優先度に応じて前記所望領域を出力し、
前記限定領域抽出部は、前記複数の限定領域それぞれの優先度を決定する場合、画像領域が大きいほど優先度を高くする
報処理装置。
【請求項10】
請求項1から9のいずれか一項に記載の情報処理装置が備える前記の各部の処理を実行する情報処理方法。
【請求項11】
請求項1から9のいずれか一項に記載の情報処理装置としてコンピュータを機能させるためのプログラム。