特許第6869809号(P6869809)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社NTTドコモの特許一覧

<>
  • 特許6869809-画像推定装置 図000002
  • 特許6869809-画像推定装置 図000003
  • 特許6869809-画像推定装置 図000004
  • 特許6869809-画像推定装置 図000005
  • 特許6869809-画像推定装置 図000006
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6869809
(24)【登録日】2021年4月16日
(45)【発行日】2021年5月12日
(54)【発明の名称】画像推定装置
(51)【国際特許分類】
   G06T 1/00 20060101AFI20210426BHJP
   G06T 7/00 20170101ALI20210426BHJP
   G06F 16/00 20190101ALI20210426BHJP
   G06F 16/50 20190101ALI20210426BHJP
【FI】
   G06T1/00 200A
   G06T7/00 660A
   G06T7/00 510F
   G06F16/00
   G06F16/50
【請求項の数】2
【全頁数】16
(21)【出願番号】特願2017-105390(P2017-105390)
(22)【出願日】2017年5月29日
(65)【公開番号】特開2018-200597(P2018-200597A)
(43)【公開日】2018年12月20日
【審査請求日】2020年2月3日
(73)【特許権者】
【識別番号】392026693
【氏名又は名称】株式会社NTTドコモ
(74)【代理人】
【識別番号】100088155
【弁理士】
【氏名又は名称】長谷川 芳樹
(74)【代理人】
【識別番号】100113435
【弁理士】
【氏名又は名称】黒木 義樹
(74)【代理人】
【識別番号】100121980
【弁理士】
【氏名又は名称】沖山 隆
(74)【代理人】
【識別番号】100128107
【弁理士】
【氏名又は名称】深石 賢治
(72)【発明者】
【氏名】高 文錦
(72)【発明者】
【氏名】山田 直治
(72)【発明者】
【氏名】一岡 渉
(72)【発明者】
【氏名】服部 響
(72)【発明者】
【氏名】石井 真子
【審査官】 片岡 利延
(56)【参考文献】
【文献】 特開2009−296248(JP,A)
【文献】 特開2014−016784(JP,A)
【文献】 特開2014−016818(JP,A)
【文献】 特開2015−011557(JP,A)
【文献】 特開2014−016826(JP,A)
【文献】 特開2012−039490(JP,A)
【文献】 特開2017−010251(JP,A)
【文献】 特開2011−128992(JP,A)
【文献】 特開2011−081763(JP,A)
【文献】 特開2015−005172(JP,A)
【文献】 国際公開第2012/147256(WO,A1)
【文献】 特許第5477017(JP,B2)
【文献】 特許第5136819(JP,B2)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 1/00
G06F 16/00
G06F 16/50
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
複数の画像を取得するとともに、該複数の画像それぞれの撮像場所を示す情報を取得する取得部と、
前記複数の画像に含まれた複数の顔について類似度に基づきグルーピングを行い、複数の被写体を特定する被写体特定部と、
前記撮像場所を示す情報に応じて、前記被写体特定部によって特定された前記複数の被写体の関係性を推定する推定部と、
特定の集団の活動場所を示す情報を記憶する活動場所記憶部と、
推定部によって前記特定の集団を構成すると推定された前記複数の被写体を、集団構成候補として利用者に通知する通知部と、
前記集団構成候補のうち前記利用者によって選択された前記被写体が含まれる画像に集団構成タグを付与するタグ付与部と、を備え、
前記推定部は、前記撮像場所が前記活動場所から所定の範囲内である画像に顔が含まれた前記複数の被写体について、いずれも前記特定の集団を構成すると推定し、
前記被写体特定部は、
所定の年齢以上である第1年齢層と推定される被写体の顔と、該所定の年齢未満である第2年齢層と推定される被写体の顔とを分けて前記グルーピングを行い、
前記第2年齢層の被写体の顔のグルーピングを行う際に類似していると判定する閾値を、前記第1年齢層の被写体の顔のグルーピングを行う際に類似していると判定する閾値よりも高くし、
前記通知部は、
前記集団構成候補に係る画像を表示することにより、前記利用者に前記集団構成候補を通知し、
前記第2年齢層の被写体についての前記集団構成候補に係る画像の表示枚数を、前記第1年齢層の被写体についての前記集団構成候補に係る画像の表示枚数よりも多くする画像推定装置。
【請求項2】
前記取得部は、前記複数の画像それぞれの撮影日時を示す情報を取得し、
前記通知部は、
前記集団構成候補に係る画像を表示することにより、前記利用者に前記集団構成候補を通知し、
前記撮像場所が前記活動場所から所定の範囲内である画像の枚数が所定以上である前記集団構成候補のみを、表示対象とするとともに、前記撮像場所が前記活動場所から所定の範囲内である画像のうち、前記撮影日時が互いに異なる画像の枚数が多い前記集団構成候補から順に、前記集団構成候補に係る画像を表示する、請求項1記載の画像推定装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、写真等の画像分類に係る画像推定装置に関する。
【背景技術】
【0002】
特許文献1には、写真内のオブジェクトを画像認識し、画像認識結果に基づくタグを写真に自動的に付加し、該タグを利用して写真の分類等を行うシステムが記載されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2015−501982号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ここで、例えば家族等の、生活空間を共にする特定の集団の画像については、他の画像と区別して整理したい場合がある。しかしながら、上述した特許文献1に記載されたようなシステムは、単にオブジェクトの画像認識結果に基づくタグ付けを行うものであり、例えば写真内に人物の顔がある場合にその旨をタグ付けするものに過ぎず、家族等の生活空間を共にする特定の集団の画像を他の画像と効果的に区別することができない。
【0005】
本発明は上記実情に鑑みてなされたものであり、生活空間を共にする特定の集団の画像を、他の画像と効果的に区別して整理することを目的とする。
【課題を解決するための手段】
【0006】
本発明の一態様に係る画像推定装置は、複数の画像を取得するとともに、該複数の画像それぞれの撮像場所を示す情報を取得する取得部と、複数の画像に含まれた複数の顔について類似度に基づきグルーピングを行い、複数の被写体を特定する被写体特定部と、撮像場所を示す情報に応じて、被写体特定部によって特定された複数の被写体の関係性を推定する推定部と、を備える。
【0007】
本発明の一態様に係る画像推定装置では、画像の撮像場所を示す情報に応じて、顔が検出された複数の被写体の関係性が推定される。これにより、例えば、特定の場所(例えば自宅)で撮像された画像に含まれている複数の被写体について、該特定の場所を共通の生活空間とする同一の集団(例えば家族)のメンバであると推定すること等が可能となる。このことで、被写体の関係性を考慮して、家族等の、生活空間を共にする特定の集団の画像を、他の画像と効果的に区別して整理することができる。
【発明の効果】
【0008】
本発明によれば、生活空間を共にする特定の集団の画像を、他の画像と効果的に区別して整理することができる。
【図面の簡単な説明】
【0009】
図1】本実施形態に係る家族推定システムの機能構成を示すブロック図である。
図2図1に示される家族推定装置のハードウェア構成を示す図である。
図3】データ格納部に記憶される各情報を示す表であり、図3(a)は画像ファイル管理情報、図3(b)は顔画像ファイル管理情報、図3(c)は顔グループ管理情報、図3(d)は自宅登録管理情報をそれぞれ示す表である。
図4】データ表示端末における家族候補の表示イメージを示す図である。
図5図1に示される家族推定装置が行う家族推定方法の一連の処理を示すフローチャートである。
【発明を実施するための形態】
【0010】
以下、添付図面を参照しながら本発明の実施形態を詳細に説明する。図面の説明において、同一又は同等の要素には同一符号を用い、重複する説明を省略する。
【0011】
図1は、本実施形態に係る家族推定システム1の機能構成を示すブロック図である。家族推定システム1は、利用者が撮像した画像(写真)から家族が写っている画像のみをグルーピングし、家族が写っている画像を他の画像と区別して整理するシステムである。家族推定システム1は、家族推定装置10と、データ表示端末20とを備えている。
【0012】
家族推定装置10は、データ表示端末20と通信可能に構成されたサーバであり、取得部11と、被写体特定部12と、家族候補登録部13(推定部)と、通知部14と、タグ付与部15と、データ格納部16(活動場所記憶部)と、を備えている。なお、以下の説明においては、便宜上、家族推定装置10が一台のデータ表示端末20と通信する例を説明するが、実際には、家族推定装置10は、複数台のデータ表示端末20と通信可能に構成されている。家族推定装置10は、例えば図2に示されるハードウェアによって構成されている。
【0013】
図2は、家族推定装置10のハードウェア構成を示す図である。図2に示されるように、家族推定装置10は、物理的には、1又は複数のプロセッサ1001、主記憶装置であるメモリ1002、ハードディスク又は半導体メモリ等のストレージ1003、ネットワークカード等のデータ送受信デバイスである通信装置1004、入力装置1005、及びディスプレイ等の出力装置1006等を含むコンピュータシステムとして構成されている。図1に示される各機能は、図2に示されるメモリ1002等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、プロセッサ1001の制御のもとで入力装置1005、出力装置1006、及び通信装置1004を動作させるとともに、メモリ1002及びストレージ1003におけるデータの読み出し及び書き込みを行うことにより実現される。
【0014】
再び図1を参照して、家族推定装置10の各機能の詳細を説明する。
【0015】
取得部11は、データ表示端末20から複数の画像(データ表示端末20において撮像された複数の画像)を取得するとともに、該複数の画像それぞれの撮像場所を示す情報を取得する。より詳細には、取得部11は、画像及び画像の撮像場所を示す情報に加えて、データ表示端末20より、データ表示端末20の利用者を一意に特定する情報であるユーザアカウントIDを取得する。取得部11は、取得した情報に基づき、画像毎に画像ファイル管理情報を生成し、該画像ファイル管理情報、及び画像をデータ格納部16に格納する。
【0016】
図3(a)は、取得部11によりデータ格納部16に格納される画像ファイル管理情報I1の一例を示す図である。図3(a)に示されるように、画像ファイル管理情報I1においては、ファイルID、ユーザアカウントID、データ保存先、緯度、経度、前処理の顔検出ステータスフラグ、前処理の顔検出結果フラグ、及び、家族タグフラグが対応付けられている。ファイルIDは、格納された画像を一意に特定するIDである。ユーザアカウントIDは、上述したように、データ表示端末20の利用者を一意に特定する情報である。データ保存先は、画像の保存先を示す情報である。緯度及び経度は、画像の撮像場所を示す緯度及び経度である。前処理の顔検出ステータスフラグ、前処理の顔検出結果フラグ、及び、家族タグフラグは、「0」又は「1の」いずれかが設定されるフラグであり、取得部11によって画像ファイル管理情報I1が生成された際には初期値として「0」が設定される。これらのフラグの詳細については後述する。
【0017】
被写体特定部12は、取得部11によって取得された複数の画像に含まれた複数の顔について類似度に基づきグルーピングを行い、複数の被写体を特定する。被写体特定部12は、前処理、顔検出処理、及びグルーピング処理(顔認識処理)を順に行う。
【0018】
前処理では、被写体特定部12は、データ表示端末20において撮像されてデータ格納部16に格納されている画像を回転させる。データ表示端末20における撮像時においては、利用者は、データ表示端末20を様々な角度に傾けて被写体を撮像することが考えられる。例えば、データ表示端末20の長辺を垂直方向にして被写体を撮像する場合と、データ表示端末20の長辺を水平方向にして被写体を撮像する場合とでは、被写体の顔の向きが90度異なることとなる。また、撮像時においては、被写体自身が顔を傾けることが考えられる。同一の被写体であっても、異なる画像間で顔の向きが異なる場合には、異なる被写体の顔であるとしてグルーピングされるおそれがある。その対応として、被写体特定部12は、異なる画像間における顔の向きを極力共通とすべく、画像を回転させる。被写体特定部12は、例えば、従来から周知技術となっている顔検出技術(詳細は後述)を用いて、画像中の顔の特徴(目、鼻、頬骨、あご等の顔のパーツ)の相対的位置を取得し、各パーツが互いに向き合う方向が所定の方向となるように、画像を回転させる。後述する顔検出処理においては、画像中における全ての被写体の各顔のパーツが検出される必要があるが、前処理においては、少なくとも1人の被写体の一部の顔のパーツ(傾きを把握できるパーツ)が検出されればよい。被写体特定部12は、当該前処理が完了すると、上述した画像ファイル管理情報I1(図3(a)参照)における「前処理の顔検出ステータスフラグ」を「1」に変更する。また、当該前処理において適切に顔が検出された場合には、上述した画像ファイル管理情報I1(図3(a)参照)における「前処理の顔検出結果フラグ」を「1」に変更する。なお、例えば、撮像時におけるデータ表示端末20の傾きが把握できる場合においては、被写体特定部12は、上記顔検出技術を用いずに、単に、撮影時におけるデータ表示端末20の傾きを考慮して該傾きが是正される方向に、各画像を回転させてもよい。
【0019】
顔検出処理では、被写体特定部12は、データ格納部16に格納されている前処理後の各画像について、被写体の顔の検出を行う。被写体特定部12は、従来から周知技術となっている顔検出技術を用いて、画像中のすべての被写体の顔を検出する。被写体特定部12は、画像の中から顔領域を決定するとともに、顔の特徴(目、鼻、頬骨、あご等の顔のパーツ)の位置を求める。また、被写体特定部12は、検出した顔について、年齢及び性別の推定を行う。被写体特定部12は、例えば、データ格納部16又は外部のデータベースに保存されている大量の顔のパターンを学習することにより、検出した顔の年齢及び性別の推定を行う。年齢の推定においては、例えば、子供の顔が、大人の顔よりも、目が大きく位置が高いこと、鼻及び口が小さいこと、顔の輪郭が丸くあごが小さいこと等の特徴が考慮される。被写体特定部12は、検出した顔毎に顔画像ファイル管理情報を生成し、該顔画像ファイル管理情報をデータ格納部16に格納する。また、被写体特定部12は、検出した顔画像を切り出してデータ格納部16に格納する。
【0020】
図3(b)は、被写体特定部12によりデータ格納部16に格納される顔画像ファイル管理情報I2の一例を示す図である。図3(b)に示されるように、顔画像ファイル管理情報I2においては、顔ID、画像ファイル管理ID、顔サイズ、推定年齢、推定性別、及び、顔グループIDが対応付けられている。顔IDは、検出した顔(切り出されてデータ格納部16に格納された顔)を一意に特定するIDである。画像ファイル管理IDは、顔を検出した画像を一意に特定するIDであり、上述した画像ファイル管理情報I1のファイルIDと共通のIDである。顔サイズは、検出した顔の矩形面積(顔を囲む矩形の面積)である。推定年齢は、顔検出処理において顔から推定された年齢である。推定性別は、顔検出処理において顔から推定された性別である。顔グループIDは、後述するグルーピング処理後に入力される、被写体を一意に特定するIDである。
【0021】
グルーピング処理(顔認識処理)では、被写体特定部12は、従来から周知技術となっている顔認識技術を用いて、顔検出処理において検出した複数の顔を互いに照合し、類似する顔を同一の被写体の顔であるとしてグルーピングする。被写体特定部12は、まず、データ格納部16の顔画像ファイル管理情報I2の推定年齢に基づき、データ格納部16に格納された各顔画像を、大人の被写体の顔画像と、子供の被写体の顔画像とに分ける。被写体特定部12は、推定年齢が所定年齢(例えば12歳)以上の顔画像を大人(第1年齢層)の被写体の顔画像とし、所定年齢未満の顔画像を子供(第2年齢層)の被写体の顔画像とする。被写体特定部12は、大人の被写体の顔画像と子供の被写体の顔画像とを分けて、それぞれグルーピングを行う。被写体特定部12は、例えば互いに照合する顔の特徴をそれぞれ抽出して、直接幾何学的に比較し、互いの顔の類似度が所定の閾値を超える場合に、これらの顔が類似する(同一の被写体の顔である)として、グルーピングする。子供の被写体の顔のグルーピングを行う際に類似していると判定する閾値は、大人の被写体の顔のグルーピングを行う際に類似していると判定する閾値よりも高く設定されている。すなわち、子供の顔のグルーピングにおいては、大人の顔のグルーピングよりも、類似している(同一の被写体の顔である)と判定されにくくされている。
【0022】
被写体特定部12は、グルーピングを行った後、特定した被写体毎に顔グループIDを設定する(顔グループ登録を行う)。被写体特定部12は、設定した顔グループIDを、上述した顔画像ファイル管理情報I2(図3(b)参照)に入力する。また、被写体特定部12は、被写体毎(顔グループID毎)に顔グループ管理情報を生成し、該顔グループ管理情報をデータ格納部16に格納する。
【0023】
図3(c)は、被写体特定部12によりデータ格納部16に格納される顔グループ管理情報I3の一例を示す図である。図3(c)に示されるように、顔グループ管理情報I3においては、顔グループID、家族候補フラグ、及び、ユーザ選択家族フラグが対応付けられている。顔グループIDは、被写体を一意に特定するIDである。家族候補フラグ、及び、ユーザ選択家族フラグは、「0」又は「1」のいずれかが設定されるフラグであり、被写体特定部12によって顔グループ管理情報I3が生成された際には初期値として「0」が設定される。これらのフラグの詳細については後述する。
【0024】
家族候補登録部13(推定部)は、撮像場所を示す情報に応じて、被写体特定部12によって特定された複数の被写体の関係性を推定する。具体的には、家族候補登録部13は、撮像場所が、利用者の自宅から所定の範囲内である画像に顔が含まれた複数の被写体について、いずれも、当該利用者の家族の一員である(家族を構成する)と推定する。家族候補登録部13は、利用者の自宅に関する情報(自宅の場所に関する情報)を、データ格納部16に格納された自宅登録管理情報を参照して取得する。
【0025】
図3(d)は、データ格納部16に格納されている自宅登録管理情報I4の一例を示す図である。図3(d)に示されるように、自宅登録管理情報I4においては、自宅ID、ユーザアカウントID、緯度、及び経度が対応付けられている。自宅IDは、当該利用者の自宅を一意に特定するIDである。ユーザアカウントIDは、データ表示端末20の利用者を一意に特定する情報である。緯度及び経度は、自宅の場所を示す緯度及び経度である。
【0026】
家族候補登録部13は、まず、データ格納部16の自宅登録管理情報I4を参照し、対象の利用者のユーザアカウントIDに対応付けられた自宅の緯度及び経度を取得する。つづいて、家族候補登録部13は、データ格納部16の画像ファイル管理情報I1を参照し、対象の利用者のユーザアカウントIDに対応付けられた各画像のうち、画像の撮像場所の緯度及び経度が、上述した自宅の緯度及び経度と一致又は近似する画像のファイルID(すなわち、撮像場所が自宅から所定の範囲内である画像のファイルID)をすべて取得する。なお、撮像場所の緯度及び経度は、例えばデータ表示端末20における撮像時においてデータ表示端末20において測位されるものであるところ(詳細は後述)、上述した「近似」の範囲(上述した、所定の範囲)は、データ表示端末20の測位精度を考慮して、撮像場所が自宅である可能性がある範囲とされる。
【0027】
つづいて、家族候補登録部13は、データ格納部16の顔画像ファイル管理情報I2を参照し、取得したファイルIDと画像ファイル管理IDが一致する顔画像の顔グループIDを全て取得する。家族候補登録部13は、取得した顔グループIDによって特定される複数の被写体について、いずれも、当該利用者の家族の一員であると推定し、家族候補(集団構成候補)として登録する。具体的には、家族候補登録部13は、顔グループ管理情報I3(図3(c)参照)において、取得した顔グループIDに対応付けられた家族候補フラグを「1」に変更することにより、利用者の家族の一員であると推定された被写体を家族候補として登録する。
【0028】
通知部14は、家族候補登録部13によって家族候補に登録された(家族の一員であると推定された)複数の被写体を利用者に通知する。通知部14は、家族候補である被写体に係る画像を表示することにより、利用者に家族候補を通知する。通知部14は、利用者が利用するデータ表示端末20において家族候補である被写体に係る画像が表示可能となるように、該画像をデータ表示端末20に送信する。
【0029】
通知部14は、まず、データ格納部16の顔グループ管理情報I3を参照し、家族候補フラグが「1」となっている顔グループIDを全て取得する。つづいて、通知部14は、データ格納部16の顔画像ファイル管理情報I2を参照し、取得した各顔グループIDに対応付けられた顔IDを全て取得する。通知部14は、大人の顔グループIDについては、対応する複数の顔IDのうち、顔サイズ(図3(b)参照)が最も大きい顔IDの顔画像(被写体特定部12によって切り出されてデータ格納部16に格納されている顔画像)1枚のみを、表示対象の画像とする。一方で、通知部14は、子供の顔グループIDについては、対応する複数の顔IDの中から2つ以上選択し、複数の顔IDの顔画像を表示対象の画像とする。すなわち、通知部14は、子供の被写体についての家族候補に係る画像の表示枚数を、大人の被写体についての家族候補に係る画像の表示枚数よりも多くする。
【0030】
タグ付与部15は、通知部14によって利用者に通知された家族候補のうち、利用者によって選択された被写体が含まれる全ての画像に家族タグ(集団構成タグ)を付与する。
【0031】
タグ付与部15は、まず、利用者によって選択された全ての顔画像に係る顔IDを全て取得する。つづいて、タグ付与部15は、データ格納部16の顔画像ファイル管理情報I2を参照し、取得した顔IDに対応付けられた顔グループIDを取得するとともに、取得した顔グループIDに対応づけられた画像ファイル管理IDを全て取得する。つづいて、タグ付与部15は、データ格納部16の顔グループ管理情報I3について、取得した顔グループIDに対応付けられたユーザ選択家族フラグを「1」に変更する。最後に、タグ付与部15は、データ格納部16の画像ファイル管理情報I1について、取得した画像ファイル管理IDとファイルIDが一致する画像の家族タグフラグを「1」に変更する。これにより、家族候補のうち利用者に選択された被写体が写る全ての画像に家族タグを付与することができる。このように家族タグが付与されることによって、例えば利用者が家族の画像を探したい際に、家族が写っている可能性が高い画像を効果的に検索することができる。
【0032】
データ格納部16(活動場所記憶部)は、上述したように、画像ファイル管理情報I1(図3(a)参照)、顔画像ファイル管理情報I2(図3(b)参照)、顔グループ管理情報I3(図3(c)参照)、及び、利用者の自宅の場所に関する情報(特定の集団の活動場所を示す情報)である自宅登録管理情報I4(図3(d)参照)を記憶する。なお、自宅登録管理情報I4において記憶される利用者の自宅の場所に関する情報は、データ表示端末20から送信される情報に基づくものである。
【0033】
次に、図1を参照して、データ表示端末20の各機能の詳細を説明する。データ表示端末20は、家族推定装置10と通信可能に構成された通信端末であり、例えば、スマートフォン又はタブレット端末等である。データ表示端末20は、ハードウェア構成としてカメラとタッチパネルとを備えている。データ表示端末20は、撮像部21と、データ格納部22と、通信部23と、家族候補表示部24とを備えている。
【0034】
撮像部21は、カメラを制御することにより被写体を撮像する機能である。撮像部21は、撮像した写真等の画像及び画像の撮像場所(緯度・経度)をデータ格納部22に格納する。データ格納部22は、撮像部21によって撮像された画像及び画像の撮像場所、並びに、データ表示端末20の利用者の自宅に関する情報(自宅の場所に関する情報)を記憶する。通信部23は、家族推定装置10と通信を行う。通信部23は、データ格納部22に格納されている画像及び画像の撮像場所、並びに、自宅の場所に関する情報を家族推定装置10(詳細には取得部11)に送信する。通信部23は、家族推定装置10(詳細には通知部14)より、家族候補に係る顔画像を受信し、家族候補表示部24に出力する。通信部23は、家族候補に係る顔画像のうち、利用者によって選択された顔画像を家族推定装置10(詳細にはタグ付与部15)に送信する。家族候補表示部24は、データ格納部22より出力された家族候補に係る顔画像を、利用者が選択可能となるように、データ表示端末20のディスプレイに表示する。
【0035】
図4は、家族候補表示部24によってデータ表示端末20のディスプレイに表示される画面イメージである。データ表示端末20のディスプレイはタッチパネルである。以下の説明では、前提として、家族候補表示部24のデータ格納部16に、データ表示端末20において撮像された複数の画像が既に格納されているとする。
【0036】
データ表示端末20では、最初に、図4(a)に示されるように、自宅設定画面が表示される。当該自宅設定画面が表示された状態において、利用者によってディスプレイが操作されることにより自宅の場所が設定され、当該自宅の場所に関する情報が家族推定装置10に送信される。つづいて、図4(b)に示されるように、データ表示端末20には家族設定要否に関するメッセージ(図4(b)中の「家族の写真をまとめませんか」というメッセージ)が表示される。当該メッセージに対して、利用者によってディスプレイが操作されて家族設定が指示されると、図4(c)に示されるように家族候補に係る顔画像が表示される。当該家族候補に係る顔画像は、家族推定装置10の通知部14によって送信されて、家族候補表示部24によってディスプレイに表示されたものである。上述したように、子供の被写体についての家族候補に係る顔画像は複数表示されている。当該表示において、利用者が家族の画像を選択すると、図4(c)に示されるように、利用者が選択した家族の画像にはチェックマークが入る。利用者に選択された全ての顔画像は、家族推定装置10のタグ付与部15に送信される。そして、図4(d)に示されるように、利用者によって選択された被写体が含まれる画像に家族タグが付与されて、他の画像と区別されて表示される。
【0037】
次に、図5を参照して、家族推定装置10が行う家族推定方法の一連の処理を説明する。図5は、家族推定装置10が行う家族推定方法の一連の処理の一例を示すフローチャートである。
【0038】
まず、取得部11によって、データ表示端末20から複数の画像が取得される(ステップS1)。取得部11は、複数の画像とともに、それぞれの画像の撮像場所を示す情報、及びデータ表示端末20の利用者を一意に特定する情報であるユーザアカウントIDを取得する。取得部11は、取得した情報に基づき、画像毎に画像ファイル管理情報を生成し、該画像ファイル管理情報、及び画像をデータ格納部16に格納する。
【0039】
つづいて、被写体特定部12によって前処理が行われる(ステップS2)。該前処理では、被写体特定部12は、データ表示端末20において撮像されてデータ格納部16に格納されている画像を回転させる。
【0040】
つづいて、被写体特定部12によって顔検出処理が行われる(ステップS3)。被写体特定部12は、データ格納部16に格納されている前処理後の各画像について、被写体の顔の検出を行う。被写体特定部12は、従来から周知技術となっている顔検出技術を用いて、画像中のすべての被写体の顔を検出する。さらに、被写体特定部12は、検出した顔について年齢及び性別の推定を行う。被写体特定部12は、検出した顔画像を切り出してデータ格納部16に格納(保存)する(ステップS4)。
【0041】
つづいて、被写体特定部12によって、グルーピング処理が行われる(ステップS5〜S8)。被写体特定部12は、まず、データ格納部16の顔画像ファイル管理情報I2の推定年齢に基づき、データ格納部16に格納された各顔画像について、大人の被写体の顔画像か否かを判定する(ステップS5)。ステップS5において大人の顔画像と判定された顔画像については、大人の顔画像同士で顔認識処理が行われ(ステップS6)、ステップS5において大人の顔画像ではなく子供の顔画像と判定された顔画像については、子供の顔画像同士で顔認識処理が行われる(ステップS7)。被写体特定部12は、例えば互いに照合する顔の特徴をそれぞれ抽出して、直接幾何学的に比較し、互いの顔の類似度が所定の閾値を超える場合に、これらの顔が類似する(同一の被写体の顔である)として、グルーピングし、複数の被写体を特定する。子供の被写体の顔のグルーピングを行う際に類似していると判定する閾値は、大人の被写体の顔のグルーピングを行う際に類似していると判定する閾値よりも高く設定される。
【0042】
ステップS6及びS7の処理後、被写体特定部12によって、特定した被写体毎に顔グループIDが設定され、顔グループ登録が行われる(ステップS8)。被写体特定部12は、設定した顔グループIDを、上述した顔画像ファイル管理情報I2(図3(b)参照)に入力する。また、被写体特定部12は、被写体毎(顔グループID毎)に顔グループ管理情報を生成し、該顔グループ管理情報をデータ格納部16に格納する。
【0043】
つづいて、家族候補登録部13によって、撮像場所が利用者の自宅から所定の範囲内である画像があるか(自宅写真があるか)否かが判定される(ステップS9)。ステップS9において、撮像場所が利用者の自宅から所定の範囲内である画像があると判定された場合には、家族候補登録部13は、当該画像に顔が含まれた被写体を家族候補として登録する(ステップS10)。具体的には、家族候補登録部13は、顔グループ管理情報I3(図3(c)参照)において、取得した顔グループIDに対応付けられた家族候補フラグを「1」に変更することにより、利用者の家族の一員であると推定された被写体を家族候補として登録する。
【0044】
つづいて、通知部14によって、家族候補である被写体に係る画像が表示され、利用者に家族候補が通知される(ステップS11)。そして、当該通知に対して、利用者によって選択(家族である旨の選択)があった場合には、タグ付与部15によって、選択された被写体が含まれる画像への家族タグの付与が行われる(ステップS13)。なお、ステップS9において撮像場所が利用者の自宅から所定の範囲内である画像がないと判定された場合、及び、ステップS12において利用者による選択がないと判定された場合には、処理が終了する。
【0045】
次に、本実施形態に係る家族推定装置10の作用効果について説明する。
【0046】
本実施形態に係る家族推定装置10は、複数の画像を取得するとともに、該複数の画像それぞれの撮像場所を示す情報を取得する取得部11と、複数の画像に含まれた複数の顔について類似度に基づきグルーピングを行い、複数の被写体を特定する被写体特定部12と、撮像場所を示す情報に応じて、被写体特定部12によって特定された複数の被写体の関係性を推定する家族候補登録部13と、を備える。
【0047】
このような家族推定装置10では、画像の撮像場所を示す情報に応じて、顔が検出された複数の被写体の関係性が推定される。これにより、自宅で撮像された画像に含まれている複数の被写体について、家族の一員であると推定すること等が可能となる。このことで、被写体の関係性を考慮して、家族の画像を、他の画像と効果的に区別して整理することができる。
【0048】
家族推定装置10は、利用者の自宅の場所に関する情報である自宅登録管理情報I4(図3(d)参照)を記憶するデータ格納部16を備え、家族候補登録部13は、撮像場所が自宅から所定の範囲内である画像に顔が含まれた複数の被写体について、いずれも家族の一員であると推定する。予め登録された自宅の場所に関する情報が用いられることにより、自宅で生活する家族のメンバを高精度且つ簡易に推定することが可能となる。
【0049】
家族推定装置10は、家族候補登録部13によって家族を構成すると推定された複数の被写体を、家族候補として利用者に通知する通知部14と、家族候補のうち利用者によって選択された被写体が含まれる画像に家族タグを付与するタグ付与部15と、を備える。これにより、利用者に対して、家族を構成する可能性がある被写体を通知し、該通知を受けた利用者によって実際に選択された被写体が含まれた画像を、他の画像と区別することができる。利用者が選択する構成とすることにより、家族の画像を、より高精度且つ簡易に、他の画像と区別することができる。
【0050】
家族候補登録部13は、大人の被写体の顔と子供の被写体の顔とを分けてグルーピングを行い、子供の被写体の顔のグルーピングを行う際に類似していると判定する閾値を、大人の被写体の顔のグルーピングを行う際に類似していると判定する閾値よりも高くし、通知部14は、家族候補に係る画像を表示することにより、利用者に家族候補を通知し、子供の被写体についての家族候補に係る画像の表示枚数を、大人の被写体についての家族候補に係る画像の表示枚数よりも多くする。一般的に、子供の顔については、大人の顔よりも類似度判定が困難であり、同一人物でない場合であっても類似と判定される(誤認識される)ことが多い。この点、子供の被写体の顔を大人の被写体の顔と分けてグルーピングするとともに、類似度判定における閾値を、大人の被写体の値と比べて子供の被写体の値を高くすることにより、子供の被写体の顔についての誤認識を抑制することができる。更に、利用者からの選択(特定の集団の画像の選択)を受ける際に、子供の被写体についての画像の表示枚数を多くすることにより、グルーピングの際に仮に誤認識されている場合であっても、実際に集団を構成する被写体を、利用者に適切に選択させることができる。すなわち、集団を構成する被写体の画像に集団構成タグが付与されないことを抑制できる。
【0051】
なお、上記実施形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェア及び/又はソフトウェアの任意の組み合わせによって実現される。また、各機能ブロックの実現手段は特に限定されない。すなわち、各機能ブロックは、物理的及び/又は論理的に結合した1つの装置により実現されてもよいし、物理的及び/又は論理的に分離した2つ以上の装置を直接的及び/又は間接的に(例えば、有線及び/又は無線で)接続し、これら複数の装置により実現されてもよい。
【0052】
例えば、上記実施形態における家族推定装置10などは、上記実施形態の家族推定装置10の処理を行うコンピュータとして機能してもよい。図2は、本実施形態に係る家族推定装置10のハードウェア構成の一例を示す図である。上述の家族推定装置10は、物理的には、プロセッサ1001、メモリ1002、ストレージ1003、通信装置1004、入力装置1005、出力装置1006、及びバス1007などを含むコンピュータ装置として構成されてもよい。
【0053】
なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。家族推定装置10のハードウェア構成は、図1に示された各装置を1つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。
【0054】
家族推定装置10における各機能は、プロセッサ1001、メモリ1002などのハードウェア上に所定のソフトウェア(プログラム)を読み込ませることで、プロセッサ1001が演算を行い、通信装置1004による通信、メモリ1002及びストレージ1003におけるデータの読み出し及び/又は書き込みを制御することで実現される。
【0055】
プロセッサ1001は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ1001は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置(CPU:Central Processing Unit)で構成されてもよい。
【0056】
また、プロセッサ1001は、プログラム(プログラムコード)、ソフトウェアモジュール、及び/又はデータを、ストレージ1003及び/又は通信装置1004からメモリ1002に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態で説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、家族推定装置10の取得部11は、メモリ1002に格納され、プロセッサ1001で動作する制御プログラムによって実現されてもよく、他の機能ブロックについても同様に実現されてもよい。上述の各種処理は、1つのプロセッサ1001で実行される旨を説明してきたが、2以上のプロセッサ1001により同時又は逐次に実行されてもよい。プロセッサ1001は、1以上のチップで実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されてもよい。
【0057】
メモリ1002は、コンピュータ読み取り可能な記録媒体であり、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)などの少なくとも1つで構成されてもよい。メモリ1002は、レジスタ、キャッシュ、メインメモリ(主記憶装置)などと呼ばれてもよい。メモリ1002は、上記実施形態に係る楽器音認識方法を実施するために実行可能なプログラム(プログラムコード)、ソフトウェアモジュールなどを保存することができる。
【0058】
ストレージ1003は、コンピュータ読み取り可能な記録媒体であり、例えば、CD−ROM(Compact Disc ROM)などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu−ray(登録商標)ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー(登録商標)ディスク、磁気ストリップなどの少なくとも1つで構成されてもよい。ストレージ1003は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ1002及び/又はストレージ1003を含むデータベース、サーバ、その他の適切な媒体であってもよい。
【0059】
通信装置1004は、有線及び/又は無線ネットワークを介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。
【0060】
入力装置1005は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど)である。出力装置1006は、外部への出力を実施する出力デバイス(例えば、ディスプレイ、スピーカー、LEDランプなど)である。なお、入力装置1005及び出力装置1006は、一体となった構成(例えば、タッチパネル)であってもよい。
【0061】
また、プロセッサ1001及びメモリ1002などの各装置は、情報を通信するためのバス1007で接続される。バス1007は、単一のバスで構成されてもよいし、装置間で異なるバスで構成されてもよい。
【0062】
また、家族推定装置10は、マイクロプロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ1001は、これらのハードウェアの少なくとも1つで実装されてもよい。
【0063】
以上、本発明について詳細に説明したが、当業者にとっては、本発明が本明細書中に説明した実施形態に限定されるものではないということは明らかである。本発明は、特許請求の範囲の記載により定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更された態様として実施することができる。したがって、本明細書の記載は、例示説明を目的とするものであり、本発明に対して何ら制限的な意味を有するものではない。
【0064】
例えば、家族が写った画像が写真であるとして説明したがこれに限定されず、画像は、その他の静止画又は動画であってもよい。
【0065】
また、画像推定装置の一例として、家族の画像を推定する家族推定装置を説明したがこれに限定されず、画像推定装置は、家族以外の特定の集団の画像を推定するものであってもよい。特定の集団は、例えば活動場所がある程度定まっているものであり、会社の同僚又は学校の同級生等であってもよい。また、特定の集団の画像を推定する場合には、被写体の年齢推定の結果が反映されてもよい。すなわち、例えば学校の同級生の画像を推定する場合に、被写体の年齢を考慮して、同級生と同年代と思われる被写体の画像を集団構成候補とするものであってもよい。
【0066】
また、家族推定装置10が顔検出処理を行うとして説明したがこれに限定されず、例えば外部の顔認識エンジンによって顔検出処理が行われ、該検出結果を画像推定装置が用いる構成であってもよい。
【0067】
また、画像推定装置は、複数の画像の撮像日時を考慮して利用者に通知する画像を決定するものであってもよい。すなわち、上述した取得部11は、複数の画像それぞれの撮像日時を示す情報を取得し、通知部14は、撮像場所が自宅から所定の範囲内である画像の枚数が所定以上である家族候補のみを、表示対象とするとともに、撮像場所が自宅から所定の範囲内である画像のうち、撮影日時が互いに異なる画像の枚数が多い家族候補から順に、家族候補に係る画像を利用者に表示してもよい。撮影日時は、例えばデータ表示端末20による撮像時に画像に対応付けられるものである。これにより、自宅に頻繁に存在する被写体(すなわち、来客ではない、家族である可能性が高い被写体)を優先的に、利用者からの選択候補とすることができ、利用者が家族を選択する際の容易性を高めることができる。
【0068】
本明細書で説明した各態様/実施形態の処理手順、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。
【0069】
入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルで管理されてもよい。入出力される情報等は、上書き、更新、又は追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。
【0070】
判定は、1ビットで表される値(0か1か)によって行われてもよいし、真偽値(Boolean:true又はfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。
【0071】
本明細書で説明した各態様/実施形態は単独で用いられてもよいし、組み合わせて用いられてもよいし、実行に伴って切り替えて用いられてもよい。また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的に行うものに限られず、暗黙的(例えば、当該所定の情報の通知を行わない)によって行われてもよい。
【0072】
ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。
【0073】
また、ソフトウェア、命令などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線(DSL)などの有線技術及び/又は赤外線、無線及びマイクロ波などの無線技術を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び/又は無線技術は、伝送媒体の定義内に含まれる。
【0074】
本明細書で説明した情報及び信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。
【0075】
なお、本明細書で説明した用語及び/又は本明細書の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。
【0076】
本明細書で使用する「システム」及び「ネットワーク」という用語は、互換的に使用される。
【0077】
また、本明細書で説明した情報、パラメータなどは、絶対値で表されてもよいし、所定の値からの相対値で表されてもよいし、対応する別の情報で表されてもよい。
【0078】
上述したパラメータに使用される名称はいかなる点においても限定的なものではない。さらに、これらのパラメータを使用する数式等は、本明細書で明示的に開示したものと異なる場合もある。
【0079】
「接続された(connected)」、「結合された(coupled)」という用語、又はこれらのあらゆる変形は、2又はそれ以上の要素間の直接的又は間接的なあらゆる接続又は結合を意味し、互いに「接続」又は「結合」された2つの要素間に1又はそれ以上の中間要素が存在することを含むことができる。要素間の結合又は接続は、物理的なものであっても、論理的なものであっても、或いはこれらの組み合わせであってもよい。本明細書で使用する場合、2つの要素は、1又はそれ以上の電線、ケーブル及び/又はプリント電気接続を使用することにより、並びにいくつかの非限定的かつ非包括的な例として、無線周波数領域、マイクロ波領域及び光(可視及び不可視の両方)領域の波長を有する電磁エネルギーなどの電磁エネルギーを使用することにより、互いに「接続」又は「結合」されると考えることができる。
【0080】
本明細書で使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」との両方を意味する。
【0081】
本明細書で使用する「第1」、「第2」などの呼称を使用した要素へのいかなる参照も、それらの要素の量又は順序を全般的に限定するものではない。これらの呼称は、2つ以上の要素間を区別する便利な方法として本明細書で使用され得る。したがって、第1及び第2の要素への参照は、2つの要素のみがそこで採用され得ること、又は何らかの形で第1の要素が第2の要素に先行しなければならないことを意味しない。
【0082】
「含む(including)」、「含んでいる(comprising)」、及びそれらの変形が、本明細書あるいは特許請求の範囲で使用されている限り、これら用語は、用語「備える」と同様に、包括的であることが意図される。さらに、本明細書あるいは特許請求の範囲において使用されている用語「又は(or)」は、排他的論理和ではないことが意図される。
【0083】
本明細書において、文脈又は技術的に明らかに1つのみしか存在しない装置であることが示されていなければ、複数の装置をも含むものとする。
【符号の説明】
【0084】
10…家族推定装置、11…取得部、12…被写体特定部、13…家族候補登録部(推定部)、14…通知部、15…タグ付与部、16…データ格納部(活動場所記憶部)。
図1
図2
図3
図4
図5