(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-30
(45)【発行日】2024-09-09
(54)【発明の名称】画像内容判定装置、画像内容判定装置の作動方法、及び画像内容判定プログラム
(51)【国際特許分類】
G06F 16/583 20190101AFI20240902BHJP
G06F 16/532 20190101ALI20240902BHJP
G06Q 50/10 20120101ALI20240902BHJP
G06T 7/00 20170101ALI20240902BHJP
【FI】
G06F16/583
G06F16/532
G06Q50/10
G06T7/00 660A
(21)【出願番号】P 2022509272
(86)(22)【出願日】2020-12-21
(86)【国際出願番号】 JP2020047780
(87)【国際公開番号】W WO2021192462
(87)【国際公開日】2021-09-30
【審査請求日】2022-09-08
(31)【優先権主張番号】P 2020058617
(32)【優先日】2020-03-27
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】306037311
【氏名又は名称】富士フイルム株式会社
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】中川 智洋
【審査官】齊藤 貴孝
(56)【参考文献】
【文献】特表2013-501978(JP,A)
【文献】米国特許出願公開第2017/0318077(US,A1)
【文献】特開2016-173797(JP,A)
【文献】米国特許出願公開第2012/0158700(US,A1)
【文献】特開2018-025966(JP,A)
【文献】特開2018-109935(JP,A)
【文献】特開2008-131330(JP,A)
【文献】国際公開第2016/131083(WO,A1)
【文献】特開2014-016785(JP,A)
【文献】米国特許出願公開第2019/0362169(US,A1)
【文献】中国特許出願公開第106203294(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06Q 10/00-99/00
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
少なくとも1つのプロセッサを備えており、
前記プロセッサは、
文字と第1人物の顔とを含む第1画像から、前記文字と前記第1人物の顔とを認識する第1認識処理を実行し、
認識した前記文字と前記第1人物の顔とに基づいて、前記第1画像に含まれる前記第1人物に関わる第1人物関連情報を取得する第1取得処理を実行し、
第2人物の顔を含む第2画像から前記第2人物の顔を認識する第2認識処理を実行し、
前記第2画像に含まれる前記第2人物に関わる第2人物関連情報を取得する第2取得処理であって、前記第2人物の顔と類似する前記第1人物の顔を含む前記第1画像に対応する前記第1人物関連情報を利用して、前記第2人物関連情報を取得する第2取得処理を実行
し、 前記第2人物関連情報は、前記第2画像内の複数の前記第2人物の関係を示す情報、前記第2人物が関わるイベント、前記第2人物の推定年齢、及び前記第2人物の趣味のうちの少なくとも1つを含む
画像内容判定装置。
【請求項2】
前記第1画像は、前記第1人物の顔が含まれる写真領域と、前記写真領域の輪郭外の余白であって前記文字が配置されている文字領域とを含む文字領域有り画像を含んでおり、
前記第2画像は、前記第2人物の顔が含まれる写真領域のみの文字領域無し画像である請求項1に記載の画像内容判定装置。
【請求項3】
前記第1画像は、挨拶状及び身分証明書のうちの少なくとも1つを表す画像を含む請求項1又は請求項2に記載の画像内容判定装置。
【請求項4】
前記第1画像は、前記第1人物の顔が含まれる写真領域のみの文字領域無し画像であって、かつ、前記写真領域に、前記文字として予め登録された特定ワードが写り込んでいる文字写り込み画像を含む請求項1から請求項3のいずれか一項に記載の画像内容判定装置。
【請求項5】
前記第1画像は、前記文字として予め登録された特定ワードを含んでいる請求項1から請求項4のいずれか一項に記載の画像内容判定装置。
【請求項6】
前記プロセッサは、複数の画像を、前記第1画像と前記第2画像とに分類する分類処理を実行する請求項1又は請求項2に記載の画像内容判定装置。
【請求項7】
前記第1人物関連情報は、前記第2画像と同じ保有者が保有する前記第1画像から取得される請求項1又は請求項2に記載の画像内容判定装置。
【請求項8】
前記第1人物関連情報は、前記第1人物の氏名、住所、電話番号、年齢、生年月日、及び趣味のうちの少なくとも1つを含む請求項1から請求項7のうちいずれか一項に記載の画像内容判定装置。
【請求項9】
前記第1取得処理及び前記第2取得処理のうちの少なくとも一方において、前記プロセッサは、前記第1画像又は前記第2画像に付帯する付帯情報を利用する請求項1から請求項8のうちのいずれか一項に記載の画像内容判定装置。
【請求項10】
前記第2取得処理において、前記プロセッサは、前記第2画像に基づいて前記第2人物関連情報を導出し、前記第1人物関連情報に基づいて、導出した前記第2人物関連情報の妥当性を判定する請求項9に記載の画像内容判定装置。
【請求項11】
前記第1人物関連情報は前記第1画像
内の複数の前記第1人物の関係を示す情報を含む
請求項1から10のうちのいずれか一項に記載の画像内容判定装置。
【請求項12】
複数の前記第1人物の関係を示す情報又は複数の前記第2人物の関係を示す情報は、家族関係、親族関係、及び友人関係のうちの少なくとも1つを含む
請求項1から請求項11のうちのいずれか一項に記載の画像内容判定装置。
【請求項13】
前記プロセッサは、前記第2取得処理において、複数の前記第1画像に対応する前記第1人物関連情報を、前記第2人物関連情報の取得に利用する
請求項1から請求項12のいずれか一項に記載の画像内容判定装置。
【請求項14】
少なくとも1つのプロセッサを備えた画像内容判定装置の作動方法であって、
前記プロセッサは、文字と第1人物の顔とを含む第1画像から、前記文字と前記第1人物の顔とを認識する第1認識処理を実行すること、
認識した前記文字と前記第1人物の顔とに基づいて、前記第1画像に含まれる前記第1人物に関わる第1人物関連情報を取得する第1取得処理を実行すること、
第2人物の顔を含む第2画像から前記第2人物の顔を認識する第2認識処理を実行すること、及び
前記第2画像に含まれる前記第2人物に関わる第2人物関連情報を取得する第2取得処理であって、前記第2人物の顔と類似する前記第1人物の顔を含む前記第1画像に対応する前記第1人物関連情報を利用して、前記第2人物関連情報を取得する第2取得処理を実行すること、を含
み、
前記第2人物関連情報は、前記第2画像内の複数の前記第2人物の関係を示す情報、前記第2人物が関わるイベント、前記第2人物の推定年齢、及び前記第2人物の趣味のうちの少なくとも1つを含む
画像内容判定
装置の作動方法。
【請求項15】
少なくとも1つのプロセッサを含むコンピュータに、
文字と第1人物の顔とを含む第1画像から、前記文字と前記第1人物の顔とを認識する第1認識処理を実行すること、
認識した前記文字と前記第1人物の顔とに基づいて、前記第1画像に含まれる前記第1人物に関わる第1人物関連情報を取得する第1取得処理を実行すること、
第2人物の顔を含む第2画像から前記第2人物の顔を認識する第2認識処理を実行すること、及び、
前記第2画像に含まれる前記第2人物に関わる第2人物関連情報を取得する第2取得処理であって、前記第2人物の顔と類似する前記第1人物の顔を含む前記第1画像に対応する前記第1人物関連情報を利用して、前記第2人物関連情報を取得する第2取得処理を実行することを含む処理を実行させるための画像内容判定プログラム
であって、
前記第2人物関連情報は、前記第2画像内の複数の前記第2人物の関係を示す情報、前記第2人物が関わるイベント、前記第2人物の推定年齢、及び前記第2人物の趣味のうちの少なくとも1つを含む
画像内容判定プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示の技術は、画像内容判定装置、画像内容判定装置の作動方法、及び画像内容判定プログラムに関する。
【背景技術】
【0002】
近年、ユーザが保有する写真などの画像のデータをネットワーク経由で配信可能に保管するオンラインストレージサービスが知られている。ユーザは、携帯端末及び/又はPC(Personal Computer)を用いて、ストレージに保存された画像をダウンロードして閲覧することができる。
【0003】
こうしたオンラインストレージサービスにおいて、ストレージに保存された大量の画像の中からユーザが閲覧したい画像を検索しやすいように、ストレージに保存された画像に対して、キーワード検索が可能なタグ情報を付与することが行われている(特表2009-526302号及び特開2010-067014号)。
【0004】
特表2009-526302号及び特開2010-067014号には、例えば、2つの画像がそれぞれ人物の顔を含み、かつ、一方の画像にユーザの入力によって人物の名前などのタグ情報が付与されている場合において、2つの画像に含まれる顔の類似性に基づいて、一方の画像に付与されているタグ情報を他方の画像にコピーする技術が開示されている。
【発明の概要】
【0005】
しかしながら、特表2009-526302号及び特開2010-067014号に記載の技術では、タグ情報のコピー元の画像に対しては、予めユーザによるタグ情報の入力が必要であるため、ユーザの手間が掛かるという問題があった。例えば、ユーザが画像を1枚ずつ見ながら画像内容を確認し、確認した画像内容に応じたタグ情報を付与することは、画像の枚数が多いと煩雑である。
【0006】
そこで、ユーザの手間を掛けずに画像に対してタグ情報を付与する方法として、画像解析を施すことにより、画像内容を判定し、判定結果に基づいてタグ情報を付与する方法が考えられる。画像解析を用いた画像内容の判定方法としては、例えば、画像に含まれる人物の年齢を推定したり、画像に複数の人物が含まれている場合に、各人物の推定年齢から各人物の関係(家族関係など)を推定したりする方法が考えられる。
【0007】
しかしながら、画像解析による画像内容の判定精度にも限界がある。そのため、画像に含まれる人物に関わる情報を推定する場合において、画像内容の判定対象となる画像のデータのみを用いて画像解析をするだけでは、推定によって得られる情報の信頼性が低いという問題があった。
【0008】
上記問題を鑑みて、本開示の技術に係る一つの実施形態は、ユーザの手間を掛けることなく、画像に含まれる人物に関わる情報として信頼性の高い情報を取得することが可能な画像内容判定装置、画像内容判定方法、及び画像内容判定プログラムを提供する。
【課題を解決するための手段】
【0009】
本開示の画像内容判定装置は、少なくとも1つのプロセッサを備えており、プロセッサは、文字と第1人物の顔とを含む第1画像から、文字と第1人物の顔とを認識する第1認識処理を実行し、認識した文字と第1人物の顔とに基づいて、第1画像に含まれる第1人物に関わる第1人物関連情報を取得する第1取得処理を実行し、第2人物の顔を含む第2画像から第2人物の顔を認識する第2認識処理を実行し、第2画像に含まれる第2人物に関わる第2人物関連情報を取得する第2取得処理であって、第2人物の顔と類似する第1人物の顔を含む第1画像に対応する第1人物関連情報を利用して、第2人物関連情報を取得する第2取得処理を実行する。
【0010】
本開示の画像内容判定装置の作動方法は、少なくとも1つのプロセッサを備えた画像内容判定装置の作動方法であって、プロセッサは、文字と第1人物の顔とを含む第1画像から、文字と第1人物の顔とを認識する第1認識処理を実行し、認識した文字と第1人物の顔とに基づいて、第1画像に含まれる第1人物に関わる第1人物関連情報を取得する第1取得処理を実行し、第2人物の顔を含む第2画像から第2人物の顔を認識する第2認識処理を実行し、第2画像に含まれる第2人物に関わる第2人物関連情報を取得する第2取得処理であって、第2人物の顔と類似する第1人物の顔を含む第1画像に対応する第1人物関連情報を利用して、第2人物関連情報を取得する第2取得処理を実行する。
【0011】
本開示の画像内容判定装置の作動プログラムは、少なくとも1つのプロセッサを含むコンピュータを画像内容判定装置として機能させるための作動プログラムであって、文字と第1人物の顔とを含む第1画像から、文字と第1人物の顔とを認識する第1認識処理を実行し、認識した文字と第1人物の顔とに基づいて、第1画像に含まれる第1人物に関わる第1人物関連情報を取得する第1取得処理を実行し、第2人物の顔を含む第2画像から第2人物の顔を認識する第2認識処理を実行し、第2画像に含まれる第2人物に関わる第2人物関連情報を取得する第2取得処理であって、第2人物の顔と類似する第1人物の顔を含む第1画像に対応する第1人物関連情報を利用して、第2人物関連情報を取得する第2取得処理をプロセッサに実行させる。
【図面の簡単な説明】
【0012】
【
図1】オンラインストレージサービスの概要を示す説明図である。
【
図3】画像内容判定装置に備えられたCPUの機能ブロック図である。
【
図4】分類部によって行われる分類処理の説明図である。
【
図5】第1認識部によって行われる第1認識処理、及び第1取得部によって行われる第1取得処理の説明図である。
【
図8】第2認識部によって行われる第2認識処理の説明図である。
【
図10】第2取得部によって行われる第2取得処理の説明図である。
【
図11】タグ付け部によって行われるタグ付け処理の説明図である。
【
図12】第2人物関連情報及びタグ情報を追加した第2画像情報リストの一例を示す
説明図である。
【
図13】画像内容判定処理のフローチャートである。
【
図16】第2実施形態の第2取得処理の一例を示す説明図である。
【
図17】第3実施形態の第1取得処理の一例を示す説明図である。
【
図18】第3実施形態の第2取得処理の一例を示す説明図である。
【
図19】第4実施形態の第1取得処理の一例を示す説明図である。
【
図20】第4実施形態の第2取得処理の一例を示す説明図である。
【
図21】第5実施形態の第1取得処理の一例を示す表である。
【
図22】第5実施形態の第2取得処理の一例を示す説明図である。
【
図23】特定ワードの有無による分類処理の説明図である。
【
図24】記憶媒体に記憶されたプログラムを画像内容判定装置にインストールする一例を示す説明図である。
【発明を実施するための形態】
【0013】
[第1実施形態]
図1において、本開示の技術の一例である画像内容判定装置2は、画像配信システムの一部を構成する。画像配信システムは、ユーザA及びユーザBなどの複数のユーザの画像Pをストレージ4に保管し、保管した画像Pを各ユーザからの要求に応じて通信ネットワークNを介して配信するシステムである。画像Pは、各ユーザが保有する写真などのデジタルデータである。画像配信システムが提供するサービスは、ユーザから見れば通信ネットワークNを介したストレージ4に画像を保管するサービスであるため、オンラインストレージサービスなどとも呼ばれる。画像配信システムの利用に当たっては、各ユーザは、画像配信システムを運営する事業者と利用契約を結ぶ。利用契約をしたユーザには、例えば、ユーザ毎のアカウントが作成され、ストレージ4内に各ユーザの画像Pを保管する格納領域が割り当てられる。利用契約に当たっては、事業者は、ユーザの氏名及び生年月日などの個人情報の提供を受け、取得した個人情報をユーザのアカウント情報として登録する。
【0014】
ストレージ4は、ハードディスクドライブ又はソリッドステートドライブなどのデータストレージデバイスである。ストレージ4は、画像内容判定装置2と通信可能に接続されており、画像内容判定装置2の外部ストレージとしても機能する。なお、ストレージ4は、ネットワークを介して画像内容判定装置2と接続されていても良く、ネットワークは、インターネット等のWAN(Wide Area Network)でも、Wifi(登録商標)等のLAN(Local Area Network)でも良い。また、ネットワークと画像内容判定装置2との接続は有線でも無線でも良い。さらに、ストレージ4は、画像内容判定装置2にUSB(Universal Serial Bus)等で直接接続される記録媒体でも良く、画像内容判定装置2に内蔵されていても良い。なお、ストレージ4は、単一の装置に限らず、データ毎及び/又は容量毎に複数の装置で構成されても良い。
【0015】
ユーザA及びユーザBを含む各ユーザは、例えばスマートデバイス6にインストールしたオンラインストレージサービス用のアプリケーションを立ち上げて、スマートデバイス6で撮影した写真の画像データを、通信ネットワークNを介してストレージ4にアップロードする。また各ユーザは、PCを介してオンラインストレージサービスにアクセスすることができる。各ユーザは、デジタルカメラ8で撮影した写真の画像データを、PCを介してストレージ4にアップロードする。さらに各ユーザは、プリント写真PAをスキャナ10で読み取り、デジタル化した画像データを、PC又はスマートデバイス6を介してストレージ4にアップロードすることができる。なお、プリント写真PAは、スキャナ10でデジタル化される代わりに、スマートデバイス6又はデジタルカメラ8の撮影機能によってデジタル化されてもよい。
【0016】
プリント写真PAには、各ユーザが作成した挨拶状も含まれる。挨拶状としては、年賀状、クリスマスカード、暑中見舞い、及び寒中見舞い等がある。なお、ユーザがプリント写真PAを自らデジタル化して、ストレージ4にアップロードする代わりに、プリント写真PAのデジタル化をオンラインストレージサービスの事業者に委託してもよい。
【0017】
各ユーザによってアップロードされた画像データは、ストレージ4に画像Pとして保管される。そして、ストレージ4にアップロードされた画像Pに対しては、画像内容判定装置2によるタグ付けが行われる。ストレージ4には、例えば、タグ付けが未処理の画像Pが格納される未処理フォルダ12と、タグ付けが処理済みの画像Pが格納される処理済フォルダ14とが設けられている。
【0018】
未処理フォルダ12には、例えば、ユーザA専用フォルダ12A及びユーザB専用フォルダ12Bというように、ユーザ毎に専用フォルダが設けられ、各ユーザ専用フォルダに各ユーザが保有する画像Pが格納される。ユーザAによってアップロードされた画像データは、未処理フォルダ12に設けられたユーザA専用フォルダ12Aに記憶される。ユーザBによってアップロードされた画像データは、未処理フォルダ12に設けられたユーザB専用フォルダ12Bに記憶される。
【0019】
画像内容判定装置2は、顔認識、文字認識、及び撮影シーン判別などの画像解析技術を用いて画像Pの内容を判定する装置である。本例の画像内容判定装置2は、さらに、画像Pの内容の判定結果を、画像Pをキーワード検索するための検索用のタグ情報として画像Pに付与するタグ付けを行う。
【0020】
また、画像Pに付与されるタグ情報は、画像Pの内容の判定結果以外の情報、例えば画像PのExif(Exchangeable Image File Format)情報等の付帯情報であっても良い。Exif情報には、撮影機器メーカ及びモデル名の他、撮影日時、撮影場所を示すGPS(Global Positioning System)情報などの情報が含まれている。Exif情報は既に画像Pのファイル内にメタ情報として記録されており、検索用のタグとして利用することが可能である。
【0021】
画像内容判定装置2は、Exif情報とは別に、画像Pの内容を判定することにより、画像Pに含まれる人物に関わる情報をタグ情報として付与する機能を備えている。
【0022】
例えば、画像Pが年賀状などの第1画像P1である場合、年賀状には、家族を構成する複数の人物の顔を含む家族写真が含まれている場合が多い。さらに、年賀状には、家族を構成する複数の人物の氏名、日付などの文字が含まれている。第1画像P1が年賀状であるということが判別できれば、第1画像P1内の写真に含まれる複数の人物の関係は家族であり、第1画像P1に含まれる氏名は、その家族の氏名であると推定することができる。このように年賀状などの挨拶状には、画像P内に、人物の顔に加えて、人物の名前、などの人物に関わる文字情報が含まれている。
【0023】
また、画像Pには、第1画像P1のように人物の顔と文字とを含む画像の他に、第2画像P2のように人物の顔を含むが文字を含まない画像もある。画像内容判定装置2は、このような文字を含まない第2画像P2についても画像内容を解析することより、第2画像P2に含まれる人物に関わる情報の推定を行う。
【0024】
画像内容判定装置2は、第1画像P1のように人物の顔と文字とを含む画像Pから得た人物に関わる情報を、文字を含まないが人物の顔を含む第2画像P2の内容の解析に利用する機能を有している。以下、この機能を中心に説明する。
【0025】
画像内容判定装置2は、例えば、ユーザ毎の画像群毎に画像内容の判定を行う。画像内容判定装置2は、例えばユーザAの画像群の画像内容の判定を行う場合には、未処理フォルダ12のユーザA専用フォルダ12Aに格納されたユーザAの画像Pに対して画像内容判定処理を施す。
【0026】
画像Pには、第1画像P1と第2画像P2とが含まれている。第1画像P1は、文字と人物の顔とを含む画像である。第1画像P1に含まれる人物は、本開示の技術に係る第1人物に相当する。第1画像P1の一例としては文字領域有り画像がある。文字領域有り画像とは、第1人物の顔が含まれる写真領域APと、写真領域APの輪郭外の余白であって文字が配置されている文字領域ACとを含む画像である。余白は無地でもよいし、模様などがあってもよい。年賀状などの挨拶状は文字領域有り画像である場合が多い。
【0027】
本例の第1画像P1は、年賀状であり、かつ、文字領域有り画像である。そのため、第1画像P1は、家族を構成する複数の第1人物の顔が写っている写真領域APと、写真領域APの余白に、「明けましておめでとう」などの新年の挨拶、家族の氏名、住所などの文字が配置されている文字領域ACとを含む画像である。
【0028】
第2画像P2は、人物の顔を含む画像である。第2画像P2に含まれる人物は、本開示の技術に係る第2人物に相当する。第2画像P2の一例としては文字領域無し画像である。文字領域無し画像とは、第2人物の顔が含まれる写真領域APのみの画像である。第2画像P2は、第2人物の顔が含まれる写真領域AP内において第2人物の背景などに写り込む文字を除いて、写真領域AP以外に文字が配置される文字領域ACを含まない画像である。
【0029】
画像内容判定装置2は、第1画像P1から第1人物に関わる第1人物関連情報R1を取得する。そして、第2画像P2の画像内容を判定する場合に、第2画像P2に含まれる第2人物に類似する第1人物を含む第1画像P1を特定する。そして、画像内容判定装置2は、特定した第1画像P1の第1人物関連情報R1に基づいて、第2画像P2の第2人物に関わる第2人物関連情報R2を取得する。
【0030】
さらに、画像内容判定装置2は、取得した第2人物関連情報R2に基づいて第2画像P2にタグ情報を付与するタグ付けを行う。タグ付けが行われた第2画像P2は、処理済フォルダ14に格納される。一例として、処理済フォルダ14も、ユーザ毎に専用フォルダが設けられており、ユーザAの第2画像P2は、ユーザA専用フォルダ14Aに格納され、ユーザBの第2画像P2は、ユーザB専用フォルダ14Bに格納される。
【0031】
なお、
図1において、処理済フォルダ14には、第2画像P2のみが格納されているが、第1画像P1から第1人物関連情報R1を取得した結果、第1画像P1についても新たなタグ付けが行われた場合は、第1画像P1も処理済フォルダ14に格納される。
【0032】
このようにタグ付けが行われた各ユーザの第1画像P1及び第2画像P2は、各ユーザに対して配信可能なフォルダに格納され、各ユーザの閲覧等に供される。この際に、各ユーザは、タグ情報を利用してキーワード検索などを行うことが可能になる。
【0033】
図2に一例として示すように、画像内容判定装置2を構成するコンピュータは、CPU(Central Processing Unit)18、メモリ20、プログラムメモリ22、通信I/F24、及び外部機器I/F26を備えている。これらはバスライン28を介して相互に接続されている。
【0034】
前述のストレージ4は、外部機器I/F26を介して画像内容判定装置2に通信可能に接続されている。画像内容判定装置2を構成するコンピュータ及びストレージ4は、例えば、画像配信システムを構成する他の装置とともに、オンラインストレージサービスを提供する事業者の拠点に配置されている。また通信I/F24は、外部デバイスと各種情報の伝送制御を行うインターフェースである。
【0035】
プログラムメモリ22には、分類プログラム30、認識プログラム31、第1取得プログラム32、第2取得プログラム34、及びタグ付けプログラム35が記憶されている。これらのプログラムのうち、認識プログラム31、第1取得プログラム32、及び第2取得プログラム34は、画像内容判定装置2を構成するコンピュータを本開示の技術に係る「画像内容判定装置」として作動させるためのプログラムである。これらのプログラムは、本開示の技術に係る「画像内容判定プログラム」の一例である。
【0036】
メモリ20は、CPU18が処理を実行するための作業用メモリと、CPU18が処理を実行するために必要な、後述する辞書データ等のデータ、並びに後述する第1画像情報リスト48及び第2画像情報リスト50を記録する保存用メモリとして機能する。CPU18は、プログラムメモリ22に記憶された分類プログラム30、認識プログラム31、第1取得プログラム32、第2取得プログラム34、及びタグ付けプログラム35をメモリ20にロードする。
【0037】
図3に一例として示すように、CPU18は、分類プログラム30、認識プログラム31、第1取得プログラム32、第2取得プログラム34、及びタグ付けプログラム35をメモリ20上で実行することにより、分類部36、認識部38、第1取得部40、第2取得部42及びタグ付け部44として機能する。CPU18は本開示の技術に係る「プロセッサ」の一例である。
【0038】
画像内容判定装置2の処理について、本例においては、ユーザAの画像Pの内容の判定を行う例で説明する。
図3において、分類部36は、ユーザAの画像Pを処理する場合は、ユーザA専用フォルダ12Aから画像Pを読み出す。分類部36は、読み出した画像Pを第1画像P1及び第2画像P2に分類する。
【0039】
認識部38は、第1認識部38-1と第2認識部38-2とを含む。第1認識部38-1は、文字と第1人物の顔とを含む第1画像P1から、文字と第1人物の顔とを認識する第1認識処理を実行する。具体的には、第1認識部38-1は、第1画像P1の写真領域APから、第1画像P1に含まれる第1人物の顔を認識し、かつ、文字領域ACから文字を認識する。第2認識部38-2は、第2画像P2の写真領域APから、第2画像P2に含まれる第2人物の顔を認識する第2認識処理を実行する。
【0040】
第1取得部40は、第1認識部38-1が認識した文字と第1人物の顔とに基づいて、第1画像P1に含まれる第1人物関連情報R1を取得する第1取得処理を実行する。
【0041】
第2取得部42は、第2画像P2に含まれる第2人物に関わる第2人物関連情報R2を取得する第2取得処理であって、第2人物の顔と類似する第1人物の顔を含む第1画像P1に対応する第1人物関連情報R1を利用して、第2人物関連情報R2を取得する第2取得処理を実行する。タグ付け部44は、第2人物関連情報R2に基づいて第2画像P2にタグ情報を付与する。
【0042】
図4を参照して、分類部36によって行われる分類処理の一例を説明する。分類部36は、画像Pに写真領域APと文字領域ACとが含まれるかを判定する。分類部36は、例えば、画像Pについてエッジ検出などの手法により輪郭抽出を行い、抽出された輪郭から、写真領域AP及び文字領域ACを検出する。また、写真領域AP及び文字領域ACは、各画素の画素値及び画素値の配列に関する特徴など、相互に他の領域と区別可能な特徴量を有している。分類部36は、画像Pに含まれるこうした特徴量を調べることにより、画像P内から写真領域AP及び文字領域ACを検出する。画像Pに含まれる文字が印刷や同一のペンによって記載される場合は、画像Pに含まれる文字に対応する画素の画素値は一定の範囲内で類似すると考えられる。そこで、例えば、画像Pを構成する画素を2次元座標で分析し、第1軸(X軸)において予め定められた幅以上に予め定められた類似の範囲の画素値を示す画素列が配列され、かつ、第2軸(Y軸)において、当該画素列が予め定められた一定の幅以上に連続して配置されているという特徴を有する場合に文字であると判定し、文字を有する領域を文字領域ACと判定しても良い。
【0043】
文字領域ACに含まれる文字には、漢字、ひらがな、カタカナ、及びアルファベットの他、数字及び記号を含む。文字には、フォントによって規定されたフォント文字に限らず、手書き文字も含まれる。文字領域ACに含まれる文字の認識は、OCR(Optical Character Recognition/Reader)等の文字認識技術を用いて行われる。もちろん、機械学習を用いた文字認識技術を利用してもよい。
【0044】
さらに分類部36は、輪郭抽出及びパターンマッチングなどの顔認識技術を用いて写真領域APから人物の顔を認識する。もちろん、機械学習を用いた顔認識技術を利用してもよい。分類部36は、一例として、写真領域APにおいて認識した顔を示す顔画像PFを検出し、顔画像PFの有無によって、画像Pを分類する。
【0045】
図3においては第1画像P1と第2画像P2の2種類に分類すると説明したが、より詳細には、
図4に示すように、分類部36は、顔画像PFの有無及び文字領域ACの有無に応じて、画像Pを、第1画像P1、第2画像P2、及び第3画像P3の3種類に分類する。具体的には、まず、写真領域APと文字領域ACとを含み、かつ、写真領域APが顔画像PFを含む画像Pは、第1画像P1に分類される。そして、写真領域APを含むが文字領域ACを含まず、かつ、写真領域APが顔画像PFを含む画像Pは、第2画像P2に分類される。また、写真領域APを含むが文字領域ACを含まず、かつ、写真領域APが顔画像PFを含まない画像Pは、第3画像P3に分類される。なお
図4の例では第3画像P3として、文字領域ACを含まない例で説明しているが、第3画像P3は、写真領域APが顔画像PFを含まないことが要件であり、文字領域ACを含んでいてもよいし、含んでいなくてもよい。
【0046】
ストレージ4には、分類された第1画像P1、第2画像P2、及び第3画像P3のそれぞれを格納する分類済フォルダ13が設けられている。分類済フォルダ13には、ユーザ毎に、第1画像P1を格納する第1画像フォルダ13-1、第2画像P2を格納する第2画像フォルダ13-2、及び第3画像P3を格納する第3画像フォルダ13-3が設けられている。
図4の例において、3つの第1画像フォルダ13-1、第2画像フォルダ13-2、及び第3画像フォルダ13-3、は、ユーザAの専用フォルダである。
【0047】
次に、第1画像に対して行われる第1認識処理及び第1取得処理の一例を、
図5~
図7を参照して説明する。
【0048】
図5に示すように、第1認識部38-1は、分類済フォルダ13の第1画像フォルダ13-1から第1画像P1を一枚ずつ順次読み出して第1認識処理を実行する。以下の例において、複数の第1画像P1のそれぞれを区別する場合には、第1画像P1-1、第1画像P1-2のように、符号P1に「-1」、「-2」及び「-3」の細別符号を付して示す。
図5においては、第1画像P1-4に対して第1認識処理が施される例を示す。第1認識処理は、第1顔認識処理と、文字認識処理と、撮影シーン判別処理とを含む。
【0049】
第1顔認識処理では、第1認識部38-1は、第1画像P1-4の写真領域APに含まれる第1人物M1の顔を認識する。顔認識技術としては、分類部36で利用した顔認識技術と同様の技術が利用される。第1認識部38-1は、例えば、写真領域AP内で認識した顔を含む矩形の領域を第1顔画像PF1として抽出する。第1画像P1-4のように、写真領域AP内に複数の第1人物M1の顔が含まれている場合は、すべての第1人物M1の顔の認識が行われ、認識されたすべての顔について第1顔画像PF1が抽出される。
図5の例では、写真領域APには第1人物M1が3人含まれているため、3つの第1顔画像PF1が抽出される。また、複数の第1人物M1のそれぞれを区別する必要がある場合は、第1人物M1A、第1人物M1B、及び第1人物M1Cというように、符号M1にA、B及びCの細別符号を付して示す。
【0050】
なお、写真領域AP内に、主要被写体となる第1人物M1の背景に主要被写体とは考えにくい人物の顔が写り込んでいる場合もある。その場合の対策として、例えば、写真領域AP内において相対的に小さな顔が含まれている場合は、小さな顔を主要被写体ではないと判定して、抽出対象から除外してもよい。また、例えば、写真領域AP内に含まれる第1顔画像PF1の領域の大きさが予め定められた面積以下である場合に除外するとしても良い。
【0051】
文字認識処理では、第1認識部38-1は、第1画像P1-4に含まれる文字領域ACから文字列CHを認識する。文字列CHは、複数の文字によって構成されるもので、文字の一例である。文字認識処理では、文字認識技術を利用して、文字領域AC内において認識した文字列CHをテキストデータに変換する。
【0052】
撮影シーン判別処理では、第1認識部38-1は、第1画像P1-4の写真領域APに示される写真の撮影シーンを判別する。撮影シーンとしては、例えば、ポートレート、風景などがある。風景には、山、海、都市、夜景、室内、屋外、お祭り、式典、及びスポーツ観戦等がある。撮影シーンは、例えばパターンマッチング及び機械学習などを用いた画像解析によって判別される。
図5の例では、第1画像P1-4の撮影シーンは「ポートレート」及び「屋外」であると判別されている。このように撮影シーンの判別結果は複数でもよい。
【0053】
第1取得部40は、一例として、第1人物M1の顔を表す第1顔画像PF1、文字列CH、及び撮影シーンに基づいて第1取得処理を実行する。第1取得処理は、一次処理と二次処理とを含む。
【0054】
一次処理は、辞書データ46を用いて文字列CHの意味を判別することにより、判別した意味を一次情報として取得する処理である。一次情報は、ニ次処理における種々の判定の基礎となる基礎情報として用いられる。ニ次処理は、取得した一次情報及び第1顔画像PF1等に基づいて第1人物関連情報R1を取得する処理である。
【0055】
第1認識処理及び第1取得処理の結果は、第1画像情報リスト48に記録される。第1画像情報リスト48は、第1取得処理において、各第1画像P1について取得された第1顔画像PF1、文字列CHに基づいて取得された一次情報、並びに撮影シーン及び第1人物関連情報R1を含む第1画像情報を記録したファイルである。第1画像情報には、第1取得処理で取得される情報の他に、Exif情報など、第1画像P1に付帯されている付帯情報がある場合は、付帯情報も含まれる。また、第1画像情報には、第1認識処理によって認識された文字列CHも含まれる。付帯情報及び文字列CHも第1画像情報リスト48に記録される。第1画像情報リスト48には、複数の第1画像P1のそれぞれの画像情報が記録されることにより、複数の第1画像48の画像情報がリスト化される。
【0056】
図6を参照しながら、第1取得処理の一次処理とニ次処理の具体例について説明する。
図6に示すように、第1取得部40は、一次処理において、辞書データ46を参照して文字列CHの意味を判別する。辞書データ46には、文字列の複数のパターンとその文字列の意味とが対応付けられたデータが記憶されている。例えば、辞書データ46には「年始の挨拶」を表す文字列の典型的なパターンが複数種類登録されている。文字列CHが「年始の挨拶」のパターンに合致すると、文字列CHの意味は「年始の挨拶」と判別される。また、辞書データ46には、「氏名」及び「住所」などを表す文字列の典型的なパターンが複数種類登録されている。文字列CHが「氏名」及び「住所」のパターンに合致すると、文字列CHの意味は「氏名」及び「住所」と判別される。文字列CHの意味としては、氏名及び住所の他に、電話番号、国籍、勤務先、学校名、年齢、生年月日、及び趣味等がある。辞書データ46にはこれらの文字列の典型的なパターンも登録されており、文字列CHの種々の意味を判別することができる。なお、辞書データ46は、メモリ22に記録されているとしたが、これに限らず、ストレージ4に記録されていても良い。
【0057】
図6の例では、「明けましておめでとうございます」の文字列CHは、「年始の挨拶」であると判別される。「2020年元旦」の文字列CHは「日付」であると判別される。「東京都○○区××町1-1」の文字列CHは「住所」であると判別される。「山田太郎・花子・一郎」の文字列CHは「氏名」であると判別される。
【0058】
また、一次処理では、例えば、文字列CHの判別された意味に基づいて、第1画像P1の内容の種別が推定される。第1画像P1の内容の種別とは、例えば、第1画像P1が示すものが、年賀状なのかクリスマスカードなのかといった情報である。このように、一次処理においては、「年始の挨拶」、「日付」、「氏名」、「住所」などの文字列CHの判別された意味と、文字列CHの意味に基づいて推定された第1画像P1の内容の種別(本例では年賀状)とが一次情報として取得される。一次情報は、文字列CHのみから取得される情報であり、一次処理によって判別される文字列CHの意味も一般的な意味である。
【0059】
第1取得部40は、ニ次処理において、一次情報を基礎情報として、第1画像P1に含まれる第1人物に関わる第1人物関連情報R1を取得する。本例において、第1画像P1-4は年賀状であり、一次情報には、第1画像P1-4の内容の種別は年賀状であることが含まれている。年賀状の場合、文字領域ACに含まれている「氏名」及び「住所」は、写真領域APに含まれる第1人物M1の「住所」及び「氏名」である場合が多い。第1取得部40は、第1画像P1-4の一次情報に「年賀状」が含まれているため、一次情報に含まれる「住所」及び「氏名」は、写真領域AP内の第1人物M1の「氏名」及び「住所」であると推定する。
【0060】
つまり、一次処理の時点では、「住所」及び「氏名」の文字列CHの意味は、特定の人物と結びついていない一般的な意味として認識されるにすぎない。しかし、ニ次処理においては、文字列CHの意味は、第1画像P1から顔を認識することによって検出される第1人物M1の「住所」及び「氏名」を意味するというように、第1人物M1との関係で決定される具体的な意味となる。第1画像P1に含まれる「氏名」及び「住所」が、第1画像P1に含まれる写真領域APに含まれる第1人物M1の「氏名」及び「住所」であるという情報は、第1画像P1から認識された文字と第1人物M1の顔とに基づいて取得された情報であり、第1人物関連情報R1の一例である。
【0061】
また、年賀状の場合、写真領域APに複数の第1人物M1の顔が含まれている場合は、複数の第1人物M1の関係は、夫婦又は親子などの家族関係である場合が多い。このため、第1取得部40は、第1画像P1-4の一次情報に「年賀状」が含まれているため、写真領域AP内の複数の第1人物M1は家族関係であると推定する。第1画像P1-4には、3人の第1人物M1が含まれているため、3人の第1人物M1の関係は3人家族であると推定される。3人の第1人物M1の関係は親子関係であり、3人家族であるという情報は、第1画像P1から認識された文字と第1人物M1の顔とに基づいて取得された情報であり、第1人物関連情報R1の一例である。
【0062】
さらに、第1取得部40は、一例として、第1画像P1-4に含まれる3人の第1人物M1A、M1B及びM1Cのそれぞれの第1顔画像PF1を解析して、3人の第1人物M1A、M1B及びM1Cの性別及び年齢を推定する。本例では、第1人物M1Aは30代の男性であり、第1人物M1Bは30代の女性であり、第1人物M1Cは10才未満の子供であると推定される。第1取得部40は、この推定結果と3人家族という情報に基づいて、第1人物M1Aは「夫」かつ「父親」であり、第1人物M1Bは「妻」かつ「母親」であり、第1人物M1Cは第1人物M1Aと第1人物M1Bとの子供であるという第1人物関連情報R1を取得する。
【0063】
このように、第1取得部40は、第1画像P1から認識された文字と第1人物M1の顔とに基づいて、第1人物M1に関わる第1人物関連情報R1を取得する。第1取得部40は、第1画像P1が複数有る場合は、第1画像P1毎に、第1認識処理と第1取得処理とを行って、一次情報及び第1人物関連情報R1を取得する。こうして取得された第1人物関連情報R1は、第1画像情報リスト48に記録される。なお、第1画像情報リスト48は、メモリ22に記録されているとしたが、これに限らず、ストレージ4に記録されていても良い。
【0064】
図7に一例として示す第1画像情報リスト48には、ユーザAが保有する複数の第1画像P1から取得された、第1顔画像PF1、撮影シーン、文字列CH、一次情報及び第1人物関連情報R1を含む第1画像情報が、第1画像P1-1、P1-2、P1-3、・・の各々と対応付けて記憶されている。第1画像情報リスト48は、例えば、ストレージ4内において各ユーザに割り当てられた格納領域に、各ユーザの画像Pと一緒に格納される。
【0065】
図7に示す第1画像情報リスト48において、第1画像P1-2及び第1画像P1-3には、付帯情報としてExif情報が記録されているが、第1画像P1-1及びP1-4にはExif情報が記録されていない。これは、例えば、第1画像P1-2及び第1画像
P1-3は、撮影時にExif情報を付加する機能を有するスマートデバイス6又はデジタルカメラ8などで撮影された画像であることを示す。一方、Exif情報が記録されていない第1画像P1-1及びP1-4は、プリント写真PAをスキャナ10などで読み取ってデジタル化した画像であることを示す。
【0066】
また、第1画像P1-1では、第1人物関連情報R1として、第1人物M1のペットが犬であるという情報が含まれている。これは、例えば、第1画像P1-1に第1人物M1と一緒に犬が写っていた場合に、その犬は第1人物M1のペットであるという推定を行って得た情報である。
【0067】
また、
図7に例示した第1画像P1-1から第1画像P1-4は、「山田太郎」が差出人の年賀状の例である。例えば、「山田太郎」というユーザAが自ら差出人となる年賀状の第1画像P1をストレージ4に保存している例である。
【0068】
第1画像P1-1から第1画像P1-4は、差出年が年代順に並んでおり、第1画像P1-1の日付が「2010年」で最も古く、第1画像P1-4の日付が「2020年」で最も新しい。第1取得処理においては、第1画像P1-1から第1画像P1-4に共通して「山田太郎」という氏名が含まれていることから、第1画像P1-1から第1画像P1-4に共通して含まれる第1人物M1Aの氏名が「山田太郎」であるという推定を行うことも可能である。また、第1画像情報リスト48には、第1画像P1-1から第1画像P1-4のそれぞれに含まれる第1人物M1Aの第1顔画像PF1と日付とが記録されているため、第1人物M1Aの顔の変遷を辿ることも可能である。こうした年代毎の第1人物M1Aの顔の変遷も第1人物関連情報R1に含まれる。言い換えると、第1人物関連情報R1は、複数の第1画像P1から取得される情報も含む。
【0069】
第1画像情報リスト48に記録された第1人物関連情報R1を含む第1画像情報は、第1画像P1のタグ情報として利用される他、第2画像P2に対するタグ付けの前提となる画像内容の判定に利用される。
【0070】
次に、第2画像P2に対して行われる第2認識処理、第2取得処理、及びタグ付け処理について
図8~
図11を参照して説明する。
【0071】
図8に一例として示すように、第2認識部38-2は、分類済フォルダ13の第2画像フォルダ13-2から第2画像P2を一枚ずつ順次読み出して第2認識処理を実行する。以下の例において、第1画像P1と同様に、複数の第2画像P2のそれぞれを区別する場合には、第2画像P2-1、第2画像P2-2のように、符号P2に細別符号を付して示す。
図8においては、第2画像P2-1に対して第2認識処理が施される例を示す。第2認識処理は、第2顔認識処理と、撮影シーン判別処理とを含む。
【0072】
第2顔認識処理では、第2認識部38-2は、第1認識部38-1と同様の顔認識技術を用いて、第2画像P2-1の写真領域APに含まれる第2人物M2の顔を認識する。第2認識部38-2は、例えば、写真領域AP内で認識した顔を含む矩形の領域を第2顔画像PF2として抽出する。第2画像P2-1のように、写真領域AP内に複数の第2人物M2が含まれている場合は、すべての第2人物M2の顔の認識が行われ、認識されたすべての顔について第2顔画像PF2が抽出される。
図8の例では、第2画像P2-1の写真領域APには第2人物M2の顔が3人含まれているため、3つの第2顔画像PF2が抽出される。第1人物M1と同様に、第2人物M2についても、複数の第2人物M2のそれぞれを区別する必要がある場合は、第2人物M2A、第2人物M2B、及び第2人物M2Cというように、符号M2にA、B及びCの細別符号を付して示す。写真領域AP内に背景として相対的に小さな顔が含まれる場合に、小さな顔を主要被写体でないと判定して、抽出対象から除外する処理も第1認識処理と同様である。
【0073】
撮影シーン判別処理では、第2認識部38-2は、第2画像P2-1の写真領域APに示される写真の撮影シーンを判別する。撮影シーンの判別方法も、第1画像P1と同様である。
図8の例では、撮影シーンは「ポートレート」及び「室内」であると判別されている。第2認識処理の結果は、第2画像情報リスト50に記録される。なお、第2画像情報リスト50は、メモリ22に記録されているとしたが、これに限らず、ストレージ4に記録されていても良い。
【0074】
図9に一例として示すように、第2画像情報リスト50は、第2認識処理において、第2画像P2から認識された第2人物M2の顔を表す第2顔画像PF2及び撮影シーンを含む第2画像情報を記録したファイルである。第2画像P2-1及び第2画像P2-3は、3人の第2人物M2の顔が含まれているので、第2画像情報として、3つの第2顔画像PF2が記録されている。第2画像P2-2は、4人の第2人物M2の顔が含まれているので、第2画像情報として、4つの第2顔画像PF2が記録されている。第2画像P2-4は、2人の第2人物M2の顔が含まれているので、第2画像情報として、2つの第2顔画像PF2が記録されている。
【0075】
また、第2画像情報リスト50において、第2画像P2-3の撮影シーンとしては、「ポートレート」及び「屋外」の他に、「神社」が記録されている。これは、例えば、第2画像P2-3の写真領域APの背景に、神社の社殿(shrine house)又は鳥居(shrine gate)などが含まれていることに基づいて判別された内容である。また、第2画像P2-4の撮影シーンとしては、「ポートレート」に加えて「海」が記録されている。これは、第2画像P2-4の写真領域APの背景に、海及び船が含まれていることに基づいて判別された内容である。
【0076】
また、第2画像情報リスト50には、第2認識処理で認識される情報の他に、Exif情報など、第2画像P2に付帯されている付帯情報がある場合は、付帯情報も含まれる。第2画像情報リスト50には、複数の第2画像P2のそれぞれの画像情報が記録される。第2画像情報リスト50において、第2画像P2-1~P2-4のうち、第2画像P2-1、第2画像P2-3、及び第2画像P2-4には、Exif情報が記録されているが、第2画像P2-2には、Exif情報が記録されていない。
【0077】
付帯情報にはGPS情報が含まれている。第2画像P2-1のGPS情報としては、撮影場所がハワイであることを示す情報が記録されている。第2画像P2-3のGPS情報としては、撮影場所が東京であることを示す情報が記録されている。また、第2画像P2-4のGPS情報としては、撮影場所が東京湾上であることを示す情報が記録されている。
【0078】
図10に一例として示すように、第2取得部42は、第2画像P2に含まれる第2人物M2に関わる第2人物関連情報R2を取得する第2取得処理を実行する。第2取得処理は、類似画像検索処理と本処理とを含む。
図10の例は、第2画像P2-1について第2取得処理を実行する例である。
【0079】
類似画像検索処理では、第2取得部42は、第2画像情報リスト50から処理対象の第2画像P2-1の第2顔画像PF2を読み出す。そして、第2取得部42は、第2顔画像PF2と、同じユーザAの第1画像P1に含まれる第1顔画像PF1とを照合する。そして、複数の第1画像P1の中から、第2画像P2-1に含まれる第2顔画像PF2と類似する第1顔画像PF1を含む第1画像P1を検索する。
図10の例では、照合される第1顔画像PF1と第2顔画像PF2とは、それぞれ第1画像情報リスト48及び第2画像情報リスト50から読み出される。
【0080】
第2取得部42は、第2画像P2-1に含まれる第2人物M2のそれぞれの第2顔画像PF2毎に、第1顔画像PF1との照合を行う。第2画像P2-1には、3人の第2人物M2が含まれており、3人の第2顔画像PF2が含まれているため、第2取得部42は、3つの第2顔画像PF2のそれぞれと第1顔画像PF1とを照合する。当然ながら、第1画像P1においても、第1人物M1が複数含まれており、第1顔画像PF1も人数分含まれている場合がある。その場合は、第1顔画像PF1毎に照合が行われる。
【0081】
本例においては、第2画像P2-1の3人の第2顔画像PF2と第1画像P1-1に含まれる1人の第1顔画像PF1とが照合される。この場合は、照合する組み合わせは、3×1の3通りとなる。次に、第2画像P2-1の3人の第2顔画像PF2と第1画像P1-2に含まれる2人の第1顔画像PF1とが照合される。この場合は、照合する組み合わせは、3×2の6通りとなる。次に、第2画像P2-1の3人の第2顔画像PF2と第1画像P1-3に含まれる3人の第1顔画像PF1とが照合される。この場合は、照合する組み合わせは、3×3の9通りになる。次に、第2画像P2-1の3人の第2顔画像PF2と第1画像P1-4に含まれる3人の第1顔画像PF1とが照合される。第1画像P1-3と同様に、第1画像P1-4にも3人の第1顔画像PF1が含まれているため、第1画像P1-4の場合も、照合する組み合わせは、3×3の9通りになる。第1画像P1の数だけ、こうした照合が行われる。なお、本実施形態において、第1画像P1に含まれる人物の画像と、第2画像P2に含まれる人物の画像を総当たりで照合する場合を記載したがこれに限られない。例えば、第2画像P2に含まれる第2人物M2Aについて分析を行い、第1画像P1-4の第1人物M1Aが予め定められたレベル以上に類似する画像である場合、第1画像P1-4に含まれる第1人物M1A以外の第1人物M1(例えば、第1人物M1B及び第1人物M1C)を優先的に照合しても良い。
【0082】
処理対象の第2画像P2に含まれる複数の第2顔画像PF2と複数の第1画像P1に含まれる複数の第1顔画像PF1との照合が行われることにより、第2人物M2の顔と類似する第1人物M1の顔を含む第1画像P1が検索される。顔が類似するか否かの判定は、例えば、類似度の評価値が予め設定した閾値以上の場合に類似すると判定される。類似度の評価値は、顔の形態的な特徴を表す特徴量に基づくパターンマッチング及び機械学習などの画像解析技術を利用して算出される。
【0083】
図10の例では、第2画像P2-1の3人の第2人物M2の顔と類似する第1人物M1の顔を含む第1画像P1として、4つの第1画像P1-1、P1-2、P1-3、及びP1-4が検索される。検索される画像の数が多い場合は、類似度の評価値が高い方から予め設定された数を抽出して、類似度の評価値が低い画像を除外してもよい。
【0084】
第2取得部42は、検索された第1画像P1-1から第1画像P1-4のそれぞれに対応する第1人物関連情報R1を含む第1画像情報を第1画像情報リスト48から読み出す。
【0085】
本処理では、第2取得部42は、第1人物関連情報R1を含む画像情報を利用して、第2人物関連情報R2を取得する。先ず第2取得部42は、第2画像P2-1内の3人の第2人物M2A、M2B及びM2Cの顔が、第1画像P1-4内の3人家族の第1人物M1A、M1B及びM1Cのそれぞれと類似していることに基づいて、第2画像P2-1の3人の第2人物M1は3人家族であると推定する。また、第2画像P2-1の付帯情報に含まれるGPS情報が「ハワイ」であり、すなわち第2画像P2-1の撮影場所が「ハワイ」である。これに対して、第1人物関連情報R1に含まれる第1人物M1の住所が「東京都」である。第2取得部42は、こうした撮影場所と住所とを照合した結果に基づいて、「第2画像P2-1はハワイ旅行で撮影された家族写真である」と推定する。第2画像P2-1の「3人の第2人物M2が家族」と推定されること、及び第2画像P2-1は「ハワイ旅行で撮影された家族写真」と推定されること、という推定結果を、第2取得部42は、第2人物M2に関わる第2人物関連情報R2として取得する。
【0086】
なお、第2画像P2-1の第2人物関連情報R2としては、
図10に例示した情報に加えて、例えば、第1画像P1-4から取得した第1人物関連情報R1のように、第2画像P2-1に含まれる第2人物M2の顔を含む容姿を画像解析することにより得られる性別及び年齢などを含めてもよい。なお、後述するように、第1人物関連情報R1を利用して、画像解析により推定した性別及び年齢などの推定結果の妥当性を検証してもよい。
【0087】
第2取得処理によって取得された第2人物関連情報R2は、第2画像情報リスト50に記録される(
図12参照)。第2人物関連情報R2は、第2画像P2に対するタグ付け処理に用いられる。
【0088】
図11に一例として示すように、タグ付け部44は、第2取得部42によって取得された第2人物関連情報R2に基づいて、処理対象の第2画像P2-1に対してタグ付け処理を実行する。タグ付け部44は、タグ付け処理において、第2人物関連情報R2から、タグ情報に使用するキーワードを抽出する。例えば、第2人物関連情報R2が「第2画像P2-1はハワイ旅行で撮影された家族写真である」の場合には、タグ付け部44は、タグ情報に使用するキーワードとして、「家族」、「旅行」、及び「ハワイ」を第2人物関連情報R2から抽出する。なお、タグ情報に使用するキーワードは、第2人物関連情報R2に含まれる単語そのままでもよいし、実質的な意味に共通性を有する異なる単語でもよい。実質的な意味に共通性を有する異なる単語の例としては、例えば「ハワイ」を地理的に包含する「海外」及び「アメリカ」などが挙げられる。これらの3つの単語は、日本を基点に考えると、すべて「海外」という上位概念で包含することができるため、実質的な意味が共通していると言える。
【0089】
タグ付け部44は、これらのキーワードをタグ情報として第2画像P2-1に付与する。タグ付け部44は、タグ情報を付与した第2画像P2-1を、処理済フォルダ14に設けられたユーザA専用フォルダ14Aに格納する。
【0090】
図12に一例として示すように、第2取得部42が取得した第2人物関連情報R2及びタグ付け部44が付与したタグ情報は、第2画像P2-1に対応付けて第2画像情報リスト50に記録される。第2画像情報リスト50において、第2人物関連情報R2及びタグ情報などは、第2画像P2毎に記録される。
【0091】
次に、上記構成による作用について、
図13のフローチャートを参照して説明する。画像内容判定装置2における第2画像P2の画像内容判定処理は、一例として
図13に示す手順で行われる。
【0092】
本例では、画像内容判定装置2は、予め設定されたタイミングで各ユーザの画像P毎に画像内容判定処理を実行する。予め設定されたタイミングとしては、例えば、ユーザからストレージ4にアップロードされる未処理の画像Pの数を監視し、未処理の画像Pの数が予め設定された数に達した場合である。例えば、ユーザAによってストレージ4にアップロードされる未処理の画像Pの数が予め設定された数に達した場合に、画像内容判定装置2は、ユーザAの画像Pに対して画像内容判定処理を実行する。なお、予め設定されたタイミングとは、ユーザの画像Pが新たにアップロードされたタイミングでも良い。以下、ユーザAの画像Pに対して画像内容判定処理を実行する場合を例に説明する。
【0093】
画像内容判定処理において、まず、分類部36は、
図13のステップST10において、分類処理を実行する。分類処理において、
図4に一例として示したように、分類部36は、未処理フォルダ12からユーザAの未処理の画像Pを読み出す。そして、写真領域AP内の顔画像PFの有無及び画像P内の文字領域ACの有無に基づいて、画像Pを、第1画像P1、第2画像P2及び第3画像P3のいずれかに分類する。分類部36は、画像Pが写真領域APと文字領域ACとを含み、かつ、写真領域APが顔画像PFを含む場合に、画像Pを第1画像P1に分類する。また、分類部36は、画像Pが、顔画像PFを含む写真領域APを含み、かつ文字領域ACを含まない場合に、画像Pを第2画像P2に分類する。また、分類部36は、画像Pが、顔画像PFを含まない写真領域APを含む場合、又は、写真領域APを含まない場合に、画像Pを第3画像P3に分類する。
【0094】
分類部36は、例えば、各ユーザの未処理の複数の画像Pのすべてについて、分類処理を実行する。分類された第1画像P1、第2画像P2、及び第3画像P3のそれぞれは分類済フォルダ13に格納される。
【0095】
次に、第1認識部38-1は、
図13のステップST20において、第1認識処理を実行する。第1認識処理において、
図5に一例として示したように、第1認識部38-1は、分類済フォルダ13内の第1画像P1に対して第1認識処理を実行する。第1認識処理において、第1認識部38-1は、まず、第1画像P1の写真領域APに含まれる第1人物M1の顔を認識する第1顔認識処理を行う。
図5において一例として示す第1画像P1-4の場合は、写真領域APに3人の第1人物M1の顔が含まれているため、第1画像P1-4からは3人の第1人物M1の顔が認識される。第1認識部38-1は、第1画像P1-4から認識した3人の第1人物M1の顔を、3つの第1顔画像PF1として抽出する。
【0096】
続いて第1認識部38-1は、第1画像P1に対して文字認識処理を行う。第1認識部38-1は、第1画像P1に含まれる文字領域ACから文字列CHを抽出する。
図5に示す第1画像P1-4の場合は、「東京都〇〇区・・・」及び「山田太郎」などの文字列CHが認識される。
【0097】
続いて第1認識部38-1は、第1画像P1に対して撮影シーン判別処理を行う。撮影シーン判別処理では、第1認識部38-1は、「ポートレート」及び「屋外」といった撮影シーンを判別する。
【0098】
次に、第1取得部40は、
図13のステップST30において、第1取得処理を実行する。第1取得処理において、
図5に一例として示したように、第1取得部40は、認識した文字の一例である文字列CHと、第1人物M1の顔を表す第1顔画像PF1とに基づいて第1取得処理を実行する。第1取得処理は、一次処理とニ次処理とを含む。
【0099】
一次処理において、第1取得部40は、辞書データ46を参照しながら、文字列CHの一般的な意味を判別する。例えば、
図6に示したように、「東京都〇〇区・・・」という文字列CHの一般的な意味は住所であると判別される。また、「山田太郎」という文字列CHの一般的な意味は氏名であると判別される。また、「明けましておめでとうございます」という文字列CHの意味は「年始の挨拶」と判別される。さらに、一次処理においては、文字列CHに「年始の挨拶」が含まれていることから、第1画像P1の内容の種別が「年賀状」であると推定する。これらの情報は一次情報として取得され、二次処理の基礎情報として利用される。
【0100】
第1取得部40は、ニ次処理において、
図6に示したように、一次情報を基礎情報として、第1画像P1に含まれる第1人物M1に関わる第1人物
関連情報R1を取得する。
図6に示したように、第1画像P1-4の一次情報は「年賀状」を含んでいるため、第1取得部40は、一次情報に含まれる「氏名」及び「住所」は、写真領域AP内の第1人物M1の「氏名」及び「住所」であると推定する。また、第1取得部40は、第1画像P1-4は「年賀状」であるため、写真領域AP内の3人の第1人物M1は、3人家族であると推定する。
【0101】
第1取得部40は、このように推定した情報を第1人物関連情報R1として取得する。第1取得部40は、一次処理で得た一次情報と、ニ次処理で得た第1人物関連情報R1とを第1画像情報リスト48に記録する。
図7に一例として示したように、第1画像情報リスト48には、一次情報及び第1人物関連情報R1の他に、付帯情報及び第1顔画像PF1を含む第1画像情報が記録される。
【0102】
ステップST10の分類処理からステップST30の第1取得処理は、未処理の第1画像P1に対して実行される。これにより、第1画像情報リスト48には、複数の第1画像P1の画像情報が記録される。
【0103】
次に、第2認識部38-2は、
図13のステップST40において、第2認識処理を実行する。第2認識処理において、
図8に一例として示したように、第2認識部38-2は、分類済フォルダ13内の第2画像P2に対して第2認識処理を実行する。第2認識処理において、第2認識部38-2は、まず、第2画像P2の写真領域APに含まれる第2人物M2の顔を認識する。
図8において一例として示す第2画像P2-1の場合は、写真領域APに3人の第2人物M2の顔が含まれているため、第2認識部38-2は、第2画像P2-1内の3人の第2人物M2の顔を認識し、認識した顔を含む領域を3つの第2顔画像PF2として抽出する。続いて第2認識部38-2は、第2画像P2に対して撮影シーンを判別する撮影シーン判別処理を行う。
図8の例では、第2画像P2-1の撮影シーンは「ポートレート」及び「室内」であると判別されている。
【0104】
第2認識部38-2は、処理対象の第2画像P2に対して第2認識処理を実行する。
図9に一例として示したように、第2画像P2から認識された第2人物M2の顔を表す第2顔画像PF2及び撮影シーンは、第2画像情報リスト50に記録される。
【0105】
次に、第2取得部42は、ステップST50において、第2取得処理を実行する。第2取得処理は、類似画像検索処理と本処理とを含む。第2取得部42は、
図10に一例として示したように、まず、第2顔画像PF2と第1顔画像PF1とを照合することにより、第2画像P2-1に含まれる第2人物M2の顔に類似する第1人物M1を含む第1画像P1を検索する類似画像検索処理を行う。
図10の例では、類似画像検索処理によって、第2画像P2-1に含まれる3人の第2人物M2の顔のいずれかと類似する第1人物M1の顔を含む第1画像P1として、第1画像P1-1~第1画像P1-4の4つの第1画像P1が検索される。第2取得部42は、検索された第1画像P1に対応する第1人物関連情報R1を含む第1画像情報を第1画像情報リスト48から読み出す。
図10の例のように、検索された第1画像P1が複数有る場合は、第2取得部42は、それぞれに対応する第1人物関連情報R1を含む第1画像情報を第1画像
情報リスト48から読み出す。
【0106】
本処理では、第2取得部42は、第1人物関連情報R1を含む第1画像情報に基づいて、第2人物関連情報R2を取得する。
図10の例では、第1人物関連情報R1には、第1画像P1-4内の3人の第1人物M1は3人家族であるという情報が含まれている。さらに、第2画像P2-1の3人の第2人物M2の顔が、第1画像P1-4の3人の第1人物M1の顔とすべて類似している。こうした情報に基づいて、第2取得部42は、第2画像P2の3人の第2人物M2が家族であると推定する。さらに、第2画像P2-1のGPS情報は、撮影場所が「ハワイ」であることを示している一方、第1画像P1-4の第1人物関連情報R1には、3人の家族の住所は「東京都」と記録されている。これらの情報を照合することにより、第2取得部42は、「第2画像P2-1はハワイ旅行で撮影された家族写真である」と推定する。第2取得部42は、こうした推定結果を、第2画像情報リスト50に記録する(
図12参照)。
【0107】
第2取得部42は、
図13のステップST60において、タグ付け処理を実行する。タグ付け処理において、第2取得部42は、取得した第2人物関連情報R2に基づいて、第2画像P2に対してタグ情報を付す。
図11の例では、
図10の例で取得された第2人物関連情報R2に基づいて、「家族、旅行、ハワイ、・・・」といったタグ情報が、第2画像P2-1に付される。
【0108】
第2取得部42は、
図13のステップST40の第2認識処理からステップST60のタグ付け処理を、未処理の複数の第2画像P2に対して実行する。この結果、
図12の第2画像情報リスト50に一例として示すように、複数の第2画像P2にタグ情報が付される。タグ情報は、第2画像P2を検索するためのキーワードとして使用される。
【0109】
以上を要約的に示すと、
図14に示すようになる。すなわち、本例の画像内容判定装置2において、第1認識部38-1は、第1画像P1-4のような年賀状など、文字と第1人物の顔とを含む第1画像P1から、文字列CHを一例として示す文字と第1人物M1の顔とを認識する第1認識処理を実行する。そして、第1取得部40は、認識した文字列CHと第1人物M1の顔とに基づいて、第1画像P1に含まれる第1人物M1に関わる第1人物関連情報R1を取得する第1取得処理を実行する。第1画像P1-4が年賀状である場合は、第1人物関連情報R1としては、第1人物M1の「氏名」及び「住所」が含まれているため、第1人物M1の「氏名」及び「住所」、さらには複数の第1人物M1が家族であるという情報が取得される。
【0110】
そして、第2認識部38-2は、第2人物M2の顔を含む第2画像P2から第2人物M2の顔を認識する第2認識処理を実行する。第2画像P2が第2画像P2-1の場合は、3人の第2人物M2の顔が認識される。そして、第2取得部42は、第2画像
P2-1に含まれる第2人物M2に関わる第2人物関連情報R2を取得する第2取得処理を実行する。第2取得処理は、第2人物M2の顔と類似する第1人物M1の顔を含む第1画像P1に対応する第1人物関連情報R1を利用して、第2人物関連情報R2を取得する処理である。
図14の例では、第2取得処理においては、第2画像P2-1に含まれる3人の第2人物M2と類似する3人の第1人物M1を含む第1画像P1-4に対応する第1人物関連情報R1が取得される。そして、3人家族という第1人物関連情報R1を利用して、第2画像P2-1に含まれる「3人の第2人物M2は家族」であり、第2画像P2-1は「ハワイ旅行で撮影された家族写真」といった第2人物関連情報R2が取得される。
【0111】
挨拶状などの第1画像P1に含まれる文字列CHは、住所及び氏名などの第1人物M1の正確な個人情報が記載されている場合が多く、第1人物M1に関わる第1人物関連情報R1を取得するための基礎情報として、信頼性が高い。そのため、第1画像P1に含まれる文字列CHを利用して取得される第1人物関連情報R1も信頼性が高い情報となる。そして、本例の画像内容判定装置2は、第2画像P2の画像内容を判定するに際して、第2人物M2の顔と第1人物M1の顔との類似性に基づいて、第2画像P2に関連する第1画像P1を特定し、特定した第1画像P1に対応する第1人物関連情報R1を取得する。そして、第2人物M2と同一人物の可能性が高い第1人物M1の第1人物関連情報R1を、第2人物M2の第2人物関連情報R2の取得に利用している。
【0112】
したがって、本例の画像内容判定装置2によれば、例えば、第1画像P1に対応する第1人物関連情報R1を利用しない従来と比較して、信頼性が高い第2人物関連情報R2を、第2画像P2に含まれる人物M2に関わる情報として、取得することができる。また、本例の画像内容判定装置2は、第1人物関連情報R1と第2人物関連情報R2とを取得する一連の処理をCPU18が実行する。そのため、従来のようにユーザの手間が掛かることがない。
【0113】
第2人物関連情報R2は、一例として第2画像P2のタグ情報として利用される。このタグ情報は第2人物関連情報R2から生成される情報であるため、第2画像P2の画像内容を示す情報として信頼性が高い。そのため、第2画像P2には画像内容を表す適切なタグ情報が付与されている可能性が高く、第2画像P2をキーワード検索する場合に、ユーザが所望する第2画像P2を検索できる可能性も向上する。
【0114】
本例において、第1画像P1として、第1人物M1の顔が含まれる写真領域APと、写真領域APの輪郭外の余白であって文字が配置されている文字領域ACとを含む文字領域有り画像を例示した。また、第2画像P2としては、第2人物M2の顔が含まれる写真領域APのみの文字領域無し画像を例示した。
【0115】
挨拶状及び身分証明書などは、文字領域有り画像の形式を採用することが比較的多い。第1画像Pがこのような文字領域有り画像の場合、文字領域ACに含まれる文字は、写真領域APに含まれる第1人物M1に関わる情報を意味する可能性が高い。そのため、文字領域AC内の文字に基づいて取得される第1人物M1に関わる第1人物関連情報R1も、有意かつ信頼性が高い。こうした第1人物関連情報R1を利用することにより、例えば、第1人物M1の顔が含まれる写真領域APのみからなる画像から取得された情報を第1人物関連情報R1として利用する場合に比べ、第2人物関連情報R2として、有意かつ信頼性が高い情報を取得しやすい。
【0116】
また、第2画像P2が文字領域無し画像である場合は、文字領域有り画像である場合と比較して情報が少ないため、画像内容の判定を行う際の手掛かりが乏しい。そのため、文字領域無し画像の第2画像P2だけから取得できる第2人物関連情報R2の情報量が少ない。そのため、文字領域有り画像の第1画像P1の第1人物関連情報R1を利用することは、こうした第2画像P2から第2人物関連情報R2を取得する場合に特に有効である。
【0117】
また、第1画像P1は、挨拶状及び身分証明書のうちの少なくとも1つを表す画像を含む。挨拶状としては、年賀状及びクリスマスカードなどの他に、暑中見舞いなど季節の挨拶状なども含まれる。また、挨拶状には、子供の誕生を知らせるハガキ、七五三(7才の女児、5才の男児、並びに3才の男児及び女児の成長を祝うイベント)などの子供の行事、入学及び卒業のお知らせの他、転居のお知らせなどが含まれる。身分証明書としては、運転免許証、パスポート、社員証、及び学生証などが含まれる。こうした挨拶状及び身分証明書に記載されている情報は特に正確性が高いため、例えば、第1画像P1が市販の絵ハガキを表す画像しか含まない場合に比べて、信頼性の高い第1人物関連情報R1を取得するための第1画像P1として特に有効である。また、挨拶状には、趣味の話など、人物の多様な情報が含まれている可能性があるため、例えば、第1画像P1がダイレクトメールを表す画像である場合に比べて、第1人物関連情報R1として多様な情報を取得できる可能性が高い。
【0118】
本例の画像内容判定装置2において、分類部36は、第1認識処理及び第2認識処理を実行する前に、複数の画像Pを、第1画像P1と第2画像P2とに分類する分類処理を実行する。このように、複数の画像Pを、予め第1画像P1と第2画像P2に分類しておくことで、各認識処理に先だって分類処理を予め行わない場合と比べて、第1人物関連情報R1及び第2人物関連情報R2を取得する処理を効率的に行うことができる。
【0119】
本例において、第1人物関連情報R1は、第2画像P2と同じ保有者の第1画像P1から取得される。保有者が同じとは、ストレージ4内において、第1画像P1と第2画像P2とが、どちらも同じユーザのアカウントの格納領域に格納されている場合をいう。第1画像P1の保有者と第2画像P2の保有者とが同じ場合、第1画像P1の保有者と第2画像P2の保有者とが異なる場合に比べて、第1画像P1に含まれている第1人物M1と第2画像P2に含まれている第2人物M2との共通性が高い。第2画像P2から第2人物関連情報R2を取得するに当たって、第2人物M2と関連性の高い有意な第1人物関連情報R1を利用することができる。このため、第1画像P1の保有者と第2画像P2の保有者とが異なる場合と比べて、取得される第2人物関連情報R2の信頼性が向上する。また、有意な第1人物関連情報R1を得やすいということは、言い換えればノイズが少ないとも言える。そのため、第1画像P1の保有者と第2画像P2の保有者とが同じ場合は、保有者が異なる場合と比べて、信頼性の高い第2人物関連情報R2を取得するための処理効率も向上する。
【0120】
なお、第2画像P2の保有者と異なる人物が保有している第1画像P1に対応する第1人物関連情報R1を利用してもよい。理由は次のとおりである。例えば、第1画像P1の保有者が第2画像P2の保有者と家族であったり、友人であったり、又は、同じイベントに参加した者同士だったり等、両方の保有者の間に関係がある場合がある。この場合は、第2画像P2の第2人物関連情報R2を取得する場合に、異なる保有者の第1画像P1に対応する第1人物関連情報R1を利用すると、有意な情報が得られる可能性があるためである。なお、ユーザAの画像群に基づく第1人物関連情報R1を利用できるユーザは、予め定められた条件を満たしたユーザに限定されても良い。予め定められた条件とは、例えば、ユーザAによって指定されることであっても良いし、ユーザAの画像群に含まれる画像と類似する画像を予め定められた数または割合以上で有することであっても良い。
【0121】
本例において、第1人物関連情報R1は、例えば、第1人物M1の氏名、住所、電話番号、年齢、生年月日、及び趣味のうちの少なくとも1つを含む。これらの情報を含む第1人物関連情報R1は、第2人物関連情報R2を取得するための手掛かりとして有効である。例えば、第1人物M1の氏名は、第2人物M2の氏名を特定するために利用価値が高く、また、第1人物M1の電話番号は、第2人物M2の住所を特定するために利用価値が高い。また、住所は、正確な住所でなくてもよく、郵便番号のみでもよいし、都道府県名のみでもよい。また、第1人物関連情報R1としては、上記以外に、国籍又は所属団体名などのいずれかが含まれていてもよい。所属団体名としては、勤務先、学校名、及びサークル名などがある。これらの情報も、第1人物関連情報R1及び第2人物関連情報R2を取得するための手掛かりとして有効である。
【0122】
本例において、第1人物関連情報R1及び第2人物関連情報R2には、家族関係が含まれている。家族関係は、第1画像P1に含まれている複数の第1人物M1の関係を示す情報又は第2画像P2に含まれている複数の第2人物M2の関係を示す情報の一例である。このように、第1画像P1に第1人物M1が複数人含まれている場合又は第2画像P2に第2人物M2が複数人含まれている場合においては、第1人物関連情報R1又は第2人物関連情報R2は、複数の人物の関係を示す情報を含んでもよい。上述した例に示したとおり、複数の第1人物M1の関係を示す情報は、第1人物M1と同定される複数の第2人物M2の関係を推定するために有効である。また、第2人物関連情報R2に複数の第2人物M2の関係を示す情報が含まれることによって、第2人物関連情報R2が複数の第2人物M2の各々に関する情報のみの場合に比べ、多様なタグ情報を付与することが可能となる。
【0123】
複数の第1人物M1の関係を示す情報、又は複数の第2人物M2の関係を示す情報としては、夫婦、親子及び兄弟姉妹などの家族関係の他、祖父及び祖母を含む親族関係、友人関係、及び師弟関係のうちの少なくとも1つを含んでいてもよい。また「複数の第1人物M1の関係」としては、家族関係及び親族関係に限らず、友人関係又は師弟関係等の人間関係であってもよい。従って、本構成によれば、複数の第1人物M1の関係を示す情報、又は複数の第2人物M2の関係を示す情報が家族関係のみを示す情報である場合に比べ、信頼性の高い第1人物関連情報R1又は第2人物関連情報R2を取得することができる。
【0124】
本例によれば、第2取得部42は、第2画像P2に付帯する付帯情報の一例であるExif情報のGPS情報を利用する。Exif情報など第2画像P2の付帯情報には、GPS情報など、第2人物関連情報R2を取得する上で、有用な情報が多い。付帯情報を利用することで、利用しない場合と比べて、より信頼性の高い第2人物関連情報R2を取得することができる。なお、本例では、第2人物関連情報R2を取得する第2取得処理において、第2取得部42が第2画像P2に付帯する付帯情報を利用する例で説明したが、もちろん、第1人物関連情報R1を取得する第1取得処理において、第1取得部40が第1画像P1に付帯する付帯情報を利用してもよい。
【0125】
上記例においては、年賀状の第1画像P1-4から取得した第1人物関連情報R1に基づいて、家族写真の第2画像P2-1から、「ハワイ旅行で撮影された家族写真である」という第2人物関連情報R2を取得した例で説明した。上記例以外でも、第1画像P1及び第2画像P2は各種有り、どのような第1画像P1からどのような第1人物関連情報R1を取得するかの態様については様々な態様が考えられる。また、どのような第2画像P2から、どのような第1人物関連情報R1に基づいて、どのような第2人物関連情報R2を取得するかについても様々な態様が考えられる。こうした各種の態様を、以下の各実施形態で示す。
【0126】
以下の各実施形態においては、画像内容判定装置2の構成は上記第1実施形態と同一であり、かつ、第2人物関連情報R
2を取得するまでに至る基本的な処理手順も
図13で示した処理手順と同様である。相違点は、第1画像P1及び第2画像P2の少なくとも一方の種類、第1人物関連情報R1及び第2人物関連情報R2の内容等、情報の内容のみである。そのため、以下の各実施形態においては、第1実施形態との相違点を中心に説明する。
【0127】
[第2実施形態]
図15及び
図16に一例として示す第2実施形態では、第1画像P1-4を用いて、第2画像P2-2の第2人物関連情報R2を取得する。第1画像P1-4は、上記第1実施形態で説明したものと同じなので、第1画像P1-4に対して行われる処理については説明を省略する。
【0128】
第2画像P2-2は、4人の第2人物M2の顔を含んでいるため、第2認識処理では、第2認識部38-2は、第2画像P2-2から4人の第2人物M2の顔を認識し、認識した4つの第2顔画像PF2を抽出する。
【0129】
図16に示す第2取得処理において、類似画像検索処理では、第2取得部42は、第2画像P2-2に含まれる4人の第2人物M2のそれぞれの第2顔画像PF2と、第1画像P1に含まれる第1人物M1のそれぞれの第1顔画像PF1とを照合することにより、第2人物M2の顔に類似する第1人物M1の顔を含む第1画像P1を検索する。そして、第2取得部42は、検索した第1画像P1から第1人物関連情報R1を第1画像情報リスト48から取得する。
図16の例でも、第1実施形態の
図10の例と同様に、第1画像P1として第1画像P1-1から第1画像P1-4が検索される。そして、これらの第1人物関連情報R1が取得される。
【0130】
図16の例では、第2画像P2-2内の4人の第2人物M2A~M2Dのうち、3人の第2人物M2A~M2Cの顔が、第1画像P1-4内の3人の第1人物M1A~M1Cの顔と類似している。本処理では、第2取得部42は、この照合結果に基づいて、第2画像P2-2内の4人の第2人物M2A~M2Dのうち、3人の第2人物M2A~M2Cは家族であると推定する。第2取得部42は、さらに、第2画像P2-2内の残りの第2人物M2Dが誰かを推定する。第2取得部42は、第2画像P2-2を画像解析することにより、第2人物M2A~M2Dの年齢及び性別を推定する。本例では、第2人物M2A及び第2人物M2Bは30代男女、第2人物M2Cは10才未満の子供、第2人物M2Dは60代女性と推定される。第2取得部42は、第2人物M2A及び第2人物M2Bの年齢と、第2人物M2Dの年齢は約20才以上離れており、かつ、第2人物M2Dは、第1人物関連情報R1に含まれる親子関係が認定された第1人物M1A~M1Cと異なるため、第2人物M2Dは、第2人物M2A及び第2人物M2Bの子供である第2人物M2Cの祖母と推定する。こうした推定により、第2画像P2-2において、第2人物M2Dは、「60代女性で、第2人物M2Cである子供の祖母である」、と推定する。第2取得部42は、こうした推定結果を第2人物関連情報R2として取得する。
【0131】
第2画像P2-2の画像解析によっても、4人の第2人物M2の年齢及び性別を推定することはできる。本例では、第2人物M2A~第2人物M2Cと類似する第1人物M1A~第1人物M1Cが3人家族であるという第1人物関連情報R1を利用して、第2人物関連情報R2を取得している。このように、第1人物関連情報R1によって、第2人物M2Dを子供である第2人物M2Cの母親と誤判定することが抑制される。つまり、この場合は、第2取得処理において、第2取得部42は、第2画像P2に基づいて第2人物関連情報R2を導出し、第1人物関連情報R1に基づいて、導出した第2人物関連情報R2の妥当性を判定している。これにより、第1人物関連情報R1は信頼性が高い情報であるため、第1人物関連情報R1を第2人物関連情報R2の妥当性の判定に利用することで、導出した第2人物関連情報R2をそのまま取得する場合に比べ、信頼性の高い第2人物関連情報R2を取得することができる。
【0132】
本例では、例えば、第2画像P2-2に「祖母」といったタグ情報を付与することができる。こうしたタグ情報があれば「祖母」の写真を検索したい場合に便利である。
【0133】
[第3実施形態]
図17及び
図18に一例として示す第3実施形態は、第1画像P1から取得した第1人物関連情報R1に加えて、第1画像P1の保有者であるユーザのアカウント情報を用いて、第2画像P2に写る第2人物M2Aの年齢を推定する。
【0134】
第3実施形態においては、
図18に示すように、処理対象の第2画像P2は、第1実施形態と同じ第2画像P2-1であり、類似画像検索処理により検索された第1画像P1についても、第1実施形態と同じ第1画像P1-1~P1-4である(
図10参照)。
【0135】
第1実施形態で説明したとおり、第1画像P1-1~P1-4の保有者は、ユーザAであり、オンラインストレージサービスの利用契約時にはユーザAのアカウント情報が登録されている。アカウント情報は、例えばストレージ4内のユーザAに割り当てられた格納領域に格納されている。アカウント情報には、ユーザAの氏名である「山田太郎」と、生年月日として、例えば、1980年4月1日という情報が含まれている。アカウント情報は、ユーザ毎に登録されている情報であり、格納形式としては、Exif情報のように各第1画像P1に与えられていてもよい。また、アカウント情報は、同一ユーザの複数の第1画像P1に対して1つだけ与えられていてもよい。いずれにしろ、ストレージ4内においては、アカウント情報はユーザ毎に、そのユーザの複数の第1画像P1と関連付けられている。アカウント情報は、関連付けられているという意味で、Exif情報とともに、各第1画像P1に付帯する付帯情報の一例である。
【0136】
また、
図7に示したとおり、第1画像P1-1~P1-4はすべて年賀状であり、第1画像P1-1~P1-4のすべてには共通して、第1人物M1Aの顔と「山田太郎」という文字列CHが含まれている。そして、第1画像P1-1に含まれる第1人物M1の顔は第1人物M1Aの顔だけであり、第1画像P1-1に含まれる氏名も「山田太郎」のみである。また、第1画像P1-1~P1-4には、文字列CHとして、「2010年元旦」及び「2014年元旦」というように、写真領域APのおおよその撮影年として推定可能な日付が含まれている。
【0137】
図17に示すように、第1人物関連情報R1を取得するために実行される第1取得処理において、第1取得部40は、第1画像P1-1~第1画像P1-4の文字領域ACに含まれる文字列CHに加えて、ユーザAのアカウント情報を取得する。第1取得部40は、第1画像P1-1~P1-4のすべてに共通して含まれる第1人物M1の顔は、第1人物M1Aの顔だけであり、すべてに共通して含まれる文字列CHは「山田太郎」だけであるため、第1人物M1Aは「山田太郎」と推定する。そして、文字列CHの「山田太郎」と、アカウント情報の氏名「山田太郎」とが一致するため、第1人物M1AがユーザAであり、第1人物M1Aの生年月日は、アカウント情報に含まれる「1980年4月1日」であると推定する。
【0138】
また、
図14等にも示したとおり、第1画像P1-4は「年賀状」であり、第1画像P1-4には「2020年元旦」という日付を意味する文字列CHが含まれている。この日付から、第1取得部40は、第1画像P1-4の写真領域APの撮影年を2020年付近と推定する。そして、第1画像P1-4の写真領域APの撮影年が2020年であるとすると、第1画像P1-4に含まれる第1人物M1Aの生年は1980年であるため、第1人物M1Aの年齢は、約40才であると推定される。第1取得部40は、こうした推定により、第1画像P1-4の撮影時点の第1人物M1Aの年齢を約40才と推定する。この第1人物M1Aの推定年齢は、アカウント情報を用いているものの、第1画像P1-4から認識される第1人物M1Aの顔と「2020年元旦」という文字列CHとに基づいて取得される情報であるため、第1人物関連情報R1の一例である。また、第1取得部40は、第1画像P1-1~P1-3についても同様な推定を行い、各第1画像P1-1~P1-3の撮影時点の第1人物M1Aの年齢を推定する。
【0139】
図18に示すように、第2取得部42は、本処理において、類似画像検索処理の処理結果として、第2画像P2-1の第2人物M2Aの顔は、第1画像P1-4の第1人物M1Aの顔に最も類似するという判定結果を取得する。さらに、第2取得部42は、第1画像P1-4の第1人物関連情報R1から、第1人物M1Aの推定年齢は40才であるという情報を取得する。これらの情報に基づいて、第2取得部42は、第2画像P2-1の第2人物M2Aの推定年齢は40才であるという推定結果を、第2人物関連情報R2として取得する。
【0140】
このように、第3実施形態においては、第2取得部42は、第2画像P2-1の第2人物M2Aの年齢を推定する場合に、第2画像P2-1の第2人物M2Aと顔が類似する顔を含む第1画像P1-4を検索し、検索した第1画像P1-4の第1人物関連情報R1を利用して、第2人物M2Aの推定年齢という第2人物関連情報R2を取得する。これにより、第2顔画像PF2から第2人物M2Aの年齢を推定する場合に比べ、信頼性の高い第1人物関連情報R1を利用することにより、推定年齢の信頼性も向上する。
【0141】
なお、推定年齢は、例えば40代、40代前半、又は38才~42才等ある程度の幅を持ったものでもよい。
【0142】
また、本例においては、第1取得部40が第1取得処理を実行する際に、アカウント情報を利用する例で説明したが、第2取得部42が第2取得処理を実行する際にアカウント情報を利用してもよい。例えば、
図18の本処理において、上述のとおり、第2取得部42から、第2画像P2-1の第2人物M2Aの顔と第1画像P1-4の第1人物M1Aの顔と最も類似するという判定結果を取得する。この判定結果を取得した後に、第2取得部42が、アカウント情報を利用して、第1画像P1-4の第1人物M1Aの年齢推定、及び第2画像P2-1の第2人物M2Aの年齢推定を行ってもよい。
【0143】
[第4実施形態]
図19及び
図20に示す第4実施形態では、第1取得部40は、複数の第1画像P1から家族の人数が変化した年を判別し、家族の人数変化に関わる第1人物関連情報R1を取得する。第2取得部42は、第1人物関連情報R1を使用して、その年以降に撮影された第2画像P2に関する第2人物関連情報R2を取得する。
【0144】
第4実施形態では、例えば
図19に示すように、第1取得部40は、ユーザAの複数の第1画像P1から第1人物M1Aの家族の人数の変遷を第1人物関連情報R1として取得する。第1画像P1-1~P1-3は、上記各実施形態において示した第1画像P1-1~P1-3と同様である(
図7及び
図17参照)。第1画像P1-1の写真領域APには「山田太郎」という第1人物M1Aが一人で写っており、文字列CHとして2010年という日付が含まれている。こうした情報から、第1取得部40は、第1画像P1-1から、2010年において、第1人物M1Aが独身であるという第1
人物関連情報R1を取得する。
図7にも示したとおり、第1画像P1-2からは、2014年において第1人物M1A及びM1Bが2人家族であるという第1人物関連情報R1が取得される。第1画像P1-3からは、2015年において、第1人物M1A、M1B、M1Cは3人家族であるという第1人物関連情報R1が取得される。さらに、第1画像P1-2の第1人物関連情報R1を参照すると、1年前の2014年1月の時点では、第1人物M1A及びM1Bは2人家族であり、第1人物M1Cが存在していないということがわかる。このことから、第1画像P1-3に含まれる第1人物M1Cは、2014年中に誕生した子供であるということがわかる。この情報も第1人物関連情報R1として取得される。
【0145】
図20に示すように、第2取得部42は、第2画像P2-3の画像内容を判定するに際して、第2画像P2-3に含まれる第2人物M2の顔に類似する第1人物M1の顔を含む第1画像P1として、第1画像
P1-3を検索する。第2画像P2-3に含まれる第2人物M2A及びM2Bの顔と、第1画像
P1-3に含まれる第1人物M1A及びM
1Bの顔との類似性に基づいて検索される。そして、第2取得部42は、第1画像
P1-3に対応する第1人物関連情報R1を第1画像情報リスト48から読み出す。
【0146】
第2取得部42は、本処理において、第1画像P1-3の第1人物関連情報R1に含まれる「2014年に子供(第1人物M1C)誕生」の情報、及び第2画像P2-3の付帯情報に含まれた撮影年「2019年」の情報に基づいて、第2画像P2-3の撮影時における子供(第2人物M2C)の年齢は5才であると推定する。さらに第2取得部42は、撮影日が「11月15日」であること、第2画像P2-3の撮影シーンが「神社」であることに基づいて、「第2画像P2-3は七五三(7才の女児、5才の男児、並びに3才の男児及び女児の成長を祝うイベント)で撮影された写真である」と推定する。こうした情報は、第2人物関連情報R2として取得される。この第2人物関連情報R2に基づいて、第2画像P2-3に対しては、例えば「七五三」というタグ情報が付与される。
【0147】
以上説明したように、第4実施形態によれば、第1取得部40は、複数の第1画像P1-1~P1-3に基づいて家族が増えた年を判定し、家族が増えた年を第1人物関連情報R1として取得する。第2取得部42は、家族が増えた年を、子供が生まれた年とすることで、その年以降に取得された第2画像P2-3に写る子供の年齢を推定し、推定した子供の年齢を第2人物関連情報R2として取得する。従って、本構成によれば、一つの第1画像P1のみから第1人物関連情報R1が取得される場合に比べ、多様な情報を第1人物関連情報R1として取得することでき、ひいては、信頼性の高い情報を第2人物関連情報R2として取得することができる。
【0148】
さらに、子供の推定年齢及び撮影日などに基づいて、第2画像P2-3は、例えば七五三などの子供の年齢に応じたイベントにおける記念写真であると推定する。本開示の技術によれば、第1人物関連情報R1を利用しているため、第2画像P2についての画像内容だけから第2人物M2が関わるイベントを推定する場合に比べ、信頼性の高い第2人物関連情報R2を取得することができる。
【0149】
なお、第2画像P2にタグ付けされる第2人物M2に関わるイベントの種類としては、七五三及びお宮参り(乳児の成長を祝うイベント)等の子供の健やかな成長を祝う伝統的なイベントの他に、還暦(60才の誕生日)及び米寿(88才の誕生日)等の長寿を祝うイベント、結婚式及び入学式等のライフイベント、並びにお祭り及びコンサート等の企画イベントなどの各種のイベントが含まれる。また、イベントには、運動会及び学芸会といった学校行事なども含まれる。
【0150】
[第5実施形態]
上記各実施形態では、ユーザAが保有する第1画像P1として、ユーザAが差出人となる年賀状を例に説明したが、ユーザAが保有する第1画像P1としては、ユーザAが受取人となる年賀状などの画像であってもよい。
【0151】
図21及び
図22に示す第5実施形態は、ユーザAが受取人となる第1画像P1の第1人物関連情報R1を利用して、第2画像P2から第2人物関連情報R2を取得する例である。
【0152】
図21に示すように、第1画像P1-5は、ユーザAが受取人となる年賀状の画像であり、ユーザAが差出人となる第1画像P1-4などとともに、ユーザAのフォルダである第1画像フォルダ13-1に格納される。
【0153】
ユーザAが差出人の第1画像P1-4には、差出人となるユーザAの名前である「山田太郎」が含まれているが、ユーザAが受取人となる第1画像P1-5には、差出人の名前には「山田太郎」はなく、「佐藤三郎」が含まれている。また、第1画像P1-5の文字領域ACには、「謹賀新年」及び「今度釣りに行きましょう」という文字列CHが含まれている。
【0154】
第1取得部40は、第1画像P1-5に対する第1取得処理において、文字列CHとして、「謹賀新年」が含まれていることから、第1画像P1-5は「年賀状」であること、さらに、差出人の名前が「佐藤三郎」となっていることから、写真領域APに含まれる第1人物M1Fの名前が「佐藤三郎」であることを推定する。また、第1取得部40は、文字列CHとして含まれている「今度釣りに行きましょう」のメッセージに基づいて、第1画像P1-5の第1人物M1Fの趣味が「釣り」であると推定する。また、第1取得部40は、第1画像P1-5が、ユーザAである「山田太郎」の第1画像P1-5として格納されていることから、差出人の「佐藤三郎」は、ユーザAである「山田太郎」の友人であると推定する。第1取得部40は、これらの情報を第1画像P1-5の第1人物関連情報R1として取得する。
【0155】
図22に示すように、第2取得部42は、類似画像検索処理において、処理対象の第2画像P2-4に含まれる第2人物M2Fと第1画像P1-5に含まれる第1人物M1Fの顔の類似性に基づいて、第1画像P1-5を検索する。第2取得部42は、検索した第1画像P1-5の第1人物関連情報R1を取得する。
【0156】
第2取得部42は、本処理において、第1画像P1-5の第1人物関連情報R1に「趣味は釣り」の情報があること、かつ第2画像P2-4の撮影シーンが「海」であること、かつGPS情報も東京湾であること(
図9も参照)に基づいて、「第2画像P2-4は海釣りで撮影された写真である」という第2人物関連情報R2を取得する。第2画像P2-4の撮影シーンが海であり、GPS情報も東京湾であり、かつ魚も写っていることから、第2画像P2-4を画像解析すれば、第2画像P2-4は、2人の第2人物M2A及びM2Fが釣りをしている様子を示していることを推定することができる。第2取得部42は、この推定結果により2人の第2人物M2A及びM2Fの趣味が釣りであるという第2人物関連情報R2を導出することができる。そして、第2取得部42は、第1人物関連情報R1を利用することで、導出した第2人物関連情報R2の妥当性を判定することができる。このため、第2人物関連情報R2の信頼性が向上する。
【0157】
この第2人物関連情報R2に基づいて、例えば、第2画像P2-4に「海:釣り」というタグ情報が付与される。
【0158】
以上説明したように、第5実施形態では、ユーザAが受取人の年賀状を第1画像P1として用いている。第1画像P1の第1人物M1として、ユーザAの友人が写っている場合には、第2取得部42は、その友人に関する第1人物関連情報R1を利用して、友人の顔を含む第2画像P2-4から、友人に関する第2人物関連情報R2を取得する。従って、本構成によれば、例えば、ユーザAの第1人物関連情報R1に基づいて友人に関する第2人物関連情報R2を取得する場合に比べ、信頼性の高い第2人物関連情報R2を取得することができる。
【0159】
上記各実施形態においては第1画像P1としては、写真領域APと文字領域ACとを有する文字領域有り画像を例に説明した。しかし、第1画像P1としては、文字領域有り画像に限らず、一例として
図23に示すような文字写り込み画像52であってもよい。文字写り込み画像52は、第1人物の顔が含まれる写真領域APのみの文字領域無し画像であって、写真領域APに、文字として予め登録された特定ワードが写り込んでいる画像である。
【0160】
本開示の技術において、信頼性の高い第1人物関連情報R1を取得するためには、第1画像P1が第1人物M1に関わる信頼性の高い情報を意味する文字を含んでいることが好ましい。上記各実施形態で説明したとおり、文字領域ACを有する文字領域有り画像は、文字領域無し画像に比べて信頼性の高い情報を意味する文字を含んでいる場合が多いと考えられる。しかし、文字領域ACが無くても、信頼性の高いと考えられる情報を意味する文字が写真領域APに含まれている場合には、その画像Pを第1画像P1として積極的に利用することが好ましい。
【0161】
第1人物M1に関わる信頼性の高い情報を意味する特定ワードとしては、例えば、入学式、卒業式、成人式、結婚式、誕生祝等が挙げられる。このような特定ワードは、第1人物に関わるイベントなど、各種の情報を意味するものとして利用できる可能性が高い。例えば、
図23の文字写り込み画像52のように、「○○大学 卒業式」という文字列が含まれている文字写り込み画像52を第1画像P1として使用する場合には、第1取得部40は、文字写り込み画像52から、第1画像P1の第1人物M1の出身大学を取得することができる。この情報は第1人物関連情報R1として信頼性が高いと言える。また、
図23に示すように文字として「2020年度」といった卒業年度が含まれている場合は、第1取得部40は、卒業年度を取得し、取得した卒業年度を第1人物M1のおおよその年齢の推定にも利用可能である。
【0162】
第1実施形態においては、
図4に示したように、
図23の文字写り込み画像52は、文字領域ACが無いため、分類部36によって第2画像P2に分類されてしまう。文字写り込み画像52を第1画像P1に分類するためには、分類部36が画像Pを第1画像P1に分類する条件に次の条件を追加する必要がある。すなわち、文字領域ACが無い場合でも、写真領域APに人物の顔と特定ワードの両方が含まれている画像Pについては、第1画像P1に分類するという条件を追加する。これにより、文字写り込み画像52が第1画像P1に分類される。
【0163】
例えば、
図23に示すように、特定ワードである「卒業式」を含む文字写り込み画像52と、「工事中」という文字が写り込んでいるが特定ワードを含まない文字写り込み画像53とがある場合を例に説明する。文字写り込み画像52には文字領域ACが無いが、写真領域APに人物の顔と特定ワードの両方が含まれているため、分類部36は、文字写り込み画像52を第1画像P1に分類する。一方、文字写り込み画像53には文字領域ACが無く、かつ、写真領域APには人物の顔しかなく、特定ワードが含まれていないため、分類部36は、文字写り込み画像53を第2画像P2に分類する。分類部36は、特定ワードが予め登録された辞書データ46を参照して、特定ワードの有無の判別を行う。
【0164】
また、特定ワードは、例えば、プリント写真PA(
図1参照)に写し込まれた日付であってもよい。さらに、第1画像は、文字写り込み画像52に限らず、プリント写真PAの上に手書きで書き込まれた特定ワードを含む画像であってもよい。手書きの特定ワードを含むプリント写真PAとは、例えば、ユーザがプリント写真PAを整理する際に、プリント写真PAの上に、「2010年〇月〇日」などの日付及び「〇〇の卒業式」などの特定ワードをボールペンなどで書き込んだプリント写真PAをいう。こうした手書きで書き込まれた情報は、写真に写っている人物に関わる情報を含んでいる場合も多い。
このような手書きの特定ワード付き画像Pを第1画像P1として使用することで、手書きの特定ワード付き画像Pを第2画像P2として分類する場合に比べ、多様かつ信頼性の高い第1人物関連情報R1を取得し、ひいては信頼性の高い第2人物関連情報R2を取得することができる。
【0165】
また、特定ワードとしては、「明けましておめでとうございます」及び「メリークリスマス」など、挨拶状であることを判別可能なワードなどを含んでもよい。例えば、年賀状又はクリスマスカードなどの挨拶状であっても、写真領域APと区別された文字領域ACが無い場合もある。この場合は、写真領域AP内に特定ワードが含まれている場合が多い。特定ワードとして、挨拶状であることを判別可能なワードなどを登録しておけば、写真領域APのみを有する挨拶状を第1画像P1として使用することができる。
【0166】
また、
図23においては、文字写り込み画像52及び53の文字領域無し画像に対して特定ワードの有無を判別することにより、特定ワードを含む文字写り込み画像52を第1画像P1として分類する例を説明した。しかし、文字領域無し画像だけでなく、上記各実施形態で示した年賀状の第1画像P1-4などの文字領域有り画像についても、特定ワードを判別して、第1画像P1への分類を行ってもよい。文字領域有り画像についても、すべてが有意な文字情報を有しているとは限らないため、特定ワードの有無の判別によって、有意な文字情報を含まない第1画像P1を排除することができる。
【0167】
なお、上記実施形態において、画像内容判定装置2に分類部36を設けた例で説明したが、分類部36はなくてもよい。例えば、別の装置によって分類済みの第1画像P1及び第2画像P2に対して画像内容判定装置2が処理を行うようにしてもよい。
【0168】
上記実施形態において、例えば、画像内容判定装置2の分類部36、認識部38、第1取得部40、第2取得部42、及びタグ付け部44の各種の処理を実行するコンピュータのハードウェア的な構造としては、次に示す各種のプロセッサを用いることができる。各種のプロセッサには、ソフトウェア(例えば、分類プログラム30、認識プログラム31、第1取得プログラム32、第2取得プログラム34、及びタグ付けプログラム35)を実行して各種の処理部として機能する汎用的なプロセッサであるCPU18に加えて、FPGA(Field Programmable Gate Array)等の製造後に回路構成を変更可能なプロセッサであるPLD(Programmable Logic Device)、および/またはASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が含まれる。FPGAの代わりにGPU(Graphics Processing Unit)を用いても良い。
【0169】
1つの処理部は、これらの各種のプロセッサのうちの1つで構成されてもよいし、同種または異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGAの組み合わせ、および/または、CPUとFPGAとの組み合わせもしくはCPUとGPUとの組み合わせ)で構成されてもよい。また、複数の処理部を1つのプロセッサで構成してもよい。
【0170】
複数の処理部を1つのプロセッサで構成する例としては、第1に、クライアントおよびサーバ等のコンピュータに代表されるように、1つ以上のCPUとソフトウェアの組み合わせで1つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第2に、SOC(System On Chip)等に代表されるように、複数の処理部を含むシステム全体の機能を1つのIC(Integrated Circuit)チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサの1つ以上を用いて構成される。
【0171】
さらに、これらの各種のプロセッサのハードウェア的な構造としては、より具体的には、半導体素子等の回路素子を組み合わせた電気回路を用いることができる。
【0172】
また、上記第1実施形態では、プログラムメモリ22に分類プログラム30、認識プログラム31、第1取得プログラム32、第2取得プログラム34、及びタグ付けプログラム35を含む各種プログラムが記憶されているが、本開示の技術はこれに限定されない。
図2に示すストレージ4と同様に、SSD又はUSB(Universal Serial Bus)メモリなどの任意の可搬型の記憶媒体に各種プログラムが記憶されていてもよい。この場合、一例として
図24に示すように、記憶媒体60に記憶されている各種プログラムがストレージ4と同様に、画像内容判定装置2に接続されてインストールされる。CPU18は、インストールされた各種プログラムに従って、分類処理、第1認識処理、第1取得処理、第2認識処理、第2取得処理、及びタグ付け処理を実行する。
【0173】
また、ストレージ4と同様に、通信ネットワークN(
図1参照)を介して画像内容判定装置2に接続される他のコンピュータ又はサーバ装置等の記憶部に各種プログラムを記憶させておき、画像内容判定装置2の要求に応じて各種プログラムが画像内容判定装置2にダウンロードされるようにしてもよい。この場合、CPU18は、ダウンロードされた各種プログラムに従って、分類処理、第1認識処理、第1取得処理、第2認識処理、第2取得処理、及びタグ付け処理を実行する。
【0174】
上記実施形態で説明した通り、本開示の画像内容判定装置は、以下の付記項の内容が追加されてもよい。
[付記項1]
第1画像は、第1人物の顔が含まれる写真領域と、写真領域の輪郭外の余白であって文字が配置されている文字領域とを含む文字領域有り画像を含んでいてもよく、第2画像は、第2人物の顔が含まれる写真領域のみの文字領域無し画像であってもよい。
[付記項2]
第1画像は、挨拶状及び身分証明書のうちの少なくとも1つを表す画像であってもよい。
[付記項3]
第1画像は、第1人物の顔が含まれる写真領域のみの文字領域無し画像であって、かつ、写真領域に、文字として予め登録された特定ワードが写り込んでいる文字写り込み画像を含んでいてもよい。
[付記項4]
第1画像は、文字として予め登録された特定ワードを含んでいてもよい。
[付記項5]
プロセッサは、複数の画像を、第1画像と第2画像とに分類する分類処理を実行してもよい。
[付記項6]
第1人物関連情報は、第2画像と同じ保有者の第1画像から取得されてもよい。
[付記項7]
第1人物関連情報は、第1人物の氏名、住所、電話番号、年齢、生年月日、及び趣味のうちの少なくとも1つを含んでいてもよい。
[付記項8]
第1取得処理及び第2取得処理のうちの少なくとも一方において、プロセッサは、第1画像又は第2画像に付帯する付帯情報を利用してもよい。
[付記項9]
第2取得処理において、プロセッサは、第2画像に基づいて第2人物関連情報を導出し、第1人物関連情報に基づいて、導出した第2人物関連情報の妥当性を判定してもよい。
[付記項10]
第2人物関連情報は、第2人物が関わるイベント、及び第2人物の推定年齢のうちの少なくとも1つであってもよい。
[付記項11]
第1画像に第1人物の顔が複数含まれている場合において第1人物関連情報は複数の第1人物の関係を示す情報を含んでいてもよく、及び/又は第2画像に第2人物の顔が複数含まれている場合において第2人物関連情報は複数の第2人物の関係を示す情報を含んでいてもよい。
[付記項12]
複数の第1人物の関係を示す情報又は複数の第2人物の関係を示す情報は、家族関係、親族関係、及び友人関係のうちの少なくとも1つを含んでいてもよい。
[付記項13]
プロセッサは、第2取得処理において、複数の第1画像に対応する第1人物関連情報を、第2人物関連情報の取得に利用してもよい。
【0175】
本開示の技術は、上述の種々の実施形態および/または種々の変形例を適宜組み合わせることも可能である。また、上記実施形態に限らず、要旨を逸脱しない限り種々の構成を採用し得ることはもちろんである。さらに、本開示の技術は、プログラムに加えて、プログラムを非一時的に記憶する記憶媒体にもおよぶ。
【0176】
以上に示した記載内容および図示内容は、本開示の技術に係る部分についての詳細な説明であり、本開示の技術の一例に過ぎない。例えば、上記の構成、機能、作用、および効果に関する説明は、本開示の技術に係る部分の構成、機能、作用、および効果の一例に関する説明である。よって、本開示の技術の主旨を逸脱しない範囲内において、以上に示した記載内容および図示内容に対して、不要な部分を削除したり、新たな要素を追加したり、置き換えたりしてもよいことはいうまでもない。また、錯綜を回避し、本開示の技術に係る部分の理解を容易にするために、以上に示した記載内容および図示内容では、本開示の技術の実施を可能にする上で特に説明を要しない技術常識等に関する説明は省略されている。
【0177】
本明細書において、「Aおよび/またはB」は、「AおよびBのうちの少なくとも1つ」と同義である。つまり、「Aおよび/またはB」は、Aだけであってもよいし、Bだけであってもよいし、AおよびBの組み合わせであってもよい、という意味である。また、本明細書において、3つ以上の事柄を「および/または」で結び付けて表現する場合も、「Aおよび/またはB」と同様の考え方が適用される。
【0178】
2020年3月27日に出願されたに日本国特許出願2020-058617号の開示はその全体が参照により本明細書に取り込まれる。また、本明細書に記載された全ての文献、特許出願および技術規格は、個々の文献、特許出願および技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。