特開2024-57344 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ベジベジ株式会社の特許一覧

特開2024-57344画像検索装置、画像検索方法、画像検索プログラム及び記録媒体

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024057344

(43)【公開日】2024-04-24

(54)【発明の名称】画像検索装置、画像検索方法、画像検索プログラム及び記録媒体

(51)【国際特許分類】

G06F 16/73 20190101AFI20240417BHJP

G06T 7/00 20170101ALI20240417BHJP

G06F 16/951 20190101ALI20240417BHJP

【ＦＩ】

G06F16/73

G06T7/00 300D

G06T7/00 660A

G06F16/951

【審査請求】未請求

【請求項の数】16

【出願形態】ＯＬ

(21)【出願番号】P 2022164018

(22)【出願日】2022-10-12

(71)【出願人】

【識別番号】522400342

【氏名又は名称】ベジベジ株式会社

(74)【代理人】

【識別番号】100205914

【弁理士】

【氏名又は名称】堀越総明

(74)【代理人】

【識別番号】100162189

【弁理士】

【氏名又は名称】堀越真弓

(72)【発明者】

【氏名】櫻庭弘貴

【テーマコード（参考）】

5B175

5L096

【Ｆターム（参考）】

5B175DA02

5B175DA04

5B175EA05

5B175FA02

5L096BA08

5L096DA02

5L096GA51

5L096HA02

5L096HA08

5L096HA11

5L096JA03

5L096JA09

5L096JA16

5L096KA04

5L096KA09

(57)【要約】（修正有）

【課題】ユーザの顔画像がインターネット上に流出したことを、簡易な構成で、確実、かつ、初期段階で素早く検出できる画像検索装置、画像検索方法、画像検索プログラム及び記録媒体を提供する。
【解決手段】画像検索装置は、ユーザが登録した自己の顔画像データ及び顔画像が流出した原因として登録したキーワードを記憶する入出力及び画像比較部１３と、動画データから複数の静止画データを抽出し、抽出した静止画データから顔情報が含まれる画像データを取得する画像抽出部１７ｂと、を備えている。入出力及び画像比較部は、画像抽出部によって取得された顔情報が含まれる画像データとこの入出力及び画像比較部に記憶されている顔画像データとを比較し、高い類似度を有する顔画像データのＵＲＬを抽出する。画像抽出部は、複数の処理手順を用いて動画データから静止画データを抽出し、これら複数の処理手順によって抽出した静止画データを統合する。
【選択図】図２

【特許請求の範囲】

【請求項1】

ユーザが登録した自己の顔画像を表す顔画像データ及び顔画像が流出した原因としてユーザが登録したキーワードを記憶する入出力及び画像比較部と、インターネット上の性的サイトでありかつ前記ユーザが登録したキーワードを含むＷＥＢサイトで取得した動画データから複数の静止画データを抽出し、該抽出した静止画データから顔情報が含まれる画像データを取得する画像抽出部とを備えており、
前記入出力及び画像比較部は、前記画像抽出部によって取得された顔情報が含まれる画像データと、当該入出力及び画像比較部に記憶されているユーザの登録した顔画像データとを比較し、高い類似度を有する顔画像データのＵＲＬを抽出するように構成されており、
前記画像抽出部は、複数の互いに異なる処理手順を用いて前記動画データから静止画データを抽出し、前記複数の互いに異なる処理手順によって抽出した静止画データを統合するように構成されていることを特徴とする画像検索装置。

【請求項2】

前記画像抽出部による前記複数の互いに異なる処理手順が、前記動画データを高速で再生し、機械学習モデルによって顔が映っていると判定された静止画データを抽出する処理と、前記動画データを高速で再生し、任意の一定フレーム間隔で静止画データを抽出する処理とを含んでいることを特徴とする請求項１に記載の画像検索装置。

【請求項3】

前記画像抽出部による前記複数の互いに異なる処理手順が、前記動画データを高速で再生し、機械学習モデルによって顔が映ったと判定した場合の静止画を抽出する処理と、前記動画データを高速で再生し、機械学習モデルによって最も顔が映っていると判定したタイミングの顔の静止画を抽出する処理と、前記動画データを高速で再生し、機械学習モデルによって最も顔が映っていると判定したタイミングの顔の特徴量を抽出して顔の静止画を抽出する処理と、前記動画データを高速で再生し、一定フレーム間隔で動画全体の静止画を抽出し、抽出した静止画毎に機械学習モデルによって顔が映っている確率が最も高い静止画を抽出する処理とを含んでいることを特徴とする請求項１に記載の画像検索装置。

【請求項4】

前記画像抽出部が、前記顔情報が含まれる画像データのコンフィデンス値を閾値と比較して顔画像が最も映っている画像データを抽出するように構成されていることを特徴とする請求項１に記載の画像検索装置。

【請求項5】

前記画像抽出部が、前記顔情報が含まれる画像データを先頭から所定数毎に分割し、該分割した所定数の画像データの中で最も精度の高い画像データを選択し、該選択した画像データのコンフィデンス値を閾値と比較するように構成されていることを特徴とする請求項４に記載の画像検索装置。

【請求項6】

インターネット上の性的サイトでありかつ前記ユーザが登録したキーワードを含むＷＥＢサイトのＵＲＬを収集するＵＲＬクローラ部をさらに備えており、前記画像抽出部は前記ＵＲＬクローラ部が収集したＵＲＬに対応するＷＥＢサイトで動画データを取得するように構成されていることを特徴とする請求項１に記載の画像検索装置。

【請求項7】

前記入出力及び画像比較部が、ユーザ端末から送信された顔画像データ及びキーワードを記憶するように構成されており、抽出した前記ＵＲＬを前記ユーザ端末に送信するように構成されていることを特徴とする請求項１に記載の画像検索装置。

【請求項8】

ユーザが登録した自己の顔画像を表す顔画像データ及び顔画像が流出した原因としてユーザが登録したキーワードを記憶し、インターネット上の性的サイトでありかつユーザが登録したキーワードを含むＷＥＢサイトで取得した動画データから複数の静止画データを抽出し、抽出した静止画データから顔情報が含まれる画像データを取得する画像検索方法であって、
取得した顔情報が含まれる画像データと、ユーザの登録した顔画像データとを比較し、高い類似度を有する顔画像データのＵＲＬを抽出し、
複数の互いに異なる処理手順を用いて動画データから静止画データを抽出し、複数の互いに異なる処理手順によって抽出した静止画データを統合することを特徴とする画像検索方法。

【請求項9】

前記複数の互いに異なる処理手順が、前記動画データを高速で再生し、機械学習モデルによって顔が映っていると判定された静止画データを抽出する処理と、前記動画データを高速で再生し、任意の一定フレーム間隔で静止画データを抽出する処理とを含んでいることを特徴とする請求項８に記載の画像検索方法。

【請求項10】

前記複数の互いに異なる処理手順が、前記動画データを高速で再生し、機械学習モデルによって顔が映ったと判定した場合の静止画を抽出する処理と、前記動画データを高速で再生し、機械学習モデルによって最も顔が映っていると判定したタイミングの顔の静止画を抽出する処理と、前記動画データを高速で再生し、機械学習モデルによって最も顔が映っていると判定したタイミングの顔の特徴量を抽出して顔の静止画を抽出する処理と、前記動画データを高速で再生し、一定フレーム間隔で動画全体の静止画を抽出し、抽出した静止画毎に機械学習モデルによって顔が映っている確率が最も高い静止画を抽出する処理とを含んでいることを特徴とする請求項８に記載の画像検索方法。

【請求項11】

前記顔情報が含まれる画像データのコンフィデンス値を閾値と比較して顔画像が最も映っている画像データを抽出することを特徴とする請求項８に記載の画像検索方法。

【請求項12】

前記顔情報が含まれる画像データを先頭から所定数毎に分割し、該分割した所定数の画像データの中で最も良い画像データを選択し、該選択した画像データのコンフィデンス値を閾値と比較することを特徴とする請求項１１に記載の画像検索方法。

【請求項13】

インターネット上の性的サイトでありかつ前記ユーザが登録したキーワードを含むＷＥＢサイトのＵＲＬを収集し、収集したＵＲＬに対応するサイトで前記動画データを取得することを特徴とする請求項８に記載の画像検索方法。

【請求項14】

ユーザ端末から送信された顔画像データ及びキーワードを記憶し、抽出した前記ＵＲＬを前記ユーザ端末に送信することを特徴とする請求項８に記載の画像検索方法。

【請求項15】

コンピュータを、
ユーザが登録した自己の顔画像を表す顔画像データ及び顔画像が流出した原因としてユーザが登録したキーワードを記憶する入出力及び画像比較手段と、インターネット上の性的サイトでありかつユーザが登録したキーワードを含むＷＥＢサイトで取得した動画データから複数の静止画データを抽出し、抽出した静止画データから顔情報が含まれる画像データを取得する画像抽出手段として機能させるためのプログラムであって、
前記入出力及び画像比較手段は、取得した顔情報が含まれる画像データと、ユーザの登録した顔画像データとを比較し、高い類似度を有する顔画像データのＵＲＬを抽出する手段であり、
前記画像抽出手段は、複数の互いに異なる処理手順を用いて動画データから静止画データを抽出し、複数の互いに異なる処理手順によって抽出した静止画データを統合する手段であることを特徴とするプログラム。

【請求項16】

コンピュータを、
ユーザが登録した自己の顔画像を表す顔画像データ及び顔画像が流出した原因としてユーザが登録したキーワードを記憶する入出力及び画像比較手段と、インターネット上の性的サイトでありかつユーザが登録したキーワードを含むＷＥＢサイトで取得した動画データから複数の静止画データを抽出し、抽出した静止画データから顔情報が含まれる画像データを取得する画像抽出手段として機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記入出力及び画像比較手段は、取得した顔情報が含まれる画像データと、ユーザの登録した顔画像データとを比較し、高い類似度を有する顔画像データのＵＲＬを抽出する手段であり、
前記画像抽出手段は、複数の互いに異なる処理手順を用いて動画データから静止画データを抽出し、複数の互いに異なる処理手順によって抽出した静止画データを統合する手段であることを特徴とするコンピュータ読み取り可能な記録媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、インターネット上に流出したユーザの画像を検索する画像検索装置、画像検索方法、画像検索プログラム及び画像検索プログラムを記録した記録媒体に関する。

【背景技術】

【0002】

近年、カメラの高性能化やスマートフォンの普及などにより、盗撮被害やリベンジポルノ被害が増加する傾向にある。また、アダルトサイトやＳＮＳ（ソーシャルネットワーキングサービス）などを通じて、写真や動画を気軽に投稿することができるため、投稿されたユーザ自身の写真や動画が、ユーザの許可なくアップロードされ、インターネット上の性的サイトに流出されてしまうことがある。

【0003】

特許文献１には、依頼者の意図に反してインターネット上に公開された依頼者自身の個人画像を検索する技術が開示されている。この画像検索技術は、インターネット上の全ての公開画像から人物の部分の特徴量データを抽出すると共に依頼者の個人画像の特徴量データを抽出し、これら抽出した特徴量データを互いに照合することにより、依頼者の個人画像と複数の公開画像とが同じ画像かどうか判断して依頼者の個人画像を検索するものである。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特許第５１５０５７２号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

特許文献１に記載された画像検索技術は、インターネット全体を検索して、依頼者自身の画像が存在するか否かを照合、検索するものである。しかしながら、インターネット上に掲載されている画像は膨大な量であり、その全ての公開画像から人物の部分を抽出し、抽出した人物部分から特徴量を抽出して照合することは、著しく多大な演算資産を要するのみならず、著しく多大な時間を要するため、簡易な構成で画像検索を実現することは極めて難しかった。

【0006】

さらに、特許文献１に記載された画像検索技術は、依頼者のプライバシーの侵害を防止するための検索技術であることから、依頼者の盗撮被害やリベンジポルノ被害を防止するために、依頼者の顔画像の流出を、特にその初期段階で、迅速に検出することはできなかった。

【0007】

従って本発明の目的は、ユーザの顔画像がインターネット上に流出したことを簡易な構成で確実に検出できる画像検索装置、画像検索方法、画像検索プログラム及び記録媒体を提供することにある。

【0008】

本発明の他の目的は、ユーザの顔画像がインターネット上に流出したことを初期段階で素早く検出できる画像検索装置、画像検索方法、画像検索プログラム及び記録媒体を提供することにある。

【課題を解決するための手段】

【0009】

本発明によれば、ユーザが登録した自己の顔画像を表す顔画像データ及び顔画像が流出した原因としてユーザが登録したキーワードを記憶する入出力及び画像比較部と、インターネット上の性的サイトでありかつユーザが登録したキーワードを含むＷＥＢサイトで取得した動画データから複数の静止画データを抽出し、抽出した静止画データから顔情報が含まれる画像データを取得する画像抽出部とを備えている画像検索装置が提供される。入出力及び画像比較部は、画像抽出部によって取得された顔情報が含まれる画像データと、この入出力及び画像比較部に記憶されているユーザの登録した顔画像データとを比較し、高い類似度を有する顔画像データのＵＲＬ（ウェブページアドレス）を抽出するように構成されており、画像抽出部は、複数の互いに異なる処理手順を用いて動画データから静止画データを抽出し、これら複数の互いに異なる処理手順によって抽出した静止画データを統合するように構成されている。

【0010】

本発明では、顔画像流出の原因となるとして登録したキーワードを含むＷＥＢサイトで動画データを取得している。インターネット全体を検索することなく、盗撮被害やリベンジポルノ被害を防止するためのＷＥＢサイトのみを検索している。このため、インターネット上に流出したユーザの顔画像をその初期段階で迅速に検出することができると共に画像検索装置の構成が簡易となる。また、本発明では、取得した動画データから複数の静止画データを抽出し、抽出した静止画データから顔情報が含まれる画像データを取得する際に、複数の互いに異なる処理手順を用いて動画データから静止画データを抽出し、これら複数の互いに異なる処理手順によって抽出した静止画データを統合している。このように、処理手順が異なることにより最終的に得られる画像も異なってくることから、１つの手順のみによって顔画像の抽出を行った場合に比べて顔画像検出の確実性が大幅に高くなる。このため、ユーザの顔画像がインターネット上に流出したことを簡易な構成で確実に検出することができる。

【0011】

画像抽出部による複数の互いに異なる処理手順が、動画データを高速で再生し、機械学習モデルによって顔が映っていると判定された静止画データを抽出する処理と、動画データを高速で再生し、任意の一定フレーム間隔で静止画データを抽出する処理とを含んでいることが好ましい。

【0012】

画像抽出部による複数の互いに異なる処理手順が、動画データを高速で再生し、機械学習モデルによって顔が映ったと判定した場合の静止画を抽出する処理と、動画データを高速で再生し、機械学習モデルによって最も顔が映っていると判定したタイミングの顔の静止画を抽出する処理と、動画データを高速で再生し、機械学習モデルによって最も顔が映っていると判定したタイミングの顔の特徴量を抽出して顔の静止画を抽出する処理と、動画データを高速で再生し、一定フレーム間隔で動画全体の静止画を抽出し、抽出した静止画毎に機械学習モデルによって顔が映っている確率が最も高い静止画を抽出する処理とを含んでいることも好ましい。

【0013】

画像抽出部が、顔情報が含まれる画像データのコンフィデンス値を閾値と比較して顔画像が最も映っている画像データを抽出するように構成されていることも好ましい。

【0014】

この場合、画像抽出部が、顔情報が含まれる画像データを先頭から所定数毎に分割し、分割した所定数の画像データの中で最も良い画像データを選択し、選択した画像データのコンフィデンス値を閾値と比較するように構成されていることがより好ましい。

【0015】

インターネット上の性的サイトでありかつユーザが登録したキーワードを含むＷＥＢサイトのＵＲＬを収集するＵＲＬクローラ部をさらに備えており、画像抽出部はこのＵＲＬクローラ部が収集したＵＲＬに対応するＷＥＢサイトで動画データを取得するように構成されていることも好ましい。

【0016】

入出力及び画像比較部が、ユーザ端末から送信された顔画像データ及びキーワードを記憶するように構成されており、抽出したＵＲＬをユーザ端末に送信するように構成されていることも好ましい。

【0017】

本発明によれば、さらに、ユーザが登録した自己の顔画像を表す顔画像データ及び顔画像が流出した原因としてユーザが登録したキーワードを記憶し、インターネット上の性的サイトでありかつユーザが登録したキーワードを含むＷＥＢサイトで取得した動画データから複数の静止画データを抽出し、抽出した静止画データから顔情報が含まれる画像データを取得する画像検索方法が提供される。取得した顔情報が含まれる画像データと、ユーザの登録した顔画像データとを比較し、高い類似度を有する顔画像データのＵＲＬを抽出し、複数の互いに異なる処理手順を用いて動画データから静止画データを抽出し、複数の互いに異なる処理手順によって抽出した静止画データを統合する。

【0018】

複数の互いに異なる処理手順が、動画データを高速で再生し、機械学習モデルによって顔が映っていると判定された静止画データを抽出する処理と、動画データを高速で再生し、任意の一定フレーム間隔で静止画データを抽出する処理とを含んでいることが好ましい。

【0019】

複数の互いに異なる処理手順が、動画データを高速で再生し、機械学習モデルによって顔が映ったと判定した場合の静止画を抽出する処理と、動画データを高速で再生し、機械学習モデルによって最も顔が映っていると判定したタイミングの顔の静止画を抽出する処理と、動画データを高速で再生し、機械学習モデルによって最も顔が映っていると判定したタイミングの顔の特徴量を抽出して顔の静止画を抽出する処理と、動画データを高速で再生し、一定フレーム間隔で動画全体の静止画を抽出し、抽出した静止画毎に機械学習モデルによって顔が映っている確率が最も高い静止画を抽出する処理とを含んでいることも好ましい。

【0020】

顔情報が含まれる画像データのコンフィデンス値を閾値と比較して顔画像が最も映っている画像データを抽出することも好ましい。

【0021】

この場合、顔情報が含まれる画像データを先頭から所定数毎に分割し、分割した所定数の画像データの中で最も精度の高い画像データを選択し、選択した画像データのコンフィデンス値を閾値と比較することがより好ましい。

【0022】

インターネット上の性的サイトでありかつユーザが登録したキーワードを含むＷＥＢサイトのＵＲＬを収集し、収集したＵＲＬに対応するサイトで動画データを取得することも好ましい。

【0023】

ユーザ端末から送信された顔画像データ及びキーワードを記憶し、抽出したＵＲＬをユーザ端末に送信することも好ましい。

【0024】

本発明によれば、またさらに、コンピュータを、ユーザが登録した自己の顔画像を表す顔画像データ及び顔画像が流出した原因としてユーザが登録したキーワードを記憶する入出力及び画像比較手段と、インターネット上の性的サイトでありかつユーザが登録したキーワードを含むＷＥＢサイトで取得した動画データから複数の静止画データを抽出し、抽出した静止画データから顔情報が含まれる画像データを取得する画像抽出手段として機能させるためのプログラムが提供される。入出力及び画像比較手段は、取得した顔情報が含まれる画像データと、ユーザの登録した顔画像データとを比較し、高い類似度を有する顔画像データのＵＲＬを抽出する手段であり、画像抽出手段は、複数の互いに異なる処理手順を用いて動画データから静止画データを抽出し、複数の互いに異なる処理手順によって抽出した静止画データを統合する手段である。

【0025】

本発明によれば、さらに、コンピュータを、ユーザが登録した自己の顔画像を表す顔画像データ及び顔画像が流出した原因としてユーザが登録したキーワードを記憶する入出力及び画像比較手段と、インターネット上の性的サイトでありかつユーザが登録したキーワードを含むＷＥＢサイトで取得した動画データから複数の静止画データを抽出し、抽出した静止画データから顔情報が含まれる画像データを取得する画像抽出手段として機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体が提供される。入出力及び画像比較手段は、取得した顔情報が含まれる画像データと記憶したユーザの登録した顔画像データとを比較し、高い類似度を有する顔画像データのＵＲＬを抽出する手段であり、画像抽出手段は、複数の互いに異なる処理手順を用いて動画データから静止画データを抽出し、複数の互いに異なる処理手順によって抽出した静止画データを統合する手段である。

【発明の効果】

【0026】

本発明では、盗撮被害やリベンジポルノ被害を防止するためのＷＥＢサイトのみが検索されるため、インターネット上に流出したユーザの顔画像をその初期段階で迅速に検出することができると共に画像検索装置の構成が簡易となる。また、処理手順が異なることにより最終的に得られる画像も異なってくることから、顔画像検出の確実性が大幅に高くなるため、ユーザの顔画像がインターネット上に流出したことを簡易な構成で確実に検出することができる。

【図面の簡単な説明】

【0027】

【図1】本発明の一実施形態における画像検索装置の全体構成を概略的に示すブロック図である。

【図2】図１の画像検索装置の機能を説明する説明図である。

【図3】図１の画像検索装置における入出力及び画像比較部の処理動作を示すフローチャートである。

【図4】図１の画像検索装置における入出力及び画像比較部の処理動作を示すフローチャートである。

【図5】図１の画像検索装置におけるＵＲＬクローラ部の処理動作を示すフローチャートである。

【図6】図１の画像検索装置における静止画クローラ部の処理動作を示すフローチャートである。

【図7】図１の画像検索装置における動画クローラ部の処理動作を示すフローチャートである。

【図8】図１の画像検索装置における動画クローラ部の処理動作の一部の変更態様を示すフローチャートである。

【図9】ユーザ端末における自己の顔画像の登録画面を表す図である。

【図10】ユーザ端末におけるキーワードの登録画面を表す図である。

【図11】ユーザ端末における検索結果表示画面を表す図である。

【発明を実施するための形態】

【0028】

図１は本発明の一実施形態における画像検索装置の全体構成を概略的に示しており、図２は本実施形態の画像検索装置の機能を説明している。

【0029】

図１において、１０はユーザが操作する例えばスマートフォン、タブレット端末又はコンピュータ端末等から構成され、本実施形態の画像検索アプリがインストールされているユーザ端末、１１はユーザ端末１０と通信が可能なクラウド上の画像検索サーバ、１２は画像検索サーバ１１がアクセス可能なインターネットをそれぞれ示している。

【0030】

画像検索サーバ１１は、図１に示すように、入出力及び画像比較部１３と、クラウドサーバ１４と、ＵＲＬクローラ部１５と、静止画クローラ部１６と、動画クローラ部１７とを少なくとも備えている。

【0031】

図２に示すように、入出力及び画像比較部１３は、クラウドコンピューティングサービス（ＡＷＳ）によるデータベース（ＡＷＳ／ＲＤＳ）１３ａ及びストレージ（ＡＷＳ／Ｓ３）１３ｂを備えている。この入出力及び画像比較部１３は、ユーザ端末１０に通信接続可能であり、ユーザ端末１０から送信されたユーザの顔画像データ及びこの顔画像データに紐づけてユーザが登録したキーワードを記憶するように構成されている。入出力及び画像比較部１３は、さらに、クラウドコンピューティングサービスによるクラウドサーバ（Ａｚｕｒｅ）１４が抽出した、ユーザの顔画像と類似度の高い顔画像が存在する動画のＵＲＬをユーザに紐づけて記憶するように構成されている。

【0032】

前述したように、ユーザ端末１０から送信されたユーザの顔画像データはストレージ（ＡＷＳ／Ｓ３）１３ｂに、ユーザが登録したキーワードはデータベース（ＡＷＳ／ＲＤＳ）１３ａにそれぞれ記憶されている。クラウドサーバ（Ａｚｕｒｅ）１４は、静止画クローラ部１６又は動画クローラ部１７が収集した画像を学習してＦａｃｅＩＤを付与すると共に、これら収集した画像とユーザが登録した画像とを比較し、その類似度を求めるように構成されている。

【0033】

ＵＲＬクローラ部１５は、ＡＷＳによるクラウドサーバ（ＡＷＳ／ＥＣ２）１５ａ上に存在するＷｅｂクローラの１つを利用した自動巡回プログラムであるライブラリＳｅｌｅｎｉｕｍを使用している。このＵＲＬクローラ部１５は、インターネット１２上の性的な動画を扱っておりかつ顔画像流出の可能性のあるあらかじめ決められた複数のＷＥＢサイトについて、登録されたキーワードを含む動画のＵＲＬを収集するように構成されている。あらかじめ決められたＷＥＢサイトとしては、例えば、Ｐｏｒｎｈｕｂ、ＦＣ２、ＴｏｋｙｏＭｏｔｉｏｎ、ＴｗｉｔｔｅｒＶｉｄｅｏＴｏｏｌｓ、ＸＶＩＤＥＯＳ、Ｔｗｉｔｔｅｒ等が存在する。収集されたＵＲＬのリストは、ＵＲＬクローラ部１５内のＵＲＬリスト部１５ｂに記憶される。

【0034】

ＵＲＬリスト部１５ｂは、ＡＷＳによるデータベース（ＡＷＳ／ＲＤＳ）とローカルのファイル（ローカルのプログラムファイル内のコンフィグファイル）の記憶部とによって構成されており、収集されたＵＲＬはこのＲＤＳとローカルファイル記憶部とに記憶される。ＲＤＳに書き込む理由は、動画クローラやフェイスシミラー等の種々のシステムからＵＲＬとそれに結び付く動画像データ等の情報にアクセスする要請があるためである。

【0035】

静止画クローラ部１６は、本実施形態においては、ＡＷＳによるストレージ（ＡＷＳ／Ｓ３）１６ａと、画像サーチ部１６ｂと、機械学習部１６ｃとから主に構築されている。

【0036】

画像サーチ部１６ｂは、ローカルのプログラムファイル内のコンフィグファイル内に記述されている検索エンジンを用い、入出力記憶部に記憶されている指定されたキーワードでＷＥＢサイトを画像検索し、表示される画像をストレージ（ＡＷＳ／Ｓ３）１６ａに記憶する。検索エンジンとしては主にＧｏｏｇｌｅ、Ｙａｎｄｅｘ、Ｙａｈｏｏ、Ｂａｉｄｕ等を利用している。

【0037】

機械学習部１６ｃは、深層学習アルゴリズムを利用し、人の顔検出に特化したライブラリＦａｃｅＢｏｘｅｓモデルを用いて構築されている。この機械学習モデルは、膨大な顔画像から人の顔の特徴について学習し、入力された未知の画像データに含まれる顔情報の検出を可能にしている。検出された顔情報はコンフィデンスという数値を伴い、この値が、検出された領域に顔が含まれている確実性を表す。つまり、この数値が高いほど、検出された領域が顔である可能性が高いということである。なお、ＦａｃｅＢｏｘｅｓモデルは、一般に公開されている機械学習モデルのライブラリであり、西洋人の顔画像を学習して構築されているため、後述するように、アジア人の顔画像でファインチューニングを実行したモデルを使用し、オリジナルのモデルに比して顔画像の検出精度を高めている。

【0038】

機械学習部１６ｃは、さらに、コンフィデンス値があらかじめ定めた閾値を超える全ての画像データを、ストレージ（ＡＷＳ／Ｓ３）１６ａに記憶するように構成されている。

【0039】

動画クローラ部１７は、本実施形態においては、クラウドサーバ（ＡＷＳ／ＥＣ２）１５ａに存在する動画クローラと、ＡＷＳによるストレージ（ＡＷＳ／Ｓ３）１７ａと、画像抽出部１７ｂと、前述した機械学習部１６ｃとから主に構築されている。

【0040】

動画クローラは、ローカルのプログラムファイル内のコンフィグファイル内に記述されている検索エンジン（ＧｏｏｇｌｅＣｈｒｏｍｅ）を用いてＵＲＬリスト部１５ｂに記憶されているＵＲＬにおける多数の動画を再生し、１つの動画データに対して、膨大な数の静止画データを取得する。そして、得られた画像群に対して、人の顔検出に特化したライブラリＦａｃｅＢｏｘｅｓモデルを用いて顔情報が含まれる画像のみを取得し、その中でも最もコンフィデンス値が高い（顔が最も鮮明に映っている）１枚の画像を選出するように構成されている。

【0041】

ＵＲＬリスト部１５ｂに記憶されているＵＲＬにおける多数の動画から静止画を取得する方法として、動画をダウンロードして再生する方法と、ＷＥＢサイトをクローリングして再生する方法があるが、どちらを用いても良い。画像抽出部１７ｂは、取得した多数の動画像を再生し、多数の静止画を取得する。

【0042】

機械学習部１６ｃは、深層学習アルゴリズムを利用し、人の顔検出に特化したライブラリＦａｃｅＢｏｘｅｓモデルを用いて構築されている。この機械学習モデルは、膨大な顔画像から人の顔の特徴について学習し、入力された未知の画像データに含まれる顔情報の検出を可能にする。この際に検出された顔情報はコンフィデンスという数値を伴い、この値が、検出された領域に顔が含まれている確実性を表す。つまり、この数値が高いほど、検出された領域が顔である可能性が高いということである。なお、ＦａｃｅＢｏｘｅｓモデルは、一般に公開されている機械学習モデルのライブラリであり、西洋人の顔画像を学習して構築されているため、アジア人に対しての顔の検出精度はさほど高くない。そこで、本実施形態では、独自に収集したアジア人の顔画像を学習データとしてこのＦａｃｅＢｏｘｅｓモデルに再度入力してモデルの重みを調整するファインチューニングを行っている。これにより、オリジナルのモデルに比して顔画像の検出精度を高めている。

【0043】

機械学習部１６ｃは、さらに、コンフィデンス値があらかじめ定めた閾値を超える全ての画像データをストレージ（ＡＷＳ／Ｓ３）１７ａに記憶するように構成されている。

【0044】

図３及び図４は入出力及び画像比較部１３の処理動作を表しており、以下、これらの図を用いてこの入出力及び画像比較部１３の処理動作を説明する。

【0045】

まず、最初に、ユーザが、ユーザ端末１０を介して自己の顔画像を登録する。即ち、図９に示すように、真顔のみならず笑顔や横顔を含む、できれば、複数の顔画像データを画像検索サーバ１１に送信する。さらに、図１０に示すように、「誰に」、「いつ」、「どこで」、「何をした」等を示すキーワードを、ユーザ端末１０を介して画像検索サーバ１１に送信する。例えば、撮影者（分かる場合）として「元カレ」、「同級生」、「リスナー」、「個人撮影」等のキーワード、撮影時の身分（分かる場合）として「ＪＤ」、「女子大生」、「会社員」、「デリヘル」、「パパ活」等のキーワード、撮影場所（分かる場合）として「ホテル」、「渋谷」、「新宿」、「お店の名前」、「ライブチャット」、「ハメ撮り」、「盗撮」等のキーワード、「マッチングアプリ」、「ＳＮＳ」、「Ｔｗｉｔｔｅｒ」、「コスプレ」等のキーワード、ユーザの源氏名や愛称等のキーワードを画像検索サーバ１１に送信する。

【0046】

図３に示すように、入出力及び画像比較部１３は、ユーザ端末１０から送信された複数の顔画像データ及びこの顔画像データと共に送信されたキーワードを受信する（ステップＳ１）。

【0047】

次いで、入出力及び画像比較部１３は、受信したユーザの顔画像データをストレージ（ＡＷＳ／Ｓ３）１３ｂに記憶し、これに紐づけてユーザが登録したキーワードをデータベース（ＡＷＳ／ＲＤＳ）１３ａに記憶する（ステップＳ２）。

【0048】

さらに、ユーザが登録したキーワードに類似し、クロール処理により適切であると自動又は手動で判断した類似キーワードをデータベース（ＡＷＳ／ＲＤＳ）１３ａに記憶する（ステップＳ３）。

【0049】

一方、図４に示すように、入出力及び画像比較部１３は、ストレージ（ＡＷＳ／Ｓ３）１３ｂに記憶されているユーザの顔画像をクラウドサーバ１４のＡｚｕｒｅのシミラーに入力することにより、類似度の高い顔画像のＩＤを出力する。このＩＤに基づいて、データベース（ＡＷＳ／ＲＤＳ）１３ａを参照し、その顔画像が存在する動画のＵＲＬ及び本人である確率を抽出する（ステップＳ１１）。即ち、Ａｚｕｒｅからは、ＵＲＬ及び確率が出力され、データベース（ＡＷＳ／ＲＤＳ）からは、投稿日時が読み出されて出力される。

【0050】

次いで、入出力及び画像比較部１３は、このようにして得られた、類似度の高い顔画像が存在する動画のＵＲＬ、本人である確率、投稿された日時及び発見した日時をユーザ端末１０に送信する（ステップＳ１２）。ユーザ端末１０は、これにより、図１１に示すような検索結果（発見日、この情報をチェックしたか否か、投稿日、ＵＲＬ、本人確率）を表示する。

【0051】

図５はＵＲＬクローラ部１５の処理動作を表しており、以下、同図を用いてこのＵＲＬクローラ部１５の処理動作を説明する。

【0052】

ＵＲＬクローラ部１５は、まず、アクセスする複数のＷＥＢサイトをあらかじめ決定しておく（ステップＳ２１）。

【0053】

次いで、決定したこれら複数のＷＥＢサイトについて、データベース（ＡＷＳ／ＲＤＳ）１３ａに記憶されているユーザが登録したキーワード及びこれに類似するキーワードに基づいてＵＲＬクローリングし、これらキーワードを含む動画のＵＲＬを取得する（ステップＳ２２）。

【0054】

次いで、取得したＵＲＬをＵＲＬリストとして、ＵＲＬリスト部１５ｂに記憶する（ステップＳ２３）。

【0055】

図６は静止画クローラ部１６の処理動作を表しており、以下、同図を用いてこの静止画クローラ部１６の処理動作を説明する。

【0056】

静止画クローラ部１６は、画像サーチ部１６ｂにおいて、あらかじめ定めた検索エンジンを用い、データベース（ＡＷＳ／ＲＤＳ）１３ａに記憶されている指定されたキーワードで静止画を画像検索する（ステップＳ３１）。画像の収集対象となるＷＥＢサイトは非常に多岐にわたるため、指定されたキーワード、例えば、盗撮された画像の場合、「盗撮」というキーワードで検索する。

【0057】

次いで、検索された多数の静止画像を、ローカルのキャッシュメモリに一時的に記憶させる（ステップＳ３２）。

【0058】

次いで、このキャッシュメモリに記憶された多数の静止画像について、顔検出に関するディープラーニングによる機械学習アルゴリズム（例えばＦａｃｅＢｏｘｅｓモデル）を適用し、顔が含まれている静止画像と顔が含まれている確率を表すコンフィデンス値とを抽出する（ステップＳ３３）。

【0059】

次いで、抽出したコンフィデンス値が閾値を超える静止画像（画像データ）について、ストレージ（ＡＷＳ／Ｓ３）１６ａに記憶させて、リスト登録処理を行う（ステップＳ３４）。

【0060】

一方、ステップＳ３１～３４の処理とは非同期に、ユーザが自己の顔画像データ及びキーワードを登録した際に、ＡｚｕｒｅのＦｉｎｄＳｉｍｉｌａｒが呼び出され、画像をこのＡｚｕｒｅのＦｉｎｄＳｉｍｉｌａｒモデルに学習させると共に、その画像元のＵＲＬ、投稿日時、キーワード、Ａｚｕｒｅに学習させた画像のＩＤなどをデータベース（ＡＷＳ／ＲＤＳ）１３ａに記録し、画像データをストレージ（ＡＷＳ／Ｓ３）１３ｂにアップロードして記憶させる（ステップＳ３５）。

【0061】

図７は動画クローラ部１７の処理動作を表しており、以下、同図を用いてこの動画クローラ部１７の処理動作を説明する。

【0062】

動画クローラ部１７は、まず、ＵＲＬリスト部１５ｂに記憶されているＵＲＬにおいて、あらかじめ定めた画像検索エンジン（ＧｏｏｇｌｅＣｈｒｏｍｅ）を用い、指定されたキーワードで多数の動画像を取得する（ステップＳ４１）。

【0063】

次いで、取得した多数の動画像を高速で再生し、機械学習モデルが判定した顔が映っている静止画を取得する（ステップＳ４２）。

【0064】

一方、取得した多数の動画像を高速で再生し、任意の一定フレーム間隔で静止画を取得する（ステップＳ４３）。

【0065】

次いで、ステップＳ４２の処理手順（ステップＳ４３とは異なる処理手順）で抽出した多数の静止画と、ステップＳ４３の処理手順（ステップＳ４２とは異なる処理手順）で抽出した多数の静止画とを統合し、ローカルのキャッシュメモリに一時的に記憶させる（ステップＳ４４）。このように、本実施形態では、２つの互いに異なる処理手順を使用して動画像から静止画をそれぞれ抽出し、これら２つの処理手順によって抽出した静止画を統合することによって、静止画の抽出を行っている。処理手順が異なることにより最終的に得られる画像も異なってくることから、１つの手順のみによって顔画像の抽出を行った場合に比べて顔画像検出の確実性が非常に高くなる。

【0066】

多数の画像データはストレージに直接記録するには大容量すぎるため、ステップＳ４２及びＳ４３においては、顔が写っているとは限らない画像群から顔が写っているもののみを選択し、さらにその中で最もコンフィデンス値の高いものを最終的に残す。ステップＳ４４においても、ほぼ同様で顔が写っている画像群から最も顔がよく写っている（コンフィデンス値の高い）画像を最終的に残す。これは最終的にストレージにアップロードするが、正しくはＵＲＬクローラに記載される全ての動画に対して、各コンフィデンス値の最も高い画像を取得し終えてから、リスト登録処理を通してＡｚｕｒｅで学習させ、ストレージ（ＡＷＳ／Ｓ３）１７ａに記憶させる。

【0067】

コンフィデンス値の最も高い画像を取得する場合に、全ての画像について評価するのではなく、動画から得られた複数の画像群を先頭から所定数毎（例えば１００枚毎）に分割して、その中で最も精度の高い画像を選択することが望ましい。そして、各画像群から得られた複数の顔画像に対して、さらに、その中で最もコンフィデンスの高いものを最終的に選出する。このように、全ての画像から最も精度の高い画像を選択するのではなく、画像群に分割し各分割単位について評価する理由は、閾値を超えた場合に処理を途中で切り上げられるので、全体としては効率的に処理を行えるためである。例えば１０００枚の画像から精度の最も高いものを選出する場合、単純に行えば１０００枚の画像データを評価する必要があるが、１００枚毎に１０分割した場合、例えば１０枚目で閾値を超えれば１０×１０＝１００枚の画像評価で済むこととなる。

【0068】

ステップＳ４４の処理の後、キャッシュメモリに記憶された多数の静止画像について、顔検出に関するディープラーニングによる機械学習アルゴリズム（例えばライブラリのＦａｃｅＢｏｘｅｓモデル）を適用し、顔が含まれている静止画像と顔が含まれている確率を表すコンフィデンス値とを抽出する（ステップＳ４５）。

【0069】

次いで、コンフィデンス値が閾値を超える静止画像（画像データ）についてストレージ（ＡＷＳ／Ｓ３）１７ａに記憶する（ステップＳ４６）。

【0070】

一方、ステップＳ４１～４６の処理とは非同期に、ユーザが自己の顔画像データ及びキーワードを登録した際に、ＡｚｕｒｅのＦｉｎｄＳｉｍｉｌａｒが呼び出され、画像をこのＡｚｕｒｅのＦｉｎｄＳｉｍｉｌａｒモデルに学習させると共に、その画像元のＵＲＬ、投稿日時、キーワード、Ａｚｕｒｅに学習させた画像のＩＤなどをデータベース（ＡＷＳ／ＲＤＳ）１３ａに記録し、画像データをストレージ（ＡＷＳ／Ｓ３）１３ｂにアップロードして記憶させる（ステップＳ４７）。

【0071】

図８は動画クローラ部１７の一部の処理動作を変更した変更態様の処理動作を表している。

【0072】

この変更態様においては、図７のステップＳ４２における処理動作に代えて、図８のステップＳ４２ａに示すように、取得した多数の動画像を高速で再生し、機械学習モデルを利用して、顔が映ったと判定した場合の静止画を抽出する処理、図８のステップＳ４２ｂに示すように、取得した多数の動画像を高速で再生し、機械学習モデルを利用して、最も顔が映っていると判定したタイミングの顔の静止画を抽出する処理、及び図８のステップＳ４２ｃに示すように、取得した多数の動画像を高速で再生し、機械学習モデルを利用して、最も顔が映っていると判定したタイミングの顔の特徴量を抽出し、顔の静止画を抽出する処理を並行して行う。

【0073】

また、図７のステップＳ４３における処理動作に代えて、図８のステップＳ４３ａに示すように、取得した多数の動画像を高速で再生し、一定フレーム間隔で動画全体の静止画を抽出し、抽出した静止画毎に機械学習モデルを利用して、顔が映っている確率が最も高い静止画を抽出する処理を行う。

【0074】

その後、ステップＳ４２ａ～４２ｃの処理手順（他のステップとは異なる処理手順）で抽出した多数の静止画と、ステップＳ４３ａの処理手順（他のステップとは異なる処理手順）で抽出した多数の静止画とを統合してローカルのキャッシュメモリに一時的に記憶させる。このように、本変更態様では、４つの互いに異なる処理手順を使用して動画像から静止画をそれぞれ抽出し、これら４つの処理手順によって抽出した静止画を統合することによって、静止画の抽出を行っている。処理手順が異なることにより最終的に得られる画像も異なってくることから、１つの手順のみによって顔画像の抽出を行った場合に比べて確実性が大幅に高くなる。

【0075】

以上説明したように、本実施形態では、動画クローラ部１７の動画クローラによって、ＵＲＬリスト部１５ｂに記憶されているＵＲＬに対応するＷＥＢサイト、即ち、顔画像流出の原因となるとして登録したキーワードを含むＷＥＢサイト、で動画データを取得している。即ち、インターネット全体を検索していない。このため、インターネット上に流出したユーザの顔画像をその初期段階で迅速に検出することができると共に画像検索装置の構成が簡易となる。また、本実施形態では、取得した動画データから複数の静止画データを抽出し、抽出した静止画データから顔情報が含まれる画像データを取得する際に、複数の互いに異なる処理手順を用いて動画データから静止画データを抽出し、これら複数の互いに異なる処理手順によって抽出した静止画データを統合している。このように、処理手順が異なることにより最終的に得られる画像も異なってくることから、１つの手順のみによって顔画像の抽出を行った場合に比べて顔画像検出の確実性が大幅に高くなる。このため、ユーザの顔画像がインターネット上に流出したことを簡易な構成で確実に検出することができる。

【0076】

上述した実施形態及び変更態様においては、クラウドコンピューティングサービスによるサーバ、ストレージ及びデータベースを使用して本発明の画像検索装置を構築しているが、本発明は、クラウドコンピューティングサービスを用いることなく、ローカルのサーバ、ストレージ及びデータベースを組み上げて構築した専用の画像検索装置を用いて実現しても良い。

【0077】

以上述べた実施形態は全て本発明を例示的に示すものであって限定的に示すものではなく、本発明は他の種々の変形態様及び変更態様で実施することができる。従って本発明の範囲は特許請求の範囲及びその均等範囲によってのみ規定されるものである。

【符号の説明】

【0078】

１０ユーザ端末
１１画像検索サーバ
１２インターネット
１３入出力及び画像比較部
１３ａデータベース（ＡＷＳ／ＲＤＳ）
１３ｂ、１６ａ、１７ａストレージ（ＡＷＳ／Ｓ３）
１４クラウドサーバ
１５ＵＲＬクローラ部
１５ａクラウドサーバ（ＡＷＳ／ＥＣ２）
１５ｂＵＲＬリスト部
１６静止画クローラ部
１６ｂ画像サーチ部
１６ｃ機械学習部
１７動画クローラ部
１７ｂ画像抽出部

【図1】