(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024057344
(43)【公開日】2024-04-24
(54)【発明の名称】画像検索装置、画像検索方法、画像検索プログラム及び記録媒体
(51)【国際特許分類】
G06F 16/73 20190101AFI20240417BHJP
G06T 7/00 20170101ALI20240417BHJP
G06F 16/951 20190101ALI20240417BHJP
【FI】
G06F16/73
G06T7/00 300D
G06T7/00 660A
G06F16/951
【審査請求】未請求
【請求項の数】16
【出願形態】OL
(21)【出願番号】P 2022164018
(22)【出願日】2022-10-12
(71)【出願人】
【識別番号】522400342
【氏名又は名称】ベジベジ株式会社
(74)【代理人】
【識別番号】100205914
【弁理士】
【氏名又は名称】堀越 総明
(74)【代理人】
【識別番号】100162189
【弁理士】
【氏名又は名称】堀越 真弓
(72)【発明者】
【氏名】櫻庭 弘貴
【テーマコード(参考)】
5B175
5L096
【Fターム(参考)】
5B175DA02
5B175DA04
5B175EA05
5B175FA02
5L096BA08
5L096DA02
5L096GA51
5L096HA02
5L096HA08
5L096HA11
5L096JA03
5L096JA09
5L096JA16
5L096KA04
5L096KA09
(57)【要約】 (修正有)
【課題】ユーザの顔画像がインターネット上に流出したことを、簡易な構成で、確実、かつ、初期段階で素早く検出できる画像検索装置、画像検索方法、画像検索プログラム及び記録媒体を提供する。
【解決手段】画像検索装置は、ユーザが登録した自己の顔画像データ及び顔画像が流出した原因として登録したキーワードを記憶する入出力及び画像比較部13と、動画データから複数の静止画データを抽出し、抽出した静止画データから顔情報が含まれる画像データを取得する画像抽出部17bと、を備えている。入出力及び画像比較部は、画像抽出部によって取得された顔情報が含まれる画像データとこの入出力及び画像比較部に記憶されている顔画像データとを比較し、高い類似度を有する顔画像データのURLを抽出する。画像抽出部は、複数の処理手順を用いて動画データから静止画データを抽出し、これら複数の処理手順によって抽出した静止画データを統合する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
ユーザが登録した自己の顔画像を表す顔画像データ及び顔画像が流出した原因としてユーザが登録したキーワードを記憶する入出力及び画像比較部と、インターネット上の性的サイトでありかつ前記ユーザが登録したキーワードを含むWEBサイトで取得した動画データから複数の静止画データを抽出し、該抽出した静止画データから顔情報が含まれる画像データを取得する画像抽出部とを備えており、
前記入出力及び画像比較部は、前記画像抽出部によって取得された顔情報が含まれる画像データと、当該入出力及び画像比較部に記憶されているユーザの登録した顔画像データとを比較し、高い類似度を有する顔画像データのURLを抽出するように構成されており、
前記画像抽出部は、複数の互いに異なる処理手順を用いて前記動画データから静止画データを抽出し、前記複数の互いに異なる処理手順によって抽出した静止画データを統合するように構成されていることを特徴とする画像検索装置。
【請求項2】
前記画像抽出部による前記複数の互いに異なる処理手順が、前記動画データを高速で再生し、機械学習モデルによって顔が映っていると判定された静止画データを抽出する処理と、前記動画データを高速で再生し、任意の一定フレーム間隔で静止画データを抽出する処理とを含んでいることを特徴とする請求項1に記載の画像検索装置。
【請求項3】
前記画像抽出部による前記複数の互いに異なる処理手順が、前記動画データを高速で再生し、機械学習モデルによって顔が映ったと判定した場合の静止画を抽出する処理と、前記動画データを高速で再生し、機械学習モデルによって最も顔が映っていると判定したタイミングの顔の静止画を抽出する処理と、前記動画データを高速で再生し、機械学習モデルによって最も顔が映っていると判定したタイミングの顔の特徴量を抽出して顔の静止画を抽出する処理と、前記動画データを高速で再生し、一定フレーム間隔で動画全体の静止画を抽出し、抽出した静止画毎に機械学習モデルによって顔が映っている確率が最も高い静止画を抽出する処理とを含んでいることを特徴とする請求項1に記載の画像検索装置。
【請求項4】
前記画像抽出部が、前記顔情報が含まれる画像データのコンフィデンス値を閾値と比較して顔画像が最も映っている画像データを抽出するように構成されていることを特徴とする請求項1に記載の画像検索装置。
【請求項5】
前記画像抽出部が、前記顔情報が含まれる画像データを先頭から所定数毎に分割し、該分割した所定数の画像データの中で最も精度の高い画像データを選択し、該選択した画像データのコンフィデンス値を閾値と比較するように構成されていることを特徴とする請求項4に記載の画像検索装置。
【請求項6】
インターネット上の性的サイトでありかつ前記ユーザが登録したキーワードを含むWEBサイトのURLを収集するURLクローラ部をさらに備えており、前記画像抽出部は前記URLクローラ部が収集したURLに対応するWEBサイトで動画データを取得するように構成されていることを特徴とする請求項1に記載の画像検索装置。
【請求項7】
前記入出力及び画像比較部が、ユーザ端末から送信された顔画像データ及びキーワードを記憶するように構成されており、抽出した前記URLを前記ユーザ端末に送信するように構成されていることを特徴とする請求項1に記載の画像検索装置。
【請求項8】
ユーザが登録した自己の顔画像を表す顔画像データ及び顔画像が流出した原因としてユーザが登録したキーワードを記憶し、インターネット上の性的サイトでありかつユーザが登録したキーワードを含むWEBサイトで取得した動画データから複数の静止画データを抽出し、抽出した静止画データから顔情報が含まれる画像データを取得する画像検索方法であって、
取得した顔情報が含まれる画像データと、ユーザの登録した顔画像データとを比較し、高い類似度を有する顔画像データのURLを抽出し、
複数の互いに異なる処理手順を用いて動画データから静止画データを抽出し、複数の互いに異なる処理手順によって抽出した静止画データを統合することを特徴とする画像検索方法。
【請求項9】
前記複数の互いに異なる処理手順が、前記動画データを高速で再生し、機械学習モデルによって顔が映っていると判定された静止画データを抽出する処理と、前記動画データを高速で再生し、任意の一定フレーム間隔で静止画データを抽出する処理とを含んでいることを特徴とする請求項8に記載の画像検索方法。
【請求項10】
前記複数の互いに異なる処理手順が、前記動画データを高速で再生し、機械学習モデルによって顔が映ったと判定した場合の静止画を抽出する処理と、前記動画データを高速で再生し、機械学習モデルによって最も顔が映っていると判定したタイミングの顔の静止画を抽出する処理と、前記動画データを高速で再生し、機械学習モデルによって最も顔が映っていると判定したタイミングの顔の特徴量を抽出して顔の静止画を抽出する処理と、前記動画データを高速で再生し、一定フレーム間隔で動画全体の静止画を抽出し、抽出した静止画毎に機械学習モデルによって顔が映っている確率が最も高い静止画を抽出する処理とを含んでいることを特徴とする請求項8に記載の画像検索方法。
【請求項11】
前記顔情報が含まれる画像データのコンフィデンス値を閾値と比較して顔画像が最も映っている画像データを抽出することを特徴とする請求項8に記載の画像検索方法。
【請求項12】
前記顔情報が含まれる画像データを先頭から所定数毎に分割し、該分割した所定数の画像データの中で最も良い画像データを選択し、該選択した画像データのコンフィデンス値を閾値と比較することを特徴とする請求項11に記載の画像検索方法。
【請求項13】
インターネット上の性的サイトでありかつ前記ユーザが登録したキーワードを含むWEBサイトのURLを収集し、収集したURLに対応するサイトで前記動画データを取得することを特徴とする請求項8に記載の画像検索方法。
【請求項14】
ユーザ端末から送信された顔画像データ及びキーワードを記憶し、抽出した前記URLを前記ユーザ端末に送信することを特徴とする請求項8に記載の画像検索方法。
【請求項15】
コンピュータを、
ユーザが登録した自己の顔画像を表す顔画像データ及び顔画像が流出した原因としてユーザが登録したキーワードを記憶する入出力及び画像比較手段と、インターネット上の性的サイトでありかつユーザが登録したキーワードを含むWEBサイトで取得した動画データから複数の静止画データを抽出し、抽出した静止画データから顔情報が含まれる画像データを取得する画像抽出手段として機能させるためのプログラムであって、
前記入出力及び画像比較手段は、取得した顔情報が含まれる画像データと、ユーザの登録した顔画像データとを比較し、高い類似度を有する顔画像データのURLを抽出する手段であり、
前記画像抽出手段は、複数の互いに異なる処理手順を用いて動画データから静止画データを抽出し、複数の互いに異なる処理手順によって抽出した静止画データを統合する手段であることを特徴とするプログラム。
【請求項16】
コンピュータを、
ユーザが登録した自己の顔画像を表す顔画像データ及び顔画像が流出した原因としてユーザが登録したキーワードを記憶する入出力及び画像比較手段と、インターネット上の性的サイトでありかつユーザが登録したキーワードを含むWEBサイトで取得した動画データから複数の静止画データを抽出し、抽出した静止画データから顔情報が含まれる画像データを取得する画像抽出手段として機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記入出力及び画像比較手段は、取得した顔情報が含まれる画像データと、ユーザの登録した顔画像データとを比較し、高い類似度を有する顔画像データのURLを抽出する手段であり、
前記画像抽出手段は、複数の互いに異なる処理手順を用いて動画データから静止画データを抽出し、複数の互いに異なる処理手順によって抽出した静止画データを統合する手段であることを特徴とするコンピュータ読み取り可能な記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、インターネット上に流出したユーザの画像を検索する画像検索装置、画像検索方法、画像検索プログラム及び画像検索プログラムを記録した記録媒体に関する。
【背景技術】
【0002】
近年、カメラの高性能化やスマートフォンの普及などにより、盗撮被害やリベンジポルノ被害が増加する傾向にある。また、アダルトサイトやSNS(ソーシャルネットワーキングサービス)などを通じて、写真や動画を気軽に投稿することができるため、投稿されたユーザ自身の写真や動画が、ユーザの許可なくアップロードされ、インターネット上の性的サイトに流出されてしまうことがある。
【0003】
特許文献1には、依頼者の意図に反してインターネット上に公開された依頼者自身の個人画像を検索する技術が開示されている。この画像検索技術は、インターネット上の全ての公開画像から人物の部分の特徴量データを抽出すると共に依頼者の個人画像の特徴量データを抽出し、これら抽出した特徴量データを互いに照合することにより、依頼者の個人画像と複数の公開画像とが同じ画像かどうか判断して依頼者の個人画像を検索するものである。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1に記載された画像検索技術は、インターネット全体を検索して、依頼者自身の画像が存在するか否かを照合、検索するものである。しかしながら、インターネット上に掲載されている画像は膨大な量であり、その全ての公開画像から人物の部分を抽出し、抽出した人物部分から特徴量を抽出して照合することは、著しく多大な演算資産を要するのみならず、著しく多大な時間を要するため、簡易な構成で画像検索を実現することは極めて難しかった。
【0006】
さらに、特許文献1に記載された画像検索技術は、依頼者のプライバシーの侵害を防止するための検索技術であることから、依頼者の盗撮被害やリベンジポルノ被害を防止するために、依頼者の顔画像の流出を、特にその初期段階で、迅速に検出することはできなかった。
【0007】
従って本発明の目的は、ユーザの顔画像がインターネット上に流出したことを簡易な構成で確実に検出できる画像検索装置、画像検索方法、画像検索プログラム及び記録媒体を提供することにある。
【0008】
本発明の他の目的は、ユーザの顔画像がインターネット上に流出したことを初期段階で素早く検出できる画像検索装置、画像検索方法、画像検索プログラム及び記録媒体を提供することにある。
【課題を解決するための手段】
【0009】
本発明によれば、ユーザが登録した自己の顔画像を表す顔画像データ及び顔画像が流出した原因としてユーザが登録したキーワードを記憶する入出力及び画像比較部と、インターネット上の性的サイトでありかつユーザが登録したキーワードを含むWEBサイトで取得した動画データから複数の静止画データを抽出し、抽出した静止画データから顔情報が含まれる画像データを取得する画像抽出部とを備えている画像検索装置が提供される。入出力及び画像比較部は、画像抽出部によって取得された顔情報が含まれる画像データと、この入出力及び画像比較部に記憶されているユーザの登録した顔画像データとを比較し、高い類似度を有する顔画像データのURL(ウェブページアドレス)を抽出するように構成されており、画像抽出部は、複数の互いに異なる処理手順を用いて動画データから静止画データを抽出し、これら複数の互いに異なる処理手順によって抽出した静止画データを統合するように構成されている。
【0010】
本発明では、顔画像流出の原因となるとして登録したキーワードを含むWEBサイトで動画データを取得している。インターネット全体を検索することなく、盗撮被害やリベンジポルノ被害を防止するためのWEBサイトのみを検索している。このため、インターネット上に流出したユーザの顔画像をその初期段階で迅速に検出することができると共に画像検索装置の構成が簡易となる。また、本発明では、取得した動画データから複数の静止画データを抽出し、抽出した静止画データから顔情報が含まれる画像データを取得する際に、複数の互いに異なる処理手順を用いて動画データから静止画データを抽出し、これら複数の互いに異なる処理手順によって抽出した静止画データを統合している。このように、処理手順が異なることにより最終的に得られる画像も異なってくることから、1つの手順のみによって顔画像の抽出を行った場合に比べて顔画像検出の確実性が大幅に高くなる。このため、ユーザの顔画像がインターネット上に流出したことを簡易な構成で確実に検出することができる。
【0011】
画像抽出部による複数の互いに異なる処理手順が、動画データを高速で再生し、機械学習モデルによって顔が映っていると判定された静止画データを抽出する処理と、動画データを高速で再生し、任意の一定フレーム間隔で静止画データを抽出する処理とを含んでいることが好ましい。
【0012】
画像抽出部による複数の互いに異なる処理手順が、動画データを高速で再生し、機械学習モデルによって顔が映ったと判定した場合の静止画を抽出する処理と、動画データを高速で再生し、機械学習モデルによって最も顔が映っていると判定したタイミングの顔の静止画を抽出する処理と、動画データを高速で再生し、機械学習モデルによって最も顔が映っていると判定したタイミングの顔の特徴量を抽出して顔の静止画を抽出する処理と、動画データを高速で再生し、一定フレーム間隔で動画全体の静止画を抽出し、抽出した静止画毎に機械学習モデルによって顔が映っている確率が最も高い静止画を抽出する処理とを含んでいることも好ましい。
【0013】
画像抽出部が、顔情報が含まれる画像データのコンフィデンス値を閾値と比較して顔画像が最も映っている画像データを抽出するように構成されていることも好ましい。
【0014】
この場合、画像抽出部が、顔情報が含まれる画像データを先頭から所定数毎に分割し、分割した所定数の画像データの中で最も良い画像データを選択し、選択した画像データのコンフィデンス値を閾値と比較するように構成されていることがより好ましい。
【0015】
インターネット上の性的サイトでありかつユーザが登録したキーワードを含むWEBサイトのURLを収集するURLクローラ部をさらに備えており、画像抽出部はこのURLクローラ部が収集したURLに対応するWEBサイトで動画データを取得するように構成されていることも好ましい。
【0016】
入出力及び画像比較部が、ユーザ端末から送信された顔画像データ及びキーワードを記憶するように構成されており、抽出したURLをユーザ端末に送信するように構成されていることも好ましい。
【0017】
本発明によれば、さらに、ユーザが登録した自己の顔画像を表す顔画像データ及び顔画像が流出した原因としてユーザが登録したキーワードを記憶し、インターネット上の性的サイトでありかつユーザが登録したキーワードを含むWEBサイトで取得した動画データから複数の静止画データを抽出し、抽出した静止画データから顔情報が含まれる画像データを取得する画像検索方法が提供される。取得した顔情報が含まれる画像データと、ユーザの登録した顔画像データとを比較し、高い類似度を有する顔画像データのURLを抽出し、複数の互いに異なる処理手順を用いて動画データから静止画データを抽出し、複数の互いに異なる処理手順によって抽出した静止画データを統合する。
【0018】
複数の互いに異なる処理手順が、動画データを高速で再生し、機械学習モデルによって顔が映っていると判定された静止画データを抽出する処理と、動画データを高速で再生し、任意の一定フレーム間隔で静止画データを抽出する処理とを含んでいることが好ましい。
【0019】
複数の互いに異なる処理手順が、動画データを高速で再生し、機械学習モデルによって顔が映ったと判定した場合の静止画を抽出する処理と、動画データを高速で再生し、機械学習モデルによって最も顔が映っていると判定したタイミングの顔の静止画を抽出する処理と、動画データを高速で再生し、機械学習モデルによって最も顔が映っていると判定したタイミングの顔の特徴量を抽出して顔の静止画を抽出する処理と、動画データを高速で再生し、一定フレーム間隔で動画全体の静止画を抽出し、抽出した静止画毎に機械学習モデルによって顔が映っている確率が最も高い静止画を抽出する処理とを含んでいることも好ましい。
【0020】
顔情報が含まれる画像データのコンフィデンス値を閾値と比較して顔画像が最も映っている画像データを抽出することも好ましい。
【0021】
この場合、顔情報が含まれる画像データを先頭から所定数毎に分割し、分割した所定数の画像データの中で最も精度の高い画像データを選択し、選択した画像データのコンフィデンス値を閾値と比較することがより好ましい。
【0022】
インターネット上の性的サイトでありかつユーザが登録したキーワードを含むWEBサイトのURLを収集し、収集したURLに対応するサイトで動画データを取得することも好ましい。
【0023】
ユーザ端末から送信された顔画像データ及びキーワードを記憶し、抽出したURLをユーザ端末に送信することも好ましい。
【0024】
本発明によれば、またさらに、コンピュータを、ユーザが登録した自己の顔画像を表す顔画像データ及び顔画像が流出した原因としてユーザが登録したキーワードを記憶する入出力及び画像比較手段と、インターネット上の性的サイトでありかつユーザが登録したキーワードを含むWEBサイトで取得した動画データから複数の静止画データを抽出し、抽出した静止画データから顔情報が含まれる画像データを取得する画像抽出手段として機能させるためのプログラムが提供される。入出力及び画像比較手段は、取得した顔情報が含まれる画像データと、ユーザの登録した顔画像データとを比較し、高い類似度を有する顔画像データのURLを抽出する手段であり、画像抽出手段は、複数の互いに異なる処理手順を用いて動画データから静止画データを抽出し、複数の互いに異なる処理手順によって抽出した静止画データを統合する手段である。
【0025】
本発明によれば、さらに、コンピュータを、ユーザが登録した自己の顔画像を表す顔画像データ及び顔画像が流出した原因としてユーザが登録したキーワードを記憶する入出力及び画像比較手段と、インターネット上の性的サイトでありかつユーザが登録したキーワードを含むWEBサイトで取得した動画データから複数の静止画データを抽出し、抽出した静止画データから顔情報が含まれる画像データを取得する画像抽出手段として機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体が提供される。入出力及び画像比較手段は、取得した顔情報が含まれる画像データと記憶したユーザの登録した顔画像データとを比較し、高い類似度を有する顔画像データのURLを抽出する手段であり、画像抽出手段は、複数の互いに異なる処理手順を用いて動画データから静止画データを抽出し、複数の互いに異なる処理手順によって抽出した静止画データを統合する手段である。
【発明の効果】
【0026】
本発明では、盗撮被害やリベンジポルノ被害を防止するためのWEBサイトのみが検索されるため、インターネット上に流出したユーザの顔画像をその初期段階で迅速に検出することができると共に画像検索装置の構成が簡易となる。また、処理手順が異なることにより最終的に得られる画像も異なってくることから、顔画像検出の確実性が大幅に高くなるため、ユーザの顔画像がインターネット上に流出したことを簡易な構成で確実に検出することができる。
【図面の簡単な説明】
【0027】
【
図1】本発明の一実施形態における画像検索装置の全体構成を概略的に示すブロック図である。
【
図2】
図1の画像検索装置の機能を説明する説明図である。
【
図3】
図1の画像検索装置における入出力及び画像比較部の処理動作を示すフローチャートである。
【
図4】
図1の画像検索装置における入出力及び画像比較部の処理動作を示すフローチャートである。
【
図5】
図1の画像検索装置におけるURLクローラ部の処理動作を示すフローチャートである。
【
図6】
図1の画像検索装置における静止画クローラ部の処理動作を示すフローチャートである。
【
図7】
図1の画像検索装置における動画クローラ部の処理動作を示すフローチャートである。
【
図8】
図1の画像検索装置における動画クローラ部の処理動作の一部の変更態様を示すフローチャートである。
【
図9】ユーザ端末における自己の顔画像の登録画面を表す図である。
【
図10】ユーザ端末におけるキーワードの登録画面を表す図である。
【
図11】ユーザ端末における検索結果表示画面を表す図である。
【発明を実施するための形態】
【0028】
図1は本発明の一実施形態における画像検索装置の全体構成を概略的に示しており、
図2は本実施形態の画像検索装置の機能を説明している。
【0029】
図1において、10はユーザが操作する例えばスマートフォン、タブレット端末又はコンピュータ端末等から構成され、本実施形態の画像検索アプリがインストールされているユーザ端末、11はユーザ端末10と通信が可能なクラウド上の画像検索サーバ、12は画像検索サーバ11がアクセス可能なインターネットをそれぞれ示している。
【0030】
画像検索サーバ11は、
図1に示すように、入出力及び画像比較部13と、クラウドサーバ14と、URLクローラ部15と、静止画クローラ部16と、動画クローラ部17とを少なくとも備えている。
【0031】
図2に示すように、入出力及び画像比較部13は、クラウドコンピューティングサービス(AWS)によるデータベース(AWS/RDS)13a及びストレージ(AWS/S3)13bを備えている。この入出力及び画像比較部13は、ユーザ端末10に通信接続可能であり、ユーザ端末10から送信されたユーザの顔画像データ及びこの顔画像データに紐づけてユーザが登録したキーワードを記憶するように構成されている。入出力及び画像比較部13は、さらに、クラウドコンピューティングサービスによるクラウドサーバ(Azure)14が抽出した、ユーザの顔画像と類似度の高い顔画像が存在する動画のURLをユーザに紐づけて記憶するように構成されている。
【0032】
前述したように、ユーザ端末10から送信されたユーザの顔画像データはストレージ(AWS/S3)13bに、ユーザが登録したキーワードはデータベース(AWS/RDS)13aにそれぞれ記憶されている。クラウドサーバ(Azure)14は、静止画クローラ部16又は動画クローラ部17が収集した画像を学習してFace IDを付与すると共に、これら収集した画像とユーザが登録した画像とを比較し、その類似度を求めるように構成されている。
【0033】
URLクローラ部15は、AWSによるクラウドサーバ(AWS/EC2)15a上に存在するWebクローラの1つを利用した自動巡回プログラムであるライブラリSeleniumを使用している。このURLクローラ部15は、インターネット12上の性的な動画を扱っておりかつ顔画像流出の可能性のあるあらかじめ決められた複数のWEBサイトについて、登録されたキーワードを含む動画のURLを収集するように構成されている。あらかじめ決められたWEBサイトとしては、例えば、Pornhub、FC2、Tokyo Motion、Twitter Video Tools、XVIDEOS、Twitter等が存在する。収集されたURLのリストは、URLクローラ部15内のURLリスト部15bに記憶される。
【0034】
URLリスト部15bは、AWSによるデータベース(AWS/RDS)とローカルのファイル(ローカルのプログラムファイル内のコンフィグファイル)の記憶部とによって構成されており、収集されたURLはこのRDSとローカルファイル記憶部とに記憶される。RDSに書き込む理由は、動画クローラやフェイスシミラー等の種々のシステムからURLとそれに結び付く動画像データ等の情報にアクセスする要請があるためである。
【0035】
静止画クローラ部16は、本実施形態においては、AWSによるストレージ(AWS/S3)16aと、画像サーチ部16bと、機械学習部16cとから主に構築されている。
【0036】
画像サーチ部16bは、ローカルのプログラムファイル内のコンフィグファイル内に記述されている検索エンジンを用い、入出力記憶部に記憶されている指定されたキーワードでWEBサイトを画像検索し、表示される画像をストレージ(AWS/S3)16aに記憶する。検索エンジンとしては主にGoogle、Yandex、Yahoo、Baidu等を利用している。
【0037】
機械学習部16cは、深層学習アルゴリズムを利用し、人の顔検出に特化したライブラリFaceBoxesモデルを用いて構築されている。この機械学習モデルは、膨大な顔画像から人の顔の特徴について学習し、入力された未知の画像データに含まれる顔情報の検出を可能にしている。検出された顔情報はコンフィデンスという数値を伴い、この値が、検出された領域に顔が含まれている確実性を表す。つまり、この数値が高いほど、検出された領域が顔である可能性が高いということである。なお、FaceBoxesモデルは、一般に公開されている機械学習モデルのライブラリであり、西洋人の顔画像を学習して構築されているため、後述するように、アジア人の顔画像でファインチューニングを実行したモデルを使用し、オリジナルのモデルに比して顔画像の検出精度を高めている。
【0038】
機械学習部16cは、さらに、コンフィデンス値があらかじめ定めた閾値を超える全ての画像データを、ストレージ(AWS/S3)16aに記憶するように構成されている。
【0039】
動画クローラ部17は、本実施形態においては、クラウドサーバ(AWS/EC2)15aに存在する動画クローラと、AWSによるストレージ(AWS/S3)17aと、画像抽出部17bと、前述した機械学習部16cとから主に構築されている。
【0040】
動画クローラは、ローカルのプログラムファイル内のコンフィグファイル内に記述されている検索エンジン(Google Chrome)を用いてURLリスト部15bに記憶されているURLにおける多数の動画を再生し、1つの動画データに対して、膨大な数の静止画データを取得する。そして、得られた画像群に対して、人の顔検出に特化したライブラリFaceBoxesモデルを用いて顔情報が含まれる画像のみを取得し、その中でも最もコンフィデンス値が高い(顔が最も鮮明に映っている)1枚の画像を選出するように構成されている。
【0041】
URLリスト部15bに記憶されているURLにおける多数の動画から静止画を取得する方法として、動画をダウンロードして再生する方法と、WEBサイトをクローリングして再生する方法があるが、どちらを用いても良い。画像抽出部17bは、取得した多数の動画像を再生し、多数の静止画を取得する。
【0042】
機械学習部16cは、深層学習アルゴリズムを利用し、人の顔検出に特化したライブラリFaceBoxesモデルを用いて構築されている。この機械学習モデルは、膨大な顔画像から人の顔の特徴について学習し、入力された未知の画像データに含まれる顔情報の検出を可能にする。この際に検出された顔情報はコンフィデンスという数値を伴い、この値が、検出された領域に顔が含まれている確実性を表す。つまり、この数値が高いほど、検出された領域が顔である可能性が高いということである。なお、FaceBoxesモデルは、一般に公開されている機械学習モデルのライブラリであり、西洋人の顔画像を学習して構築されているため、アジア人に対しての顔の検出精度はさほど高くない。そこで、本実施形態では、独自に収集したアジア人の顔画像を学習データとしてこのFaceBoxesモデルに再度入力してモデルの重みを調整するファインチューニングを行っている。これにより、オリジナルのモデルに比して顔画像の検出精度を高めている。
【0043】
機械学習部16cは、さらに、コンフィデンス値があらかじめ定めた閾値を超える全ての画像データをストレージ(AWS/S3)17aに記憶するように構成されている。
【0044】
図3及び
図4は入出力及び画像比較部13の処理動作を表しており、以下、これらの図を用いてこの入出力及び画像比較部13の処理動作を説明する。
【0045】
まず、最初に、ユーザが、ユーザ端末10を介して自己の顔画像を登録する。即ち、
図9に示すように、真顔のみならず笑顔や横顔を含む、できれば、複数の顔画像データを画像検索サーバ11に送信する。さらに、
図10に示すように、「誰に」、「いつ」、「どこで」、「何をした」等を示すキーワードを、ユーザ端末10を介して画像検索サーバ11に送信する。例えば、撮影者(分かる場合)として「元カレ」、「同級生」、「リスナー」、「個人撮影」等のキーワード、撮影時の身分(分かる場合)として「JD」、「女子大生」、「会社員」、「デリヘル」、「パパ活」等のキーワード、撮影場所(分かる場合)として「ホテル」、「渋谷」、「新宿」、「お店の名前」、「ライブチャット」、「ハメ撮り」、「盗撮」等のキーワード、「マッチングアプリ」、「SNS」、「Twitter」、「コスプレ」等のキーワード、ユーザの源氏名や愛称等のキーワードを画像検索サーバ11に送信する。
【0046】
図3に示すように、入出力及び画像比較部13は、ユーザ端末10から送信された複数の顔画像データ及びこの顔画像データと共に送信されたキーワードを受信する(ステップS1)。
【0047】
次いで、入出力及び画像比較部13は、受信したユーザの顔画像データをストレージ(AWS/S3)13bに記憶し、これに紐づけてユーザが登録したキーワードをデータベース(AWS/RDS)13aに記憶する(ステップS2)。
【0048】
さらに、ユーザが登録したキーワードに類似し、クロール処理により適切であると自動又は手動で判断した類似キーワードをデータベース(AWS/RDS)13aに記憶する(ステップS3)。
【0049】
一方、
図4に示すように、入出力及び画像比較部13は、ストレージ(AWS/S3)13bに記憶されているユーザの顔画像をクラウドサーバ14のAzureのシミラーに入力することにより、類似度の高い顔画像のIDを出力する。このIDに基づいて、データベース(AWS/RDS)13aを参照し、その顔画像が存在する動画のURL及び本人である確率を抽出する(ステップS11)。即ち、Azureからは、URL及び確率が出力され、データベース(AWS/RDS)からは、投稿日時が読み出されて出力される。
【0050】
次いで、入出力及び画像比較部13は、このようにして得られた、類似度の高い顔画像が存在する動画のURL、本人である確率、投稿された日時及び発見した日時をユーザ端末10に送信する(ステップS12)。ユーザ端末10は、これにより、
図11に示すような検索結果(発見日、この情報をチェックしたか否か、投稿日、URL、本人確率)を表示する。
【0051】
図5はURLクローラ部15の処理動作を表しており、以下、同図を用いてこのURLクローラ部15の処理動作を説明する。
【0052】
URLクローラ部15は、まず、アクセスする複数のWEBサイトをあらかじめ決定しておく(ステップS21)。
【0053】
次いで、決定したこれら複数のWEBサイトについて、データベース(AWS/RDS)13aに記憶されているユーザが登録したキーワード及びこれに類似するキーワードに基づいてURLクローリングし、これらキーワードを含む動画のURLを取得する(ステップS22)。
【0054】
次いで、取得したURLをURLリストとして、URLリスト部15bに記憶する(ステップS23)。
【0055】
図6は静止画クローラ部16の処理動作を表しており、以下、同図を用いてこの静止画クローラ部16の処理動作を説明する。
【0056】
静止画クローラ部16は、画像サーチ部16bにおいて、あらかじめ定めた検索エンジンを用い、データベース(AWS/RDS)13aに記憶されている指定されたキーワードで静止画を画像検索する(ステップS31)。画像の収集対象となるWEBサイトは非常に多岐にわたるため、指定されたキーワード、例えば、盗撮された画像の場合、「盗撮」というキーワードで検索する。
【0057】
次いで、検索された多数の静止画像を、ローカルのキャッシュメモリに一時的に記憶させる(ステップS32)。
【0058】
次いで、このキャッシュメモリに記憶された多数の静止画像について、顔検出に関するディープラーニングによる機械学習アルゴリズム(例えばFaceBoxesモデル)を適用し、顔が含まれている静止画像と顔が含まれている確率を表すコンフィデンス値とを抽出する(ステップS33)。
【0059】
次いで、抽出したコンフィデンス値が閾値を超える静止画像(画像データ)について、ストレージ(AWS/S3)16aに記憶させて、リスト登録処理を行う(ステップS34)。
【0060】
一方、ステップS31~34の処理とは非同期に、ユーザが自己の顔画像データ及びキーワードを登録した際に、AzureのFind Similarが呼び出され、画像をこのAzureのFind Similarモデルに学習させると共に、その画像元のURL、投稿日時、キーワード、Azureに学習させた画像のIDなどをデータベース(AWS/RDS)13aに記録し、画像データをストレージ(AWS/S3)13bにアップロードして記憶させる(ステップS35)。
【0061】
図7は動画クローラ部17の処理動作を表しており、以下、同図を用いてこの動画クローラ部17の処理動作を説明する。
【0062】
動画クローラ部17は、まず、URLリスト部15bに記憶されているURLにおいて、あらかじめ定めた画像検索エンジン(Google Chrome)を用い、指定されたキーワードで多数の動画像を取得する(ステップS41)。
【0063】
次いで、取得した多数の動画像を高速で再生し、機械学習モデルが判定した顔が映っている静止画を取得する(ステップS42)。
【0064】
一方、取得した多数の動画像を高速で再生し、任意の一定フレーム間隔で静止画を取得する(ステップS43)。
【0065】
次いで、ステップS42の処理手順(ステップS43とは異なる処理手順)で抽出した多数の静止画と、ステップS43の処理手順(ステップS42とは異なる処理手順)で抽出した多数の静止画とを統合し、ローカルのキャッシュメモリに一時的に記憶させる(ステップS44)。このように、本実施形態では、2つの互いに異なる処理手順を使用して動画像から静止画をそれぞれ抽出し、これら2つの処理手順によって抽出した静止画を統合することによって、静止画の抽出を行っている。処理手順が異なることにより最終的に得られる画像も異なってくることから、1つの手順のみによって顔画像の抽出を行った場合に比べて顔画像検出の確実性が非常に高くなる。
【0066】
多数の画像データはストレージに直接記録するには大容量すぎるため、ステップS42及びS43においては、顔が写っているとは限らない画像群から顔が写っているもののみを選択し、さらにその中で最もコンフィデンス値の高いものを最終的に残す。ステップS44においても、ほぼ同様で顔が写っている画像群から最も顔がよく写っている(コンフィデンス値の高い)画像を最終的に残す。これは最終的にストレージにアップロードするが、正しくはURLクローラに記載される全ての動画に対して、各コンフィデンス値の最も高い画像を取得し終えてから、リスト登録処理を通してAzureで学習させ、ストレージ(AWS/S3)17aに記憶させる。
【0067】
コンフィデンス値の最も高い画像を取得する場合に、全ての画像について評価するのではなく、動画から得られた複数の画像群を先頭から所定数毎(例えば100枚毎)に分割して、その中で最も精度の高い画像を選択することが望ましい。そして、各画像群から得られた複数の顔画像に対して、さらに、その中で最もコンフィデンスの高いものを最終的に選出する。このように、全ての画像から最も精度の高い画像を選択するのではなく、画像群に分割し各分割単位について評価する理由は、閾値を超えた場合に処理を途中で切り上げられるので、全体としては効率的に処理を行えるためである。例えば1000枚の画像から精度の最も高いものを選出する場合、単純に行えば1000枚の画像データを評価する必要があるが、100枚毎に10分割した場合、例えば10枚目で閾値を超えれば10×10=100枚の画像評価で済むこととなる。
【0068】
ステップS44の処理の後、キャッシュメモリに記憶された多数の静止画像について、顔検出に関するディープラーニングによる機械学習アルゴリズム(例えばライブラリのFaceBoxesモデル)を適用し、顔が含まれている静止画像と顔が含まれている確率を表すコンフィデンス値とを抽出する(ステップS45)。
【0069】
次いで、コンフィデンス値が閾値を超える静止画像(画像データ)についてストレージ(AWS/S3)17aに記憶する(ステップS46)。
【0070】
一方、ステップS41~46の処理とは非同期に、ユーザが自己の顔画像データ及びキーワードを登録した際に、AzureのFind Similarが呼び出され、画像をこのAzureのFind Similarモデルに学習させると共に、その画像元のURL、投稿日時、キーワード、Azureに学習させた画像のIDなどをデータベース(AWS/RDS)13aに記録し、画像データをストレージ(AWS/S3)13bにアップロードして記憶させる(ステップS47)。
【0071】
図8は動画クローラ部17の一部の処理動作を変更した変更態様の処理動作を表している。
【0072】
この変更態様においては、
図7のステップS42における処理動作に代えて、
図8のステップS42aに示すように、取得した多数の動画像を高速で再生し、機械学習モデルを利用して、顔が映ったと判定した場合の静止画を抽出する処理、
図8のステップS42bに示すように、取得した多数の動画像を高速で再生し、機械学習モデルを利用して、最も顔が映っていると判定したタイミングの顔の静止画を抽出する処理、及び
図8のステップS42cに示すように、取得した多数の動画像を高速で再生し、機械学習モデルを利用して、最も顔が映っていると判定したタイミングの顔の特徴量を抽出し、顔の静止画を抽出する処理を並行して行う。
【0073】
また、
図7のステップS43における処理動作に代えて、
図8のステップS43aに示すように、取得した多数の動画像を高速で再生し、一定フレーム間隔で動画全体の静止画を抽出し、抽出した静止画毎に機械学習モデルを利用して、顔が映っている確率が最も高い静止画を抽出する処理を行う。
【0074】
その後、ステップS42a~42cの処理手順(他のステップとは異なる処理手順)で抽出した多数の静止画と、ステップS43aの処理手順(他のステップとは異なる処理手順)で抽出した多数の静止画とを統合してローカルのキャッシュメモリに一時的に記憶させる。このように、本変更態様では、4つの互いに異なる処理手順を使用して動画像から静止画をそれぞれ抽出し、これら4つの処理手順によって抽出した静止画を統合することによって、静止画の抽出を行っている。処理手順が異なることにより最終的に得られる画像も異なってくることから、1つの手順のみによって顔画像の抽出を行った場合に比べて確実性が大幅に高くなる。
【0075】
以上説明したように、本実施形態では、動画クローラ部17の動画クローラによって、URLリスト部15bに記憶されているURLに対応するWEBサイト、即ち、顔画像流出の原因となるとして登録したキーワードを含むWEBサイト、で動画データを取得している。即ち、インターネット全体を検索していない。このため、インターネット上に流出したユーザの顔画像をその初期段階で迅速に検出することができると共に画像検索装置の構成が簡易となる。また、本実施形態では、取得した動画データから複数の静止画データを抽出し、抽出した静止画データから顔情報が含まれる画像データを取得する際に、複数の互いに異なる処理手順を用いて動画データから静止画データを抽出し、これら複数の互いに異なる処理手順によって抽出した静止画データを統合している。このように、処理手順が異なることにより最終的に得られる画像も異なってくることから、1つの手順のみによって顔画像の抽出を行った場合に比べて顔画像検出の確実性が大幅に高くなる。このため、ユーザの顔画像がインターネット上に流出したことを簡易な構成で確実に検出することができる。
【0076】
上述した実施形態及び変更態様においては、クラウドコンピューティングサービスによるサーバ、ストレージ及びデータベースを使用して本発明の画像検索装置を構築しているが、本発明は、クラウドコンピューティングサービスを用いることなく、ローカルのサーバ、ストレージ及びデータベースを組み上げて構築した専用の画像検索装置を用いて実現しても良い。
【0077】
以上述べた実施形態は全て本発明を例示的に示すものであって限定的に示すものではなく、本発明は他の種々の変形態様及び変更態様で実施することができる。従って本発明の範囲は特許請求の範囲及びその均等範囲によってのみ規定されるものである。
【符号の説明】
【0078】
10 ユーザ端末
11 画像検索サーバ
12 インターネット
13 入出力及び画像比較部
13a データベース(AWS/RDS)
13b、16a、17a ストレージ(AWS/S3)
14 クラウドサーバ
15 URLクローラ部
15a クラウドサーバ(AWS/EC2)
15b URLリスト部
16 静止画クローラ部
16b 画像サーチ部
16c 機械学習部
17 動画クローラ部
17b 画像抽出部