(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2023-10-12
(45)【発行日】2023-10-20
(54)【発明の名称】情報処理方法、コンピュータプログラム及び情報処理装置
(51)【国際特許分類】
G06F 16/53 20190101AFI20231013BHJP
【FI】
G06F16/53
(21)【出願番号】P 2022116617
(22)【出願日】2022-07-21
【審査請求日】2023-04-14
【早期審査対象出願】
(73)【特許権者】
【識別番号】517255566
【氏名又は名称】株式会社エクサウィザーズ
(74)【代理人】
【識別番号】100114557
【氏名又は名称】河野 英仁
(74)【代理人】
【識別番号】100078868
【氏名又は名称】河野 登夫
(72)【発明者】
【氏名】小島 啓明
(72)【発明者】
【氏名】稲葉 正樹
(72)【発明者】
【氏名】佐々木 励
【審査官】甲斐 哲雄
(56)【参考文献】
【文献】特表2020-522791(JP,A)
【文献】特表2022-509327(JP,A)
【文献】特開2022-180941(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
情報処理装置が、
画像及び当該画像に対応するテキストが対応付けられた正例の組を複数取得し、
画像及びテキストの入力を受け付けて前記画像及び前記テキストの類似度を出力するよう機械学習がなされた学習モデルへ、取得した正例の組の各組の画像及びテキストを入力して前記学習モデルが出力する前記画像及び前記テキストの類似度を取得することで、複数の前記正例の組の類似度をそれぞれ取得し、
取得した類似度の分布に基づいて閾値を決定し、
処理対象となる複数の画像を取得し、
前記複数の画像からの画像の抽出条件となるテキストを取得し、
取得した画像及びテキストを
前記学習モデルへ入力して前記学習モデルが出力する前記画像及び前記テキストの類似度を取得することで、前記複数の画像と前記テキストとの各組の類似度を取得し、
取得した各組の類似度と
、決定した前記閾値とを比較し、
前記複数の画像から、前記類似度が前記閾値を超える画像を抽出して出力する、
情報処理方法。
【請求項2】
情報処理装置が、
処理対象となる複数の画像を取得し、
前記複数の画像からの画像の抽出条件となるテキストを取得し、
画像及びテキストの入力を受け付けて前記画像及び前記テキストの類似度を出力するよう機械学習がなされた学習モデルへ、取得した画像及びテキストを入力して前記学習モデルが出力する前記画像及び前記テキストの類似度を取得することで、前記複数の画像と前記テキストとの各組の類似度を取得し、
取得した各組の類似度の分布を表示部に表示し、
前記分布に基づいて閾値の設定を受け付け、
取得した各組の類似度と、受け付けた前記閾値とを比較し、
前記複数の画像から、前記類似度が前記閾値を超える画像を抽出して出力する、
情報処理方法。
【請求項3】
前記情報処理装置が、
前記画像及び当該画像に対応するテキストが対応付けられた正例の組と、前記画像及び当該画像に対応しないテキストとが対応付けられた負例の組とをそれぞれ複数取得し、
取得した正例の組及び負例の組の各組ついて前記学習モデルによる類似度をそれぞれ取得し、
取得した類似度に基づいて、前記学習モデルの適合度又は再現度を算出し、
算出した前記適合度又は前記再現度に基づいて前記閾値を決定する、
請求項1
又は請求項2に記載の情報処理方法。
【請求項4】
前記情報処理装置が、
取得した各組の類似度の分布に基づいて前記閾値を決定する、
請求項1
又は請求項2に記載の情報処理方法。
【請求項5】
前記情報処理装置が、
取得した各組の類似度に基づいて前記複数の画像を順位付けし、
所定の順位の画像を抽出するよう前記閾値を決定する、
請求項4に記載の情報処理方法。
【請求項6】
前記情報処理装置が、
前記類似度の分布に関するパラメータを算出し、
前記類似度の分布が所定分布であるとみなし、算出した前記パラメータに応じて前記閾値を決定する、
請求項4に記載の情報処理方法。
【請求項7】
前記学習モデルは、
入力された画像の特徴量を出力する画像エンコーダと、
入力されたテキストの特徴量を出力するテキストエンコーダと、
前記画像エンコーダが出力した特徴量及び前記テキストエンコーダが出力した特徴量を基に類似度を算出する算出部と
を有する、
請求項1
又は請求項2に記載の情報処理方法。
【請求項8】
前記学習モデルは、大規模汎用画像モデルである、
請求項1
又は請求項2に記載の情報処理方法。
【請求項9】
コンピュータに、
画像及び当該画像に対応するテキストが対応付けられた正例の組を複数取得し、
画像及びテキストの入力を受け付けて前記画像及び前記テキストの類似度を出力するよう機械学習がなされた学習モデルへ、取得した正例の組の各組の画像及びテキストを入力して前記学習モデルが出力する前記画像及び前記テキストの類似度を取得することで、複数の前記正例の組の類似度をそれぞれ取得し、
取得した類似度の分布に基づいて閾値を決定し、
処理対象となる複数の画像を取得し、
前記複数の画像からの画像の抽出条件となるテキストを取得し、
取得した画像及びテキストを
前記学習モデルへ入力して前記学習モデルが出力する前記画像及び前記テキストの類似度を取得することで、前記複数の画像と前記テキストとの各組の類似度を取得し、
取得した各組の類似度と
、決定した前記閾値とを比較し、
前記複数の画像から、前記類似度が前記閾値を超える画像を抽出して出力する
処理を実行させる、コンピュータプログラム。
【請求項10】
コンピュータに、
処理対象となる複数の画像を取得し、
前記複数の画像からの画像の抽出条件となるテキストを取得し、
画像及びテキストの入力を受け付けて前記画像及び前記テキストの類似度を出力するよう機械学習がなされた学習モデルへ、取得した画像及びテキストを入力して前記学習モデルが出力する前記画像及び前記テキストの類似度を取得することで、前記複数の画像と前記テキストとの各組の類似度を取得し、
取得した各組の類似度の分布を表示部に表示し、
前記分布に基づいて閾値の設定を受け付け、
取得した各組の類似度と、受け付けた前記閾値とを比較し、
前記複数の画像から、前記類似度が前記閾値を超える画像を抽出して出力する
処理を実行させる、コンピュータプログラム。
【請求項11】
画像及び当該画像に対応するテキストが対応付けられた正例の組を複数取得する正例取得部と、
画像及びテキストの入力を受け付けて前記画像及び前記テキストの類似度を出力するよう機械学習がなされた学習モデルへ、取得した正例の組の各組の画像及びテキストを入力して前記学習モデルが出力する前記画像及び前記テキストの類似度を取得することで、複数の前記正例の組の類似度をそれぞれ取得する第1類似度取得部と、
取得した類似度の分布に基づいて閾値を決定する閾値決定部と、
処理対象となる複数の画像を取得する画像取得部と、
前記複数の画像からの画像の抽出条件となるテキストを取得するテキスト取得部と、
取得した画像及びテキストを
前記学習モデルへ入力して前記学習モデルが出力する前記画像及び前記テキストの類似度を取得することで、前記複数の画像と前記テキストとの各組の類似度を取得する
第2類似度取得部と、
取得した各組の類似度と所定の閾値とを比較する比較部と、
前記複数の画像から、前記類似度が前記閾値を超える画像を抽出して出力する出力部と
を備える、情報処理装置。
【請求項12】
処理対象となる複数の画像を取得する画像取得部と、
前記複数の画像からの画像の抽出条件となるテキストを取得するテキスト取得部と、
画像及びテキストの入力を受け付けて前記画像及び前記テキストの類似度を出力するよう機械学習がなされた学習モデルへ、取得した画像及びテキストを入力して前記学習モデルが出力する前記画像及び前記テキストの類似度を取得することで、前記複数の画像と前記テキストとの各組の類似度を取得する類似度取得部と、
取得した各組の類似度の分布を表示部に表示する表示処理部と、
前記分布に基づいて閾値の設定を受け付ける受付部と、
取得した各組の類似度と、受け付けた前記閾値とを比較する比較部と、
前記複数の画像から、前記類似度が前記閾値を超える画像を抽出して出力する出力部と
を備える、情報処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数の画像から所望の画像を抽出する処理を行う情報処理方法、コンピュータプログラム及び情報処理装置に関する。
【背景技術】
【0002】
特許文献1においては、画像群の中から、画像に付与されたタグ情報を使用して画像を検索する画像処理装置が提案されている。この画像処理装置は、画像群に含まれる全ての画像に付与された全てのタグ情報の少なくとも一部を表示部に表示し、表示したタグ情報の中からユーザの指示に応じて選択された1つ目のタグ情報を第1選択タグ情報として指定し、画像群の中から第1選択タグ情報が付与された画像を第1検索画像として抽出する。画像処理装置は、全ての第1検索画像の少なくとも一部を表示部に表示し、全ての第1検索画像に付与された全てのタグ情報の少なくとも一部を表示部に表示する。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1に記載の技術では、画像群の中の全ての画像に対してタグ情報が付与されていることを前提として、画像の検索及び抽出等の処理が行われている。このため特許文献1に記載の画像処理装置は、タグ情報が付与されていない画像を検索及び抽出等の対象とすることはできない。また特許文献1に記載の画像処理装置は、タグ情報としていずれの画像にも付与されていない単語又は文言等をキーワードとして画像の検索及び抽出等を行うことはできない。
【0005】
本発明は、斯かる事情に鑑みてなされたものであって、その目的とするところは、テキストに基づく画像の検索及び抽出等を実現することが期待できる情報処理方法、コンピュータプログラム及び情報処理装置を提供することにある。
【課題を解決するための手段】
【0006】
一実施形態に係る情報処理方法は、情報処理装置が、画像及び当該画像に対応するテキストが対応付けられた正例の組を複数取得し、画像及びテキストの入力を受け付けて前記画像及び前記テキストの類似度を出力するよう機械学習がなされた学習モデルへ、取得した正例の組の各組の画像及びテキストを入力して前記学習モデルが出力する前記画像及び前記テキストの類似度を取得することで、複数の前記正例の組の類似度をそれぞれ取得し、取得した類似度の分布に基づいて閾値を決定し、処理対象となる複数の画像を取得し、前記複数の画像からの画像の抽出条件となるテキストを取得し、取得した画像及びテキストを前記学習モデルへ入力して前記学習モデルが出力する前記画像及び前記テキストの類似度を取得することで、前記複数の画像と前記テキストとの各組の類似度を取得し、取得した各組の類似度と、決定した前記閾値とを比較し、前記複数の画像から、前記類似度が前記閾値を超える画像を抽出して出力する。
また一実施形態に係る情報処理方法は、情報処理装置が、処理対象となる複数の画像を取得し、前記複数の画像からの画像の抽出条件となるテキストを取得し、画像及びテキストの入力を受け付けて前記画像及び前記テキストの類似度を出力するよう機械学習がなされた学習モデルへ、取得した画像及びテキストを入力して前記学習モデルが出力する前記画像及び前記テキストの類似度を取得することで、前記複数の画像と前記テキストとの各組の類似度を取得し、取得した各組の類似度の分布を表示部に表示し、前記分布に基づいて閾値の設定を受け付け、取得した各組の類似度と、受け付けた前記閾値とを比較し、前記複数の画像から、前記類似度が前記閾値を超える画像を抽出して出力する。
【発明の効果】
【0007】
一実施形態による場合は、テキストに基づく画像の検索及び抽出等を実現することが期待できる。
【図面の簡単な説明】
【0008】
【
図1】本実施の形態に係る情報処理システムの概要を説明するための模式図である。
【
図2】本実施の形態に係るサーバ装置の構成を示すブロック図である。
【
図3】本実施の形態に係る情報処理システムが使用する学習モデルの一構成例を示す模式図である。
【
図4】学習モデルの学習方法の概要を説明するための模式図である。
【
図5】本実施の形態に係るサーバ装置が行う画像抽出処理の手順を示すフローチャートである。
【
図6】適合度に基づく閾値の決定方法を説明するための模式図である。
【
図7】再現度に基づく閾値の決定方法を説明するための模式図である。
【
図8】代表値に基づく閾値の決定方法を説明するための模式図である。
【
図9】分布に基づく閾値の決定を説明するための模式図である。
【
図10】ユーザによる閾値の決定方法を説明するための模式図である。
【発明を実施するための形態】
【0009】
本発明の実施形態に係る情報処理システムの具体例を、以下に図面を参照しつつ説明する。なお、本発明はこれらの例示に限定されるものではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。
【0010】
<システム概要>
図1は、本実施の形態に係る情報処理システムの概要を説明するための模式図である。本実施の形態に係る情報処理システムは、一又は複数のカメラ3が撮影した画像を、サーバ装置1が取得して画像DB(データベース)5に記憶して蓄積するシステムである。ユーザは例えば端末装置7を利用してサーバ装置1にアクセスし、画像DB5に蓄積された画像の閲覧及び取得(ダウンロード)等を行うことができる。この際に本実施の形態に係る情報処理システムでは、ユーザがキーワード等のテキストを入力することで、このテキストに応じた画像の検索又は抽出等を行うことが可能である。
【0011】
カメラ3は、例えば所定の施設に設置されたカメラ、自動車等の移動体に搭載されたカメラ、又は、ユーザが所持するカメラ等の種々のカメラであってよい。ユーザが所持するカメラには、例えばスマートフォン又はタブレット型端末装置等の情報処理装置に搭載されたカメラが含まれ得る。本実施の形態に置いてカメラ3は、例えばインターネット又は携帯電話通信網等のネットワークを介してサーバ装置1との通信を行うことが可能であり、撮影した画像をサーバ装置1へ送信する。カメラ3は、例えば撮影を行う毎に画像をサーバ装置1へ送信してもよく、例えば1時間に1回又は1日に1回等の周期で撮影した画像をまとめてサーバ装置1へ送信してもよく、また例えばユーザによるアップロードの操作に応じてユーザが選択した画像をサーバ装置1へ送信してもよく、これら以外の適宜のタイミングで画像をサーバ装置1へ送信してよい。またカメラ3が通信機能を備えていなくてもよく、この場合には例えばメモリカード等の記録媒体又は通信機能を有するスマートフォン等の端末装置等を介して、サーバ装置1との間で画像の授受が行われてもよい。
【0012】
なお画像DB5が記憶する画像には、静止画像のみでなく、動画像が含まれ得る。サーバ装置1は、画像DB5に記憶された動画像から静止画像を抽出して後続の処理に用いてもよく、カメラ3が撮影した動画像から静止画像を抽出して画像DB5に記憶してもよい。また画像DB5が記憶する画像は、カメラ3が撮影した画像に限らず、例えばユーザがインターネット等を介してダウンロードした画像、ユーザが描いた画像、又は、ゲーム等の画面をキャプチャして取得した画像等の種々の画像が含まれてよい。
【0013】
端末装置7は、例えばパーソナルコンピュータ、スマートフォン又はタブレット型端末装置等の汎用の情報処理装置が用いられ得る。汎用の情報処理装置に本実施の形態に係る情報処理システムが提供するアプリケーションプログラムをインストールするか、又は、汎用のインターネットブラウザのプログラムを利用してサーバ装置1にアクセスすることによって、ユーザは端末装置7を用いて本実施の形態に係る情報処理システムが提供する画像配信のサービスを利用することができる。端末装置7は、インターネット等のネットワークを介してサーバ装置1との通信を行うことができる。端末装置7は、例えばユーザからテキストの入力を受け付けてサーバ装置1へ送信し、これに応じてサーバ装置1が送信する一又は複数の画像を受信し、受信した画像を表示部に表示する。
【0014】
サーバ装置1は、例えば本実施の形態に係る情報処理システムを提供する企業等が管理及び運営する装置である。サーバ装置1は、例えばクラウドサーバ等の仮想的なサーバ装置であってもよい。本実施の形態に係るサーバ装置1は、画像を記憶して蓄積するための画像DB5を備えている。サーバ装置1は、インターネット等のネットワークを介した通信を行い、一又は複数のカメラ3が撮影した画像を取得して画像DB5に記憶する。またサーバ装置1は、端末装置7からの要求に応じて又は所定のタイミングで、画像DB5から一又は複数の画像を読み出して端末装置7へ送信する。本実施の形態に係るサーバ装置1は、端末装置7がユーザから受け付けたテキストの情報を取得し、画像DB5に記憶された複数の画像の中からこのテキストに応じた画像を抽出し、抽出した一又は複数の画像を端末装置7へ送信する。
【0015】
<装置構成>
図2は、本実施の形態に係るサーバ装置1の構成を示すブロック図である。本実施の形態に係るサーバ装置1は、処理部11、記憶部(ストレージ)12及び通信部(トランシーバ)13等を備えて構成されている。なお本実施の形態においては、1つのサーバ装置1にて処理が行われるものとして説明を行うが、複数のサーバ装置が分散して処理を行ってもよい。
【0016】
処理部11は、CPU(Central Processing Unit)、MPU(Micro-Processing Unit)、GPU(Graphics Processing Unit)又は量子プロセッサ等の演算処理装置、ROM(Read Only Memory)及びRAM(Random Access Memory)等を用いて構成されている。処理部11は、記憶部12に記憶されたプログラム12aを読み出して実行することにより、カメラ3から画像を取得して画像DB5に記憶する処理、及び、画像DB5に記憶した画像の中からテキストに応じた画像を抽出して端末装置7へ送信する処理等の種々の処理を行う。
【0017】
記憶部12は、例えばハードディスク又はSSD(Solid State Drive)等の大容量の記憶装置を用いて構成されている。記憶部12は、処理部11が実行する各種のプログラム、及び、処理部11の処理に必要な各種のデータを記憶する。本実施の形態において記憶部12は、処理部11が実行するプログラム12aを記憶する。また記憶部12には、テキストに応じた画像を抽出する処理に用いられる学習済の学習モデルに関する情報を記憶する学習モデル記憶部12b、及び、カメラ3が撮影した画像を記憶する画像DB5が設けられている。
【0018】
本実施の形態においてプログラム(コンピュータプログラム、プログラム製品)12aは、メモリカード又は光ディスク等の記録媒体99に記録された態様で提供され、サーバ装置1は記録媒体99からプログラム12aを読み出して記憶部12に記憶する。ただし、プログラム12aは、例えばサーバ装置1の製造段階において記憶部12に書き込まれてもよい。また例えばプログラム12aは、遠隔の他のサーバ装置等が配信するものをサーバ装置1が通信にて取得してもよい。例えばプログラム12aは、記録媒体99に記録されたものを書込装置が読み出してサーバ装置1の記憶部12に書き込んでもよい。プログラム12aは、ネットワークを介した配信の態様で提供されてもよく、記録媒体99に記録された態様で提供されてもよい。
【0019】
学習モデル記憶部12bは、テキストに応じた画像の抽出処理に用いられる学習済みの学習モデルに関する情報を記憶する。学習モデルに関する情報には、例えば学習モデルがどのような構成であるかを示す構成情報、及び、機械学習の処理により決定された学習モデルの内部パラメータの値等の情報が含まれ得る。本実施の形態においてサーバ装置1は、学習モデルを生成する機械学習の処理を行わず、他の装置が生成した学習済みの学習モデルを取得し、取得した学習モデルを学習モデル記憶部12bに記憶して使用する。ただし、サーバ装置1が機械学習の処理を行って学習モデルを生成してもよい。
【0020】
本実施の形態に係るサーバ装置1が用いる学習モデルは、画像及びテキストの入力を受け付けて、画像及びテキストの類似度を出力するように予め機械学習がなされた学習モデルである。本実施の形態に係る学習モデルには、例えば大規模汎用画像モデルであるCLIP(Contrastive Language-Image Pre-training)の学習モデルが採用され得る。なお本実施の形態においては、学習モデルとしてCLIPを採用するが、学習モデルはCLIPに限るものではなく、画像及びテキストの類似度を出力する構成の学習モデルであれば、どのような学習モデルが採用されてもよく、例えば大規模汎用画像モデルが採用され得る。なお大規模汎用画像モデルは、基盤モデル(様々なタスクに利活用できるように、大量のデータで学習させた高性能な事前訓練モデル)と呼ばれるもののうち、特に画像と言語で訓練したモデルである。大規模汎用画像モデルは、タスク固有の訓練データなしに、汎用的な画像認識が可能である。大規模汎用画像モデルには、例えばSLIP(Self-supervision meets Language-Image Pre-training)、DeCLIP(Data efficient Contrastive Language-Image Pre-training)、FILIP(Fine-grained Interactive Language-Image Pre-Training)及びCoCa(Contrastive Captioner)等がある。
【0021】
画像DB5は、サーバ装置1が一又は複数のカメラ3から取得した複数の画像を記憶して蓄積するデータベースである。画像DB5は、プログラム12a及び学習モデル記憶部12b等が設けられる記憶部12とは別の記憶部(記憶装置)に設けられていてもよい。画像DB5は、例えばカメラ3が撮影した画像と共に、この画像を撮影したカメラ3のID等の識別情報及びこの画像が撮影された日時等の情報を対応付けて記憶する。本実施の形態においては、カメラ3が撮影した画像に対してタイトル等のテキスト情報の付与、いわゆるタグ付けが行われることなく、画像DB5に画像が記憶されてよい。ただし、一部又は全部の画像について、タグ付けが行われて画像DB5に記憶されてもよい。
【0022】
通信部13は、例えばインターネット、LAN(Local Area Network)又は携帯電話通信網等を含むネットワークNを介して、種々の装置との間で通信を行う。本実施の形態において通信部13は、ネットワークNを介して、カメラ3及び端末装置7との間で通信を行う。通信部13は、処理部11から与えられたデータを他の装置へ送信すると共に、他の装置から受信したデータを処理部11へ与える。
【0023】
なお記憶部12は、サーバ装置1に接続された外部記憶装置であってよい。またサーバ装置1は、複数のコンピュータを含んで構成されるマルチコンピュータであってよく、ソフトウェアによって仮想的に構築された仮想マシンであってもよい。またサーバ装置1は、上記の構成に限定されず、例えば可搬型の記憶媒体に記憶された情報を読み取る読取部、操作入力を受け付ける入力部、又は、画像を表示する表示部等を含んでもよい。
【0024】
また本実施の形態に係るサーバ装置1では、記憶部12に記憶されたプログラム12aを処理部11が読み出して実行することにより、画像取得部11a、テキスト取得部11b、類似度算出部11c、閾値決定部11d及び画像抽出部11e等が、ソフトウェア的な機能部として処理部11に実現される。なお本図においては、処理部11の機能部として、カメラ3が撮影した画像を扱う処理に関連する機能部を図示し、これ以外の処理に関する機能部は図示を省略している。
【0025】
画像取得部11aは、通信部13にてカメラ3との通信を行うことによって、カメラ3が撮影した画像を取得する処理を行う。例えば画像取得部11aは、カメラ3から画像が送信されるのを待機し、カメラ3から送信された画像をその都度受信することで、画像を受動的に取得してもよい。また例えば画像取得部11aは、1時間に1回又は1日に1回等の所定の周期でカメラ3に画像の送信を要求し、この要求に応じてカメラ3が送信する画像を受信することで、画像を能動的に取得してもよい。画像取得部11aは、カメラ3から取得した画像を、例えばカメラ3の識別情報及び撮影日時等の情報と共に画像DB5に記憶する。
【0026】
テキスト取得部11bは、通信部13にて端末装置7との通信を行うことによって、ユーザが端末装置7に入力したキーワード等のテキストの情報を取得する処理を行う。テキスト取得部11bは、例えば端末装置7から画像の送信要求と共に与えられるテキストを通信部13にて受信することによって、テキストを取得する。テキスト取得部11bは、取得したテキストを記憶部12に一時的に記憶する。
【0027】
類似度算出部11cは、画像DB5に記憶された各画像とテキスト取得部11bが取得したテキストとの類似度を算出する処理を行う。本実施の形態に置いて類似度算出部11cは、学習モデル記憶部12bに記憶された学習済の学習モデルを用いて、画像及びテキストの類似度を算出する。本実施形態に係る学習モデルは、画像及びテキストの入力を受け付けて、この画像及びテキストの類似度を出力するように予め機械学習がなされた学習モデルである。類似度算出部11cは、画像DB5に記憶された画像とテキスト取得部11bが取得したテキストとを学習モデルへ入力し、学習モデルが出力する類似度を取得することで、画像及びテキストの類似度を算出する。
【0028】
本実施の形態において類似度算出部11cは、画像DB5に記憶された複数の画像のうち、処理対象となる画像の全てについて、画像及びテキストの類似度を算出する。例えばユーザが撮影日時又は撮影場所等の条件を設定した場合には、画像DB5に記憶された全画像のうち設定された条件に合致する画像が、処理対象の画像となる。例えばユーザがこれらの条件を設定しない場合、画像DB5に記憶された全ての画像が処理対象の画像となり得る。類似度算出部11cは、例えば処理対象の画像がN個である場合、1つのテキストと各画像との類似度として、N個の類似度を算出する。
【0029】
閾値決定部11dは、類似度算出部11cが算出した類似度と比較する閾値、即ち画像及びテキストが類似しているか否かを判定するための閾値を決定する処理を行う。例えば、画像及びテキストの類似度が閾値を超える場合に、この画像及びテキストが類似していると判定される。閾値決定部11dによる閾値の決定方法の詳細は、後述する。
【0030】
画像抽出部11eは、画像DB5に記憶された複数の画像の中から、テキスト取得部11bが取得したテキストに類似する画像を抽出する処理を行う。画像抽出部11eは、類似度算出部11cが算出した類似度及び閾値決定部11dが決定した閾値を比較し、類似度が閾値を超える画像及びテキストの組を特定する。画像抽出部11eは、特定した組の画像を画像DB5から読み出すことにより、テキストに類似する画像を抽出する。画像抽出部11eは、抽出した一又は複数の画像をテキストの送信元の端末装置7へ送信し、送信した一又は複数の画像を検索結果又は抽出結果として端末装置7の表示部に表示させる。
【0031】
<学習モデル>
図3は、本実施の形態に係る情報処理システムが使用する学習モデル20の一構成例を示す模式図である。本実施の形態に係る学習モデル20は、画像及びテキストの入力を受け付けて、この画像及びテキストの類似度を出力する学習モデルである。学習モデル20には、例えばCLIPの学習モデルが採用され得る。学習モデル20は、テキストエンコーダ21及び画像エンコーダ22を有しており、入力されたテキストをテキストエンコーダ21へ入力し、入力された画像を画像エンコーダ22へ入力する。
【0032】
テキストエンコーダ21は、入力されたテキストを所定次元の特徴量のベクトルに変換して出力する。同様に、画像エンコーダ22は、入力された画像を所定次元の特徴量のベクトルに変換して出力する。テキストエンコーダ21は、例えばTransformer又はRNN(Recurrent Neural Network)等の構成が採用され得る。画像エンコーダ22は、例えばVision Transformer又はCNN(Convolutional Neural Network)等の構成が採用され得る。学習モデル20は、テキストエンコーダ21が出力する特徴量のベクトルと、画像エンコーダ22が出力する特徴量のベクトルとに基づいて、類似度を算出して出力する。例えば学習モデル20は、2つの特徴量のベクトルの内積を算出し、算出した内積の値を類似度として出力する。
【0033】
図4は、学習モデル20の学習方法の概要を説明するための模式図である。学習モデル20の機械学習を行うために、画像に対してテキストが対応付けられた複数の学習用のデータの収集がなされる。このデータは、例えば犬の画像に対して「犬」のテキストを対応付けた一組のデータである。
図4に示す例では、N個(N組)の学習用データが機械学習に用いられており、画像1及びテキスト1が対応する組であり、画像2及びテキスト2が対応する組であり、…、画像N及びテキストNが対応する組である。これらN組の学習用データに含まれるN個の画像を画像エンコーダ22へ入力することで、N個の画像に対するN個の特徴量が得られる。
図4においては画像1の特徴量をG1、画像2の特徴量をG2、…、画像Nの特徴量をGNと記載している。同様にして、N組の学習用データに含まれるN個のテキストをテキストエンコーダ21へ入力することで、N個のテキストに対するN個の特徴量が得られる。
図4においてはテキスト1の特徴量をT1、テキスト2の特徴量をT2、…、テキストNの特徴量をTNと記載している。
【0034】
画像エンコーダ22が出力する特徴量のベクトルと、テキストエンコーダ21が出力する特徴量のベクトルとの内積を算出することで、画像及びテキストの類似度が算出できる。N個の画像1~Nを基に得られるN個の特徴量G1~GNと、N個のテキスト1~Nを基に得られるN個の特徴量T1~TNとの組み合わせから、N×N個の類似度を算出することができる。
図4においては、画像1及びテキスト1の類似度をG1・T1、画像1及びテキスト2の類似度をG1・T2、…、画像N及びテキストNの類似度をGN・TNと記載している。例えば画像1及びテキスト1の組み合わせは、本来の正しい組み合わせ(正例)であり、類似度が高いことが期待される。これに対して、画像1及びテキスト2の組み合わせは、本来とは異なる誤った組み合わせ(負例)であり、類似度が低いことが期待される。
【0035】
そこで、i番目の画像iとj番目のテキストjとの類似度をGi・Tjとし、i=jの場合の特徴量に対する正解ラベル(教師ラベル、正解値等)を「1」とし、i≠jの場合の特徴量に対する正解ラベルを「0」として機械学習を学習モデル20に対して行うことにより、テキストエンコーダ21及び画像エンコーダ22の内部のパラメータを決定することができる。機械学習は、例えば勾配降下法、確率的勾配降下法又は誤差逆伝播法等の手法を用いて行われ得る。機械学習は、既存の技術であるため、詳細な説明は省略する。
【0036】
即ち、上述の学習モデル20の機械学習では、N組の画像及びテキストの正例のデータから、N×(N-1)組の負例のデータを生成し、正例のデータから算出される類似度の正解ラベルに「1」を与え、負例のデータから算出される類似度に正解ラベル「0」を与えて、N×N個の正解ラベルを用いた機械学習が行われる。
【0037】
なお、学習モデル20を生成するための上述の機械学習の処理は、サーバ装置1が行うのではなく、別の装置にて行われてよい。サーバ装置1は、機械学習がなされた学習済の学習モデル20を別の装置から取得して学習モデル記憶部12bに記憶する。サーバ装置1は、例えば端末装置7からテキストの入力を伴う画像の検索又は抽出等の要求が与えられた場合に、学習モデル記憶部12bに記憶した学習済の学習モデル20を用いて、画像DB5に記憶された画像の中からテキストに類似する画像を抽出して端末装置7へ送信する。
【0038】
図5は、本実施の形態に係るサーバ装置1が行う画像抽出処理の手順を示すフローチャートである。本実施の形態に係るサーバ装置1の処理部11は、端末装置7から画像抽出を行う要求を受信したか否かを判定する(ステップS1)。画像抽出を行う要求を受信していない場合(S1:NO)、処理部11は、要求を受信するまで待機する。要求を受信した場合(S1:YES)、処理部11のテキスト取得部11bは、要求と共に端末装置7から送信される抽出条件となるテキストを取得する(ステップS2)。
【0039】
処理部11の画像取得部11aは、画像DB5に記憶された処理対象の複数の画像から1つの画像を取得する(ステップS3)。処理部11の類似度算出部11cは、ステップS3にて取得した画像及びステップS2にて取得したテキストを、学習モデル記憶部12bに記憶された学習済の学習モデル20へ入力する(ステップS4)。類似度算出部11cは、画像及びテキストの入力に応じて学習モデル20が出力する類似度を取得する(ステップS5)。
【0040】
なお本フローチャートにおいては、1つの画像及び1つのテキストを学習モデルへ入力して1つの類似度を取得しているが、これに限るものではない。いわゆるバッチ処理により、例えば複数の画像及び1つのテキストを学習モデルへ入力し、各画像とテキストとの複数の類似度を取得してもよい。このようなバッチ処理を採用することによって、画像抽出処理の高速化が期待できる。
【0041】
画像抽出部11eは、ステップS5にて取得した画像及びテキストの類似度が、予め定められた閾値を超えるか否かを判定する(ステップS6)。類似度が閾値を超える場合(S6:YES)、画像抽出部11eは、この類似度に対応する画像を要求元の端末装置7へ送信し(ステップS7)、ステップS8へ処理を進める。類似度が閾値を超えない場合(S6:NO)、画像抽出部11eは、画像を送信せずに、ステップS8へ処理を進める。
【0042】
処理部11は、画像DB5に記憶された画像のうち、処理対象とする複数の画像の全てについてステップS3~S7の処理を終了したか否かを判定する(ステップS8)。全ての画像について処理を終了していない場合(S8:NO)、処理部11は、ステップS3へ処理を戻し、別の画像を取得して同様の処理を繰り返し行う。全ての画像について処理を終了した場合(S8:YES)、処理部11は、画像抽出の処理を終了する。
【0043】
<閾値の決定方法>
上述のように、本実施の形態に係る情報処理システムは、学習モデル20が出力する画像及びテキストの類似度が閾値を超える場合に、この画像がテキストに類似する画像であると判定する。この判定に用いられる閾値の決定方法には、例えば以下の4つの方法のいずれかが採用され得る。
(1)適合度又は再現度に基づく閾値の決定
(2)代表値に基づく閾値の決定
(3)分布に基づく閾値の決定
(4)ユーザによる閾値の決定
【0044】
(1)適合度又は再現度に基づく閾値の決定
第1の決定方法には、画像に対して正しいテキストが対応付けられたデータ(正例)と、画像に対して誤ったテキストが対応付けられたデータ(負例)とを含む、検証用データが必要である。本実施の形態に係るサーバ装置1は、機械学習がなされた学習モデル20に対して検証用データを入力し、検証用データの画像及びテキストの各組に対する類似度を取得する。サーバ装置1は、閾値Xを用いて類似度との比較を行った場合の適合度又は再現度を、閾値Xの値を変化させてそれぞれ算出し、適合度又は再現度が所定値(例えば0.9)となる閾値Xを特定する。なお、適合度又は再現度に対する所定値は、本実施の形態に係る情報処理システムの設計者又は管理者等により予め定められる。
【0045】
なお適合度は、類似度及び閾値Xの比較の結果から正例と予想されたデータのうち、実際に正例だったデータの割合である。また再現度は、正例の真値のうち、正しく予想されたデータの割合である。機械学習モデルの適合度又は再現度の算出方法は、既存の技術であるため、詳細な説明を省略する。
【0046】
図6は、適合度に基づく閾値の決定方法を説明するための模式図である。
図6の上段に記載のグラフは、検証用データの正例及び負例について類似度の分布を示すヒストグラムであり、横軸を類似度とし、縦軸をデータ数としている。
図6の下段に記載のグラフは、各類似度を閾値とした場合の検証用データの適合度を示すグラフであり、横軸を類似度(閾値)とし、縦軸を適合度としている。下段のグラフに描かれた破線の水平線は、適合度=0.9を示しており、例えば設計者又は管理者等が適合度=0.9を閾値の条件として決定したことを示している。サーバ装置1は、適合度が0.9となる類似度を閾値として決定し、決定した閾値を例えば学習モデル記憶部12bに学習モデル20に関する情報と共に記憶し、
図5に示した画像抽出処理において記憶した閾値を用いて判定を行う。
【0047】
図7は、再現度に基づく閾値の決定方法を説明するための模式図である。
図7の上段に記載のグラフは、
図6の上段に記載したグラフと同じものであり、検証用データの正例及び負例について類似度の分布を示すヒストグラムである。
図7の下段に記載のグラフは、各類似度を閾値とした場合の検証用データの再現度を示すグラフであり、横軸を類似度(閾値)とし、縦軸を再現度としている。下段のグラフに描かれた破線の水平線は、再現度=0.9を示しており、例えば設計者又は管理者等が再現度=0.9を閾値の条件として決定したことを示している。サーバ装置1は、再現度が0.9となる類似度を閾値として決定し、決定した閾値を例えば学習モデル記憶部12bに学習モデル20に関する情報と共に記憶し、
図5に示した画像抽出処理において記憶した閾値を用いて判定を行う。
【0048】
なおサーバ装置1は、適合度に基づく閾値の決定又は再現度に基づく閾値の決定の少なくとも一方を行って閾値を決定すればよい。いずれの方法で閾値を決定するかは、例えば設計者又は管理者等により予め定められ得る。又は、両方法でそれぞれ閾値を決定しておき、ユーザがいずれの閾値を採用するかを端末装置7にて選択することが可能であってもよい。
【0049】
(2)代表値に基づく閾値の決定
第2の決定方法には、画像に対して正しいテキストが対応付けられたデータ(正例)が検証用データとして用いられる。この検証用データには、画像に対して誤ったテキストが対応付けられたデータ(負例)が含まれない。本実施の形態に係るサーバ装置1は、機械学習がなされた学習モデル20に対して検証用データを入力し、検証用データの画像及びテキストの各組に対する類似度を取得する。サーバ装置1は、正例の検証用データに関して算出した複数の類似度について、例えば平均値又は最小値等の代表値を算出し、算出した代表値を閾値とする。サーバ装置1は、算出した代表値を閾値として例えば学習モデル記憶部12bに学習モデル20に関する情報と共に記憶し、
図5に示した画像抽出処理において記憶した閾値を用いて判定を行う。
【0050】
図8は、代表値に基づく閾値の決定方法を説明するための模式図である。
図8の上段に記載のグラフは、正例の検証用データについて類似度の分布を示すグラフであり、横軸を類似度とし、縦軸をデータ数としている。
図8の下段に記載のグラフは、画像抽出の対象となる全画像について類似度の分布を示すグラフであり、横軸を類似度とし、縦軸をデータ数としている。
図8において破線で示す垂直線は検証用データの類似度の平均値を示し、一点鎖線で示す垂直線は検証用データの類似度の最小値を示している。サーバ装置1は、検証用データの類似度の平均値又は最小値等の代表値を算出して閾値として用いることにより、この閾値より類似度が大きい画像が抽出される。
【0051】
なお代表値を閾値として平均値又は最小値等のいずれを採用するかは、例えば本実施の形態に係る情報処理システムの設計者又は管理者等により予め定められる。また代表値は、類似度の平均値又は最小値に限らず、これら以外の値が採用されてもよい。またサーバ装置1は、例えば負例の検証用データを用いて類似度を取得し、取得した複数の類似度の平均値又は最大値等の代表値を閾値として用いてもよい。
【0052】
(3)分布に基づく閾値の決定
第3の決定方法では、正例又は負例の検証用データを用いるのではなく、画像抽出の対象となる全画像に対して指定されたテキストとの類似度をそれぞれ取得し、取得した全類似度の分布に基づいて閾値を決定する。サーバ装置1は、例えば画像抽出の対象となる全画像に対して、例えば設計者又は管理者等により類似度の上位X%を抽出することが定められている。サーバ装置1は、全画像について取得した画像及びテキストの類似度をソートして並べ替え、類似度が高いものから上位X%に相当する類似度を特定し、特定した類似度を閾値とする。
【0053】
図9は、分布に基づく閾値の決定を説明するための模式図である。
図9に記載のグラフは、画像抽出の対象となる全画像について類似度の分布を示すグラフであり、横軸を類似度とし、縦軸をデータ数としている。
図8において破線で示す垂直線は、例えば類似度が高いものから上位5%に相当する類似度を示しており、個の類似度が閾値として採用される。なお、上位5%は一例であって、これに限るものではない。
【0054】
ただしサーバ装置1は、類似度のソートを行うのではなく、類似度の分布が正規分布に従うものと仮定して近似的に閾値を決定してもよい。サーバ装置1は、対象の全画像について算出した複数の類似度について平均、分散及び標準偏差を算出する。サーバ装置1は、例えば正規分布における累積確率(100%-X%)/100と、算出した平均及び標準偏差とを基に、累積正規分布の逆関数を用いてX%に相当する類似度を算出し、この類似度を閾値とすることができる。
【0055】
なお、ソートにより上位X%の類似度を特定する方法と、類似度が正規分布に従うと仮定した近似による類似度を算出する方法とのいずれを採用するかは、例えば本実施の形態に係る情報処理システムの設計者又は管理者等により予め定められる。数値のソート、及び、正規分布に基づく近似値の算出等は、既存の技術であるため、詳細な手順の説明を省略する。またサーバ装置1は、正規分布以外の分布、例えばベータ分布等の他の分布に近似して近似値を算出してもよい。
【0056】
(4)ユーザによる閾値の決定
第4の決定方法では、ユーザが端末装置7にて閾値を決定することができる。サーバ装置1は、端末装置7を介してユーザが入力したテキストを取得し、対象となる全ての画像と取得したテキストとの類似度をそれぞれ学習モデル20を用いて取得する。サーバ装置1は、全ての画像及びテキストの組について算出した類似度について例えばヒストグラム等のグラフを作成し、作成したグラフのデータを端末装置7へ送信する。またサーバ装置1は、ヒストグラムのデータと共に、デフォルトの閾値を用いて抽出した画像を端末装置7へ送信する。サーバ装置1からグラフのデータ及び抽出された画像を受信した端末装置7は、受信したデータに基づいて、ヒストグラム等のグラフを表示部に表示すると共に、抽出された一又は複数の画像を表示する。
【0057】
図10は、ユーザによる閾値の決定方法を説明するための模式図である。本実施の形態に係る端末装置7は、ユーザからテキストの入力を受け付けてサーバ装置1へ送信した後、サーバ装置1から送信されるデータを受信してヒストグラム等のグラフを表示部に表示する。
図10に示す例では、端末装置7は、画面の左上の領域にグラフを表示している。このグラフは、横軸を類似度とし、縦軸をデータ数としたヒストグラムである。また端末装置7は、サーバ装置1から抽出結果として送信される一又は複数の画像を受信して表示部に表示する。
図10に示す例では、端末装置7は、画面の右側の領域に、複数の画像をマトリクス状に並べて表示している。複数の画像は、例えば類似度の大きい/小さい順、又は、撮影日時が新しい/古い順等の適宜の順番で並べて表示される。
【0058】
端末装置7は、このヒストグラムに対して、破線で示す垂直線を、閾値を示す指標として重ねて表示する。閾値の指標はまず予め定められたデフォルト値で表示され、ユーザは例えばマウス又はタッチパネル等の入力装置を利用してこの指標を水平方向に移動させることによって、閾値の設定を増減することができる。ユーザの操作により閾値が変更された場合、端末装置7は、変更後の閾値をサーバ装置1へ送信する。サーバ装置1は、端末装置7から変更後の閾値を受信し、この閾値を用いて画像の再抽出を行い、抽出結果を端末装置7へ送信する。端末装置7は、変更された閾値に基づく抽出結果をサーバ装置1から受信し、表示部に並べて表示する画像を新たに受信した画像に更新する。
【0059】
なお、デフォルトの閾値は、例えば本実施の形態に係る情報処理システムの設計者又は管理者等により予め定められ得る。また例えば端末装置7は、前回にユーザが設定した閾値を記憶しておき、記憶した閾値をデフォルトの閾値としてサーバ装置1へ送信してもよい。
【0060】
またユーザによる閾値の決定を受け付ける方法は、上記のヒストグラム等のグラフを用いる方法に限らず、種々の方法が採用され得る。例えば、類似度の最小値から最大値までの間で数値設定を受け付けるスライダー又はバー等を表示して、端末装置7がこれらのスライダー又はバー等に対するユーザの操作を受け付けて閾値を決定してもよい。また例えば、ユーザが閾値とする数値を直接的に入力し、端末装置7が入力された数値を取得して閾値としてもよい。
【0061】
<まとめ>
以上の構成の本実施の形態に係る情報処理システムでは、サーバ装置1が画像DB5から処理対象となる複数の画像を取得し、画像の抽出条件となるテキストを端末装置7から取得し、予め機械学習がなされた学習モデル20に書く画像及びテキストを入力して類似度を取得することにより、複数の画像とテキストとの各組の類似度を取得する。サーバ装置1は、画像及びテキストの各組の類似度と所定の閾値とを比較して、処理対象の複数の画像から類似度が閾値を超える画像を抽出して出力する。これにより本実施の形態に係る情報処理システムでは、画像DB5に記憶する画像に予めタグ付けを行う必要なく、画像DB5に記憶した複数の画像からテキスト入力に基づく画像の抽出又は検索等を行うことが期待できる。
【0062】
また本実施の形態に係る情報処理システムでは、サーバ装置1が、画像及びテキストの正例の組及び負例の組をそれぞれ複数取得し、各組について学習モデル20による類似度を取得し、取得した類似度に基づいて適合度又は再現度を算出し、算出した適合度又は再現度に基づいて閾値を決定する。これにより本実施の形態に係る情報処理システムでは、例えば正例及び負例の検証用データが利用できる場合に、予め機械学習がなされた学習モデル20の性能又は特性等に適した閾値を決定することが期待できる。
【0063】
また本実施の形態に係る情報処理システムでは、サーバ装置1が、画像及びテキストの正例の組を複数取得し、正例の各組について学習モデル20による類似度を取得し、取得した類似度の分布に基づいて閾値を決定する。サーバ装置1は、例えば類似度の分布に関する平均値又は最小値等の代表値を算出し、算出した代表値を閾値とすることができる。これにより本実施の形態に係る情報処理システムでは、例えば正例の検証用データが利用できる場合に、学習モデル20の正例に対する類似度の算出の特性に適した閾値を決定することが期待できる。
【0064】
また本実施の形態に係る情報処理システムでは、サーバ装置1が、正解値のラベル又はタグ等が付与されていない画像を用いて、テキストとの類似度を学習モデル20にて取得し、複数の画像についての類似度の分布に基づいて閾値を決定する。これにより本実施の形態に係る情報処理システムは、画像抽出の対象となる画像DB5に記憶された複数の画像を基に閾値を決定することができるため、実際に画像DB5に記憶された画像の特性等に適した閾値を決定することが期待できる。
【0065】
また本実施の形態に係る情報処理システムでは、サーバ装置1が、複数の画像について算出した類似度に基づいて画像を順位付け(ソート)し、例えば上位X%等の所定の順位の画像を抽出するように閾値を決定する。これにより本実施の形態に係る情報処理システムでは、類似度が高いものを優先して必要な量だけ抽出することができる。
【0066】
また本実施の形態に係る情報処理システムでは、サーバ装置1が、類似度の分布に関する例えば平均、分散又は標準偏差等のパラメータを算出し、類似度の分布が例えば正規分布などの所定分布であるとみなして、パラメータに応じた閾値を決定する。これにより本実施の形態に係る情報処理システムでは、画像DB5に記憶された複数の画像について算出した類似度を基に、演算量が少ない方法で閾値を決定することが期待できる。
【0067】
また本実施の形態に係る情報処理システムでは、サーバ装置1が、画像及びテキストの各組について学習モデル20が出力した類似度の分布を例えば端末装置7の表示部に表示させ、端末装置7を介してユーザからの閾値の設定を受け付ける。これにより本実施の形態に係る情報処理システムは、ユーザの好み等に適した閾値を用いて画像の抽出を行うことが期待できる。
【0068】
また本実施の形態に係る情報処理システムでは、学習モデル20は、入力された画像の特徴量を出力する画像エンコーダ22と、入力されたテキストの特徴量を出力するテキストエンコーダ21と、画像エンコーダ22が出力した特徴量及びテキストエンコーダ21が出力した特徴量を基に類似度を算出する算出部とを備える構成である。学習モデル20には、例えば大規模汎用画像モデルであるCLIPの学習モデルが採用され得る。これにより本実施の形態に係る情報処理システムでは、画像及びテキストの類似度を精度よく算出することが期待できる。
【0069】
今回開示された実施形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。
【0070】
各実施形態に記載した事項は相互に組み合わせることが可能である。また、特許請求の範囲に記載した独立請求項及び従属請求項は、引用形式に関わらず全てのあらゆる組み合わせにおいて、相互に組み合わせることが可能である。さらに、特許請求の範囲には他の2以上のクレームを引用するクレームを記載する形式(マルチクレーム形式)を用いているが、これに限るものではない。マルチクレームを少なくとも1つ引用するマルチクレーム(マルチマルチクレーム)を記載する形式を用いて記載してもよい。
【符号の説明】
【0071】
1 サーバ装置(情報処理装置、コンピュータ)
3 カメラ
5 画像DB
7 端末装置
11 処理部
11a 画像取得部
11b テキスト取得部
11c 類似度算出部
11d 閾値決定部
11e 画像抽出部
12 記憶部
12a プログラム(コンピュータプログラム)
12b 学習モデル記憶部
13 通信部
20 学習モデル
21 テキストエンコーダ
22 画像エンコーダ
99 記録媒体
N ネットワーク
【要約】
【課題】テキストに基づく画像の検索及び抽出等を実現することが期待できる情報処理方法、コンピュータプログラム及び情報処理装置を提供する。
【解決手段】本実施の形態に係る情報処理方法は、情報処理装置が、処理対象となる複数の画像を取得し、前記複数の画像からの画像の抽出条件となるテキストを取得し、画像及びテキストの入力を受け付けて前記画像及び前記テキストの類似度を出力するよう機械学習がなされた学習モデルへ、取得した画像及びテキストを入力して前記学習モデルが出力する前記画像及び前記テキストの類似度を取得することで、前記複数の画像と前記テキストとの各組の類似度を取得し、取得した各組の類似度と所定の閾値とを比較し、前記複数の画像から、前記類似度が前記閾値を超える画像を抽出して出力する。
【選択図】
図2