(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024165586
(43)【公開日】2024-11-28
(54)【発明の名称】画像認識支援装置、画像認識支援方法、及び画像認識支援プログラム
(51)【国際特許分類】
G06F 16/583 20190101AFI20241121BHJP
【FI】
G06F16/583
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2023081892
(22)【出願日】2023-05-17
(71)【出願人】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110001689
【氏名又は名称】青稜弁理士法人
(72)【発明者】
【氏名】岡崎 聡一郎
(72)【発明者】
【氏名】渡邉 裕樹
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA02
5B175FA01
(57)【要約】
【課題】精度の高い画像検索を行うことができる技術を提供する。
【解決手段】
画像認識支援装置100は、検索クエリおよび指示文の入力を受付けるテキスト入力部111と、検索対象画像を保持する検索対象画像DB121と、検索対象画像を画像特徴量に変換する画像特徴量変換部114と、検索対象画像に関連する画像付随テキスト情報を出力する画像認識部112と、画像付随テキスト情報から指示文に基づいて検索クエリに応じた要約後文章を出力するテキスト処理部113と、出力された要約後文章を要約後文章特徴量に変換する文章特徴量変換部115と、要約後文章、要約後文章特徴量、検索対象画像、及び画像特徴量を用いて画像を検索して検索結果を取得する画像検索部116と、を備える。
【選択図】
図1
【特許請求の範囲】
【請求項1】
検索クエリおよび指示文の入力を受付けるテキスト入力部と、
検索対象画像を保持する記憶部と、
前記検索対象画像を画像特徴量に変換する画像特徴量変換部と、
前記検索対象画像に関連する画像付随テキスト情報を出力する画像認識部と、
前記画像付随テキスト情報から前記指示文に基づいて前記検索クエリに応じた要約後文章を出力するテキスト処理部と、
前記出力された要約後文章を要約後文章特徴量に変換する文章特徴量変換部と、
前記要約後文章、前記要約後文章特徴量、前記検索対象画像、及び前記画像特徴量を用いて画像を検索して検索結果を取得する画像検索部と、
を備える画像認識支援装置。
【請求項2】
請求項1記載の画像認識支援装置において、
前記記憶部は、前記画像特徴量変換部が変換した画像特徴量を保存し、
前記画像検索部は、前記記憶部に保存された画像特徴量を用いて画像を検索する画像認識支援装置。
【請求項3】
請求項1記載の画像認識支援装置において、
前記記憶部は、前記画像認識部が出力した前記画像付随テキスト情報を保存し、
前記テキスト処理部は、前記記憶部に保存された画像付随テキスト情報から前記要約後文章を出力する画像認識支援装置。
【請求項4】
請求項1記載の画像認識支援装置において、
表示部をさらに備え、
前記テキスト入力部は、前記検索結果に関する質問文の入力を受付け、
前記テキスト処理部は、前記質問文及び前記画像付随テキスト情報に基づいて前記質問文に対する応答文章を生成し、
前記表示部は、前記検索結果及び前記応答文章を表示する画像認識支援装置。
【請求項5】
請求項1記載の画像認識支援装置において、
前記検索結果及びあらかじめ用意された属性一覧テキストに基づいて前記検索結果の詳細情報を生成する詳細情報付与部と、
前記検索結果及び前記詳細情報を表示する表示部と、
をさらに備える画像認識支援装置。
【請求項6】
請求項1記載の画像認識支援装置において、
画像変換部をさらに備え、
前記テキスト入力部は、画像変換指示文章の入力を受付け、
前記画像変換部は、前記画像変換指示文章に基づいて前記検索結果を変換する画像認識支援装置。
【請求項7】
請求項1記載の画像認識支援装置において、
画像変換部をさらに備え、
前記テキスト入力部は、画像変換指示文章及び変換対象位置情報の入力を受付け、
前記画像変換部は、前記画像変換指示文章及び前記変換対象位置情報に基づいて前記検索結果の特定箇所を変換する画像認識支援装置。
【請求項8】
請求項1記載の画像認識支援装置において、
前記画像付随テキスト情報及び前記要約後文章を表示する表示部をさらに備える画像認識支援装置。
【請求項9】
請求項8記載の画像認識支援装置において、
前記テキスト入力部は、前記表示部により表示された要約後文章の編集を受付ける画像認識支援装置。
【請求項10】
検索対象画像を保持する記憶部を備える画像認識支援装置の画像認識支援方法において、
検索クエリおよび指示文の入力を受付けるテキスト入力ステップと、
前記検索対象画像を画像特徴量に変換する画像特徴量変換ステップと、
前記検索対象画像に関連する画像付随テキスト情報を出力する画像認識ステップと、
前記画像付随テキスト情報から前記指示文に基づいて前記検索クエリに応じた要約後文章を出力するテキスト処理ステップと、
前記出力された要約後文章を要約後文章特徴量に変換する文章特徴量変換ステップと、
前記要約後文章、前記要約後文章特徴量、前記検索対象画像、及び前記画像特徴量を用いて画像を検索して検索結果を取得する画像検索ステップと、
を有する画像認識支援方法。
【請求項11】
検索対象画像を保持する記憶部を備える画像認識支援装置で実行される画像認識支援プログラムにおいて、
前記画像認識支援装置に、
検索クエリおよび指示文の入力を受付けるテキスト入力処理と、
前記検索対象画像を画像特徴量に変換する画像特徴量変換処理と、
前記検索対象画像に関連する画像付随テキスト情報を出力する画像認識処理と、
前記画像付随テキスト情報から前記指示文に基づいて前記検索クエリに応じた要約後文章を出力するテキスト処理と、
前記出力された要約後文章を要約後文章特徴量に変換する文章特徴量変換処理と、
前記要約後文章、前記要約後文章特徴量、前記検索対象画像、及び前記画像特徴量を用いて画像を検索して検索結果を取得する画像検索処理と、
を実行させる画像認識支援プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像認識支援装置、画像認識支援方法、及び画像認識支援プログラムに関する。
【背景技術】
【0002】
テキストを検索クエリとして与える画像検索システムにおいて、検索対象の画像特徴量だけではなく、検索対象画像に付随するテキストの言語的特徴量を検索の補助に用いるといった、マルチモーダル特徴量による検索システムが知られている。例えば、検索対象画像を商品画像とするような、商品画像検索システムを例とすると、この場合の検索対象画像に付随するテキストの例としては、商品説明の文章や、商品画像のExif情報に埋め込まれた文章、また商品画像からImage Captioning技術などによって抽出された文章などが挙げられる。これらの検索対象画像に付随するテキストを言語的特徴量に変換し、これを画像特徴量と併せて検索に用いる事で、画像特徴量のみを用いる場合よりも精度の良い検索を行う事が可能となる。
【0003】
ここで、画像特徴量は、CNNやTransformerなどのニューラルネットワークモデルに画像を入力して抽出した特徴ベクトルを表し、同様に、言語的特徴量はCNNやTransformerなどのニューラルネットワークモデルにテキストを入力して抽出した特徴ベクトルを表す。
【0004】
しかし、その検索対象画像に付随するテキストは、検索クエリの情報に無関係な場合もあり、その際は追加された言語的特徴量が検索の精度向上に繋がらない。そのため、言語的特徴量を検索の精度向上に繋げるためには、検索クエリに応じた言語的特徴量を生成する必要がある。
【0005】
検索対象画像の画像特徴量に加えて、検索対象画像に付随するテキストの言語的特徴量を検索の補助に用いる、マルチモーダル特徴量による検索システムに関する先行特許として、例えば特許文献1が知られている。
【0006】
また、非特許文献1,2において、画像上の様々な物体のラベルと座標情報等をテキストとして算出し、それをGPT-3等の言語モデルに指示文と共に入力し、画像を表すのにより適したキャプション文章を作成する技術が提案されている。
【先行技術文献】
【特許文献】
【0007】
【非特許文献】
【0008】
【非特許文献1】Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language, Arxiv, 2022.
【非特許文献2】Visual Clues: Bridging Vision and Language Foundations for Image Paragraph Captioning, NeurIPS, 2022.
【発明の概要】
【発明が解決しようとする課題】
【0009】
しかし、特許文献1では事前に用意されたテキストの言語的特徴量を用いるため、検索クエリに応じた言語的特徴量を生成することができない。
【0010】
また、非特許文献1,2の技術では、従来のImage Captioning技術より豊富な情報を持ったキャプション文章を生成することができるため、生成されたテキストによる言語的特徴量が従来と比較して検索精度向上に繋がる可能性はあるが、検索クエリに応じた言語的特徴量を生成する方法は記載されていない。
【0011】
そこで、本発明では、精度の高い画像検索を行うことができる技術を提供することを目的とする。
【課題を解決するための手段】
【0012】
上記課題を解決するために、代表的な本発明の画像認識支援装置の一つは、検索クエリおよび指示文の入力を受付けるテキスト入力部と、検索対象画像を保持する記憶部と、検索対象画像を画像特徴量に変換する画像特徴量変換部と、検索対象画像に関連する画像付随テキスト情報を出力する画像認識部と、画像付随テキスト情報から指示文に基づいて検索クエリに応じた要約後文章を出力するテキスト処理部と、出力された要約後文章を要約後文章特徴量に変換する文章特徴量変換部と、要約後文章、要約後文章特徴量、検索対象画像、及び画像特徴量を用いて画像を検索して検索結果を取得する画像検索部と、を備える。
【発明の効果】
【0013】
本発明によれば、精度の高い画像検索を行うことができる。
【0014】
上記した以外の課題、構成および効果は、以下の実施形態の説明により明らかにされる。
【図面の簡単な説明】
【0015】
【
図1】本実施形態に係る画像認識支援装置の構成の概要を説明する図である。
【
図2】画像認識部が生成する画像付随テキスト情報の一例を示す図である。
【
図3】検索対象画像DBが記憶する情報の一例を示す図である。
【
図4】実施例1の画像認識支援装置の機能の一例を示すブロック図である。
【
図5】実施例1の画像認識支援装置で実行される処理の一例を示すフローチャートである。
【
図6】実施例2の画像認識支援装置の機能の一例を示すブロック図である。
【
図7】実施例2の画像認識支援装置で実行される処理の一例を示すフローチャートである。
【
図8】実施例3の画像認識支援装置の機能の一例を示すブロック図である。
【
図9】実施例3の画像認識支援装置で実行される処理の一例を示すフローチャートである。
【
図10】実施例4の画像認識支援装置の機能の一例を示すブロック図である。
【
図11】実施例4の画像認識支援装置で実行される処理の一例を示すフローチャートである。
【
図12】実施例5の画像認識支援装置の機能の一例を示すブロック図である。
【
図13】実施例5の画像認識支援装置で実行される処理の一例を示すフローチャートである。
【発明を実施するための形態】
【0016】
以下、図面を参照して本発明の実施形態を説明する。
【0017】
説明の明確化のため、以下の記載及び図面は、適宜、省略及び簡略化がなされている。また、本発明が本実施形態に制限されることは無く、本発明の思想に合致するあらゆる応用例が本発明の技術的範囲に含まれる。また、特に限定しない限り、言及される各構成要素の数は単数であっても複数であってもよい。
<システム構成>
図1は、本実施形態に係る画像認識支援装置の構成の概要を説明する図である。
【0018】
画像認識支援装置100は、画像認識やテキスト処理といった様々な処理を制御する制御部110と、画像DBや学習済みモデルなどを保存する記憶部120と、検出結果の表示などを行う表示部180とを備える。
【0019】
制御部110は、テキスト入力部111、画像認識部112、テキスト処理部113、画像特徴量変換部114、文章特徴量変換部115、画像検索部116、詳細情報付与部117、画像変換部118の各機能部を備える。
【0020】
記憶部120は、検索対象画像DB121(DB:データベース)、画像認識モデル122、言語モデル123、画像特徴量変換モデル124、文章特徴量変換モデル125、画像検索モデル126、詳細情報付与モデル127、画像変換モデル128、各種プログラム129を記憶する。
【0021】
画像認識モデル122、言語モデル123、画像特徴量変換モデル124、文章特徴量変換モデル125、画像検索モデル126、詳細情報付与モデル127、画像変換モデル128は、画像認識部112、テキスト処理部113、画像特徴量変換部114、文章特徴量変換部115、画像検索部116、詳細情報付与部117、画像変換部118でそれぞれ用いられる学習済みモデルである。
【0022】
画像特徴量変換モデル124、文章特徴量変換モデル125、画像検索モデル126、詳細情報付与モデル127、画像変換モデル128は、CNNやTransformerなどのニューラルネットワークモデルで構成される。
【0023】
画像認識部112が用いる画像認識モデル122としては、CNNやTransformerといったニューラルネットワークで構成されたものを用いる。なお、これらの例としては、画像上の属性をテキストとの類似度比較を用いて出力可能なCLIP(Contrastive Language-Image Pre-Training)、画像中の様々な物体を検知するGLIP(Grounded Language-Image Pre-training)、画像のキャプション文章を出力するBLIP(Bootstrapping Language-Image Pre-training)といったモデルが挙げられるが、これら以外にも様々なモデルが利用可能である。
【0024】
テキスト処理部113が用いる言語モデル123としては、GPT-3のようなテキスト情報を要約可能な言語モデルを用いる。なお、GPT-3に限定されず、テキスト情報を適切に要約できるモデルであれば他の様々なモデルが利用可能である。
【0025】
テキスト入力部111は、ユーザからの入力を受け付ける。例えば、テキスト入力部111は、検索クエリ及び指示文の入力や、テキスト処理部113から出力された要約後文章の編集などを受け付ける。また、検索対象画像DB121への入力なども受け付ける。
【0026】
画像認識部112は、検索対象画像DB121から取得した画像から、画像認識部抽出テキストと、メタデータを抽出する。また、画像認識部112は、これらの画像認識部抽出テキストとメタデータを併せ、
図2のような画像付随テキスト情報140を生成する。
【0027】
図2は、画像認識部112が生成する画像付随テキスト情報140の一例を示す図である。
【0028】
画像付随テキスト情報140は、検索対象画像DB121から取得された画像のメタデータと、検索対象画像DB121から取得された画像に対して画像認識部112によって出力された物体のラベル、画像上の物体の位置情報、キャプショニング文章などを含む画像認識部抽出テキストとを有する。
【0029】
図1に戻り、テキスト処理部113には、テキスト入力部111により入力された検索クエリ及び指示文と、画像付随テキスト情報140とが入力される。検索クエリに応じた要約後文章を出力するために、テキスト処理部113には検索クエリと併せて要約のための指示文を入力する。テキスト処理部113は、言語モデル123を用いて、検索クエリに応じた要約後文章を生成する。
【0030】
画像特徴量変換部114は、画像検索の際に検索対象画像の画像特徴量を抽出する。
【0031】
文章特徴量変換部115は、テキスト処理部113で生成された要約後文章を検索で用いるために文章特徴量に変換する。
【0032】
画像検索部116は、画像特徴量、要約後文章特徴量、検索クエリ及び指示文に基づいて画像を検索し、検索結果を取得する。画像検索部116は、上記で出力された検索対象画像に関する要約後文章特徴量と画像特徴量を用いて、ニューラルネットワークを用いた画像検索において通常用いられる特徴量マッチングの方法を用いて検索を実施する。
【0033】
詳細情報付与部117は、検索結果の画像に詳細情報を付与する。画像変換部118は、検索結果の画像を変換する。
【0034】
検索対象画像DB121は、検索対象画像の画像データを保持する。
【0035】
図3は、検索対象画像DB121が記憶する情報の一例を示す図である。
【0036】
検索対象画像DB121は、検索対象画像の画像データとともに、検索対象画像のメタデータを保持している。
【0037】
また、画像認識部112により抽出された画像認識部抽出テキストは、適宜検索対象画像DB121に保存される。さらに、画像特徴量変換部114により抽出された画像特徴量も適宜、検索対象画像DB121に保存される。
【0038】
テキスト処理部113は、検索対象画像DB121に画像認識部抽出テキストが保存されている場合は、それを読み出して要約後文章の生成に用いる。また、画像検索部116は、検索対象画像DB121に画像特徴量が保存されている場合は、その画像特徴量を読み出して画像検索に用いる。これにより、何度も検索を行う際の処理時間の短縮が可能となる。
【0039】
テキスト入力部111に入力される指示文の例としては、例えば「<テキスト情報>に関して、<検索クエリ>に類似する単語を含む場合はその単語を抽出し、それ以外の場合はNoneを出力して下さい。」といったものがある。ここで、<テキスト情報>とは、画像付随テキスト情報140のことを指す。また、<>には、検索に応じて実際のテキスト情報および検索クエリが入力される。GPT-3のような文章要約が可能な言語モデルにこのような指示文を与える事によって、様々な情報を含むテキスト情報の中から、検索クエリに応じた要約後文章を生成可能となる。
【0040】
また、検索対象画像のメタデータの例としては、EXIF情報として画像に付随するテキスト情報、緯度・経度情報、画像サイズ情報などに加えて、事前にその画像に対して持っている情報(例:画像中の建物の実際の大きさ)などがある。これらの情報を画像認識部112から出力された画像認識部抽出テキストと併せて利用することにより、「川の近傍10m以内にある建物を含む画像」といった要約後文章をテキスト処理部113によって出力可能となり、要約後文章を用いて画像検索することにより精度良い検索を支援することが可能となる。
【0041】
なお、検索対象画像DB121が保持する検索対象画像は、カラー画像及びモノクロ画像のいずれであってもよい。また、各画像は、RGB画像の他、IR画像(IR: Infrared)、CG画像(CG: Computer Graphics)、又は、その他の様々な種類の画像であってもよい。
【0042】
また、画像認識支援装置100は、テキスト処理部113で処理する前の画像付随テキスト情報と、テキスト処理部113によって要約された後の要約後文章とを表示部180により表示し、ユーザが比較可能とするGUIを備えてもよい。これにより、テキスト処理部113が画像付随テキスト情報を正しく要約して適切な要約後文章を出力しているかをユーザが確認することが可能となる。
【0043】
また、上記に加えて、テキスト処理部113で処理する前の画像付随テキスト情報と、テキスト処理部113によって要約された後の要約後文章を表示部180により表示して比較しながら、テキスト入力部111によりユーザが要約後文章を編集可能にしてもよい。これにより、ユーザの意図する適切な要約後文章、および要約後文章特徴量を出力することができ、より高精度の画像検索が可能となる。
<ハードウェア関係の構成>
画像認識支援装置100は様々なハードウェアによって構成される。一例としては、制御部110の処理は、CPU(Central Processing Unit)、DSP(Digital Signal Processor)、GPU(Graphics Processing Unit)、FPGA(Field-Programmable Gate Array)などの処理装置によって構成される。
【0044】
記憶部120の処理は、ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)、SSD(Solid State Drive)などのメモリ装置又は記憶媒体によって構成される。表示部180は、液晶ディスプレイ、有機EL(Electro-Luminescence)ディスプレイなどで構成される。テキスト入力部111は、マウスやキーボードなどで構成される。
【0045】
また、例えば記憶部120と制御部110がそれぞれ別のデバイス上にあり、それを繋ぐ必要がある場合、NIC(Network Interface Card)、無線通信モジュール、USB(Universal Serial Interface)モジュール、又はシリアル通信モジュール等で構成される通信装置によってデバイス間のネットワーク通信が行われる。
【0046】
画像認識支援装置100の各機能は、制御部110が、記憶部120に格納されているプログラム129を読み出して実行することにより実現される。また、後述する各処理は、制御部110が、記憶部120に保持しているプログラム129を実行することで実現される。また、上記のプログラム129は、例えば、記録媒体に記録して配布することができる。
<画像検索処理>
図4は、実施例1の画像認識支援装置の機能の一例を示すブロック図であり、
図5は、実施例1の画像認識支援装置で実行される処理の一例を示すフローチャートである。
【0047】
処理の流れとしては、まず、テキスト入力部111は、ユーザによる検索クエリ及び指示文の入力を受付ける(ステップS11)。
【0048】
次に、検索対象画像DB121から取得した画像を画像認識部112に入力し、画像認識部112は、入力された画像から画像認識部抽出テキストを抽出する(ステップS12)。また、画像認識部112は、入力された画像のメタデータを抽出する(ステップS13)。これらの画像認識部抽出テキストとメタデータを併せ、
図2のような画像付随テキスト情報140を生成する(ステップS14)。
【0049】
その後、ステップS11で受付けた検索クエリ及び指示文と、ステップS14で生成した画像付随テキスト情報140をテキスト処理部113に入力する(ステップS15)。テキスト処理部113は、言語モデル123を用いて、画像付随テキスト情報140から指示文に基づいて検索クエリに応じた要約後文章を生成する(ステップS16)。
【0050】
これらの要約後文章を検索で用いるため、文章特徴量変換部115で文章特徴量に変換する。また、画像も画像特徴量変換部114で画像特徴量に変換する(ステップS17)。そして、画像、画像特徴量、要約後文章、文章特徴量を検索クエリ及び指示文と共に画像検索部116に入力し(ステップS18)、画像検索部116により検索結果を取得し(ステップS19)、処理を終了する。
【0051】
図5の処理によれば、画像認識支援装置100は、テキスト処理部113によって検索クエリに応じた要約後文章を出力し、それを文章特徴量変換部115によって要約後文章特徴量に変換し、その変換した要約後文章特徴量を画像特徴量と併用することによって、精度の良い検索を実行することを支援する。これにより、例えば、「川のそばに立っている赤色の服の男がいる画像」といった、従来では検索することが困難な、詳細な検索クエリ文章に対しても、精度の高い画像検索を行うことができる。
【0052】
なお、
図5のステップS11からステップS18までの処理は、後述する
図7、
図9、
図11、
図13の各処理でも実行されるため、以下の説明においてステップS11からステップS18までの処理をまとめてステップS001と表記し、その説明を省略する。
<質問応答処理>
図6は、実施例2の画像認識支援装置の機能の一例を示すブロック図であり、
図7は、実施例2の画像認識支援装置で実行される処理の一例を示すフローチャートである。
【0053】
図7の処理は、ステップS19の後にステップS60~S62の質問応答処理が実行される点で、
図5と異なる。
【0054】
ステップS19で画像検索部116から検索結果を取得した後、テキスト入力部111は、ユーザによる検索結果に関する質問文(例:「対象画像の近くにある物体はなにか?」)の入力を受付ける(ステップS60)。
【0055】
入力された質問文、及び
図5のステップS14で取得した画像付随テキスト情報140が、テキスト処理部113に入力され、テキスト処理部113は、質問文及び画像付随テキスト情報140に基づいて質問文応答文章を生成する(ステップS61)。次に、質問文応答文章込みの検索結果を表示部180により表示し(ステップS62)、処理を終了する。
【0056】
図7の処理によれば、テキスト処理部113は、質問文及び画像付随テキスト情報140に基づいて質問文応答文章を生成し、質問文応答文章込みの検索結果を表示部180により表示するので、ユーザは、検索画像に対する詳細な質問を行う操作を実施することが可能となる。
【0057】
なお、質問応答に関してはテキスト処理部113で用いられている言語モデル123の他にも、別途質問応答モデルを用意してそれらを用いても良い。
<詳細情報付与処理>
図8は、実施例3の画像認識支援装置の機能の一例を示すブロック図であり、
図9は、実施例3の画像認識支援装置で実行される処理の一例を示すフローチャートである。
【0058】
図9の処理は、ステップS19の後にステップS70~S71の詳細情報付与処理が実行される点で、
図5と異なる。
【0059】
図8において、例えば、「黄、青、丸、四角、・・・」といった属性一覧テキストが、テキスト入力部111に事前に用意されている。
【0060】
ステップS19で画像検索部116から検索結果を取得した後、属性一覧テキスト及び検索結果が詳細情報付与部117に入力され、詳細情報付与部117は、属性一覧テキスト及び検索結果に基づいて検索結果の画像の詳細情報(例:20代~30代、緑色の服、帽子を被っている、男)を生成する(ステップS70)。次に、詳細情報込みの検索結果を表示部180により表示し(ステップS71)、処理を終了する。
【0061】
ここで、詳細情報付与モデル127としては、画像上の様々な属性をテキストとの類似度比較を用いて出力可能なCLIP(Contrastive Language-Image Pre-Training)などを用いる事ができる。
【0062】
図9の処理によれば、詳細情報付与部117は、属性一覧テキスト及び検索結果に基づいて検索結果の画像の詳細情報を生成し、詳細情報込みの検索結果を表示部180により表示するので、検索結果画像の詳細な属性を列挙するといった、検索結果に対してより詳細な情報を表示することが可能となる。
<画像変換処理>
図10は、実施例4の画像認識支援装置の機能の一例を示すブロック図であり、
図11は、実施例4の画像認識支援装置で実行される処理の一例を示すフローチャートである。
【0063】
図11の処理は、ステップS19の後にステップS80~S82の画像変換処理が実行される点で、
図5と異なる。
【0064】
ステップS19で画像検索部116から検索結果を取得した後、テキスト入力部111は、ユーザによる画像変換指示文章(例:検索結果の画像は朝だが、夕方の様に画像変換する)の入力を受付ける(ステップS80)。
【0065】
入力された画像変換指示文章、及びステップS19で取得した検索結果が画像変換部118に入力され、画像変換部118は、画像変換指示文章に基づいて検索結果の画像を変換する(ステップS81)。次に、画像変換後の検索結果を表示部180により表示し(ステップS82)、処理を終了する。
【0066】
ここで、画像変換モデル128としては、Stable Diffusionといったニューラルネットワークモデルが利用可能である。また、他のGenerative Adversarial Network派生のモデルや、Variational Auto-Encoder派生のモデル、また、Flow-Based Generative Models派生のモデルといった様々な画像変換モデルも利用可能である。
【0067】
図11の処理によれば、画像変換部118は、画像変換指示文章に基づいて検索結果の画像を変換するので、ユーザが入力した画像変換指示文章のように検索結果画像を変換するといった操作が可能となる。これにより、例えば、検索画像の別の状態のイメージなどがしやすくなる。
<特定箇所の画像変換処理>
図12は、実施例5の画像認識支援装置の機能の一例を示すブロック図であり、
図13は、実施例5の画像認識支援装置で実行される処理の一例を示すフローチャートである。
【0068】
図13の処理は、ステップS19の後にステップS90~S92の画像変換処理が実行される点で、
図5と異なる。
【0069】
ステップS19で画像検索部116から検索結果を取得した後、テキスト入力部111は、ユーザによる画像変換指示文章(例:この男の横に車があったらどのように見えるか)、及び変換対象位置情報(例:検索結果画像において男の横の任意の位置をユーザが指定)の入力を受付ける(ステップS90)。
【0070】
入力された画像変換指示文章、及び変換対象位置情報と、ステップS19で取得した検索結果が画像変換部118に入力され、画像変換部118は、画像変換指示文章、及び変換対象位置情報に基づいて検索結果の画像の特定箇所を変換する(ステップS91)。次に、画像変換後の検索結果を表示部180により表示し(ステップS92)、処理を終了する。
【0071】
ここで、画像変換モデル128としては、実施例3と同様にStable Diffusionといったモデルや、他の様々な画像変換モデルが利用可能である。
【0072】
図13の処理によれば、画像変換部118は、画像変換指示文章、及び変換対象位置情報に基づいて検索結果の画像の特定箇所を変換するので、検索結果画像の指定領域を画像変換指示文章のように変換するといった操作が可能となる。これにより、例えば、検索画像の別の状態のイメージなどがしやすくなる。
【0073】
以上のように、本実施形態の画像認識支援装置100は、検索クエリに応じた要約後文章を言語モデルによって生成し、それを検索に利用することで、精度の高い画像検索を行うことができる。
【0074】
また、検索結果の画像に対して、質問応答、詳細情報付与、画像変換、特定箇所の画像変換といった様々な処理を実施可能である。
【0075】
さらに、言語モデルで生成された要約後文章が検索に不適切な場合は、ユーザ入力によってそれらを適宜修正することによって、より精度の高い画像検索を行うことができる。
【0076】
なお、本発明は上記実施形態に限定されるものではなく、その要旨を逸脱しない範囲内で、任意の構成要素を用いて実施可能である。以上説明した実施形態や変形例はあくまで一例であり、発明の特徴が損なわれない限り、本発明はこれらの内容に限定されるものではない。また、上記では種々の実施形態や変形例を説明したが、本発明はこれらの内容に限定されるものではない。本発明の技術的思想の範囲内で考えられるその他の態様も本発明の範囲内に含まれる。
【0077】
例えば、実施形態の各装置が備える各機能の一部は他の装置に設けてもよいし、別装置が備える機能を同一の装置に設けてもよい。
【符号の説明】
【0078】
100 画像認識支援装置
110 制御部
120 記憶部
180 表示部