特開2024-172255 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社東芝の特許一覧

特開2024-172255プログラム、情報処理装置及び情報処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024172255

(43)【公開日】2024-12-12

(54)【発明の名称】プログラム、情報処理装置及び情報処理方法

(51)【国際特許分類】

G06F 16/53 20190101AFI20241205BHJP

G06F 16/90 20190101ALI20241205BHJP

【ＦＩ】

G06F16/53

G06F16/90 100

【審査請求】未請求

【請求項の数】14

【出願形態】ＯＬ

(21)【出願番号】P 2023089841

(22)【出願日】2023-05-31

(71)【出願人】

【識別番号】000003078

【氏名又は名称】株式会社東芝

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】三島直

(72)【発明者】

【氏名】野田玲子

(72)【発明者】

【氏名】小坂谷達夫

【テーマコード（参考）】

5B175

【Ｆターム（参考）】

5B175DA01

5B175DA02

5B175EA01

5B175GB05

(57)【要約】

【課題】より精度の高いＡＩ処理結果を得るためのプロンプトの調整を効率的に行う。
【解決手段】実施形態のプログラムは、コンピュータを、入力制御部とＡＩ処理部と第１算出部と表示制御部として機能させる。入力制御部は、第１テキストと、前記第１テキストに応じた回答の期待値とを含むプロンプトの入力を受け付ける。ＡＩ処理部は、前記第１テキストと、少なくとも１つの画像とが入力されると、前記回答を出力するＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）モデルを使用して、前記少なくとも１つの画像毎に前記回答を予測する。第１算出部は、前記期待値と前記回答とから、前記回答の精度を算出する。表示制御部は、前記プロンプトと前記回答と前記精度とを少なくとも含む表示情報を表示装置に表示する。
【選択図】図２

【特許請求の範囲】

【請求項1】

コンピュータを、
第１テキストと、前記第１テキストに応じた回答の期待値とを含むプロンプトの入力を受け付ける入力制御部と、
前記第１テキストと、少なくとも１つの画像とが入力されると、前記回答を出力するＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）モデルを使用して、前記少なくとも１つの画像毎に前記回答を予測するＡＩ処理部と、
前記期待値と前記回答とから、前記回答の精度を算出する第１算出部と、
前記プロンプトと前記回答と前記精度とを少なくとも含む表示情報を表示装置に表示する表示制御部、
として機能させるためのプログラム。

【請求項2】

前記ＡＩ処理部は、正例を示す少なくとも１つの正例画像と、負例を示す少なくとも１つの負例画像とを含む複数の画像の入力を受け付け、
前記表示情報は、前記少なくとも１つの正例画像毎の前記回答と、前記少なくとも１つの負例画像毎の前記回答とを含む、
請求項１に記載のプログラム。

【請求項3】

前記ＡＩモデルは、ＶＱＡ（Ｖｉｓｕａｌｑｕｅｓｔｉｏｎａｎｓｗｅｒｉｎｇ）タスクを処理し、
前記第１テキストは、前記複数の画像に対する質問であり、
前記回答の期待値は、前記質問の正解である、
請求項２に記載のプログラム。

【請求項4】

前記ＡＩモデルは、特定の特徴を有する画像を検索する画像検索タスクを処理し、
前記第１テキストは、前記特定の特徴を有する画像を検索するクエリであり、
前記回答の期待値は、前記正例画像に対しては前記特定の特徴を有する画像との第１類似度が閾値より高いことであり、前記負例画像に対しては前記特定の特徴を有する画像との前記第１類似度が前記閾値以下であることである、
請求項２に記載のプログラム。

【請求項5】

前記ＡＩモデルは、特定の領域を特定する画像接地タスクを処理し、
前記第１テキストは、前記特定の領域を表すクエリであり、
前記回答の期待値は、前記特定の領域の位置を示す座標である、
請求項１に記載のプログラム。

【請求項6】

前記コンピュータを、
前記少なくとも１つの画像と、前記少なくとも１つの画像に付随する第２テキストとをサンプルとして記憶するプロンプトデータセットから、前記第１テキストと前記第２テキストとの第２類似度が高い順にＫ個の前記サンプルを抽出する抽出部と、
前記Ｋ個のサンプルそれぞれについての前記第２類似度に基づき、前記第１テキストと前記プロンプトデータセットとの第３類似度を算出する第２算出部、
として更に機能させ、
前記表示情報は、前記第３類似度を更に含む、
請求項１乃至５のいずれか１項に記載のプログラム。

【請求項7】

前記コンピュータを、
前記少なくとも１つの画像と、前記少なくとも１つの画像に付随する第２テキストとをサンプルとして記憶するサンプル画像データセットから、前記第１テキストと前記第２テキストのとの第２類似度が高い順にＫ個の前記サンプルを抽出する抽出部と、
前記Ｋ個のサンプルそれぞれに含まれる前記第２テキストに基づき、提案テキストを生成する提案部、
として更に機能させ、
前記表示情報は、前記提案テキストを更に含む、
請求項１乃至５のいずれか１項に記載のプログラム。

【請求項8】

前記第１算出部は、前記第１テキストに含まれる単語に応じて、前記少なくとも１つの画像において前記ＡＩモデルによって注目される注目領域を可視化する処理を更に実行し、
前記表示情報は、前記単語の選択に応じて注目される注目領域を、前記少なくとも１つの画像毎に示す情報を更に含む、
請求項１乃至５のいずれか１項に記載のプログラム。

【請求項9】

前記第１算出部は、前記少なくとも１つの画像が処理されるときに、前記第１テキストに含まれる単語のうち、前記ＡＩモデルによって注目される注目単語を可視化する処理を更に実行し、
前記表示情報は、前記注目単語を、前記少なくとも１つの画像毎に示す情報を更に含む、
請求項１乃至５のいずれか１項に記載のプログラム。

【請求項10】

前記コンピュータを、
前記第１テキストに基づき、ネットワークから前記少なくとも１つの画像を検索する検索部、
として更に機能させ、
前記表示情報は、前記少なくとも１つの画像の検索を指示するボタンと、検索された前記少なくとも１つの画像とを更に含む、
請求項１乃至５のいずれか１項に記載のプログラム。

【請求項11】

前記コンピュータを、
前記少なくとも１つの画像を説明するキャプションを生成するキャプショニング部、
として更に機能させ、
前記表示情報は、前記キャプションが付与された少なくとも１つの画像を更に含む、
請求項１乃至５のいずれか１項に記載のプログラム。

【請求項12】

前記コンピュータを、
前記ＡＩモデルから出力された回答と、前記プロンプトに含まれる期待値とから、あらかじめ設定された損失関数によって損失を計算し、前記損失を誤差逆伝搬することで、前記ＡＩモデルを更新する損失計算部、
として更に機能させる請求項１乃至５のいずれか１項に記載のプログラム。

【請求項13】

第１テキストと、前記第１テキストに応じた回答の期待値とを含むプロンプトの入力を受け付ける入力制御部と、
前記第１テキストと、少なくとも１つの画像とが入力されると、前記回答を出力するＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）モデルを使用して、前記少なくとも１つの画像毎に前記回答を予測するＡＩ処理部と、
前記期待値と前記回答とから、前記回答の精度を算出する第１算出部と、
前記プロンプトと前記回答と前記精度とを少なくとも含む表示情報を表示装置に表示する表示制御部と、
を備える情報処理装置。

【請求項14】

情報処理装置が、第１テキストと、前記第１テキストに応じた回答の期待値とを含むプロンプトの入力を受け付けるステップと、
前記情報処理装置が、前記第１テキストと、少なくとも１つの画像とが入力されると、前記回答を出力するＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）モデルを使用して、前記少なくとも１つの画像毎に前記回答を予測するステップと、
前記情報処理装置が、前記期待値と前記回答とから、前記回答の精度を算出するステップと、
前記情報処理装置が、前記プロンプトと前記回答と前記精度とを少なくとも含む表示情報を表示装置に表示するステップと、
を含む情報処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明の実施形態はプログラム、情報処理装置及び情報処理方法に関する。

【背景技術】

【0002】

プロンプトに基づき、ＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）に処理を実行させるプロンプトエンジニアリングが従来から知られている。例えば、画像及びテキストのペアによる大規模事前学習モデルＣＬＩＰ（ＩＣＭＬ２０２１）では、ユーザーにより与えられるプロンプトとの類似度によって任意のクラス識別ができる。プロンプトの与え方によって精度が変わるため、手作業によりプロンプトの調整が行われている。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】Ａ．Ｒａｄｆｏｒｄｅｔａｌ．，“ＬｅａｒｎｉｎｇＴｒａｎｓｆｅｒａｂｌｅＶｉｓｕａｌＭｏｄｅｌｓＦｒｏｍＮａｔｕｒａｌＬａｎｇｕａｇｅＳｕｐｅｒｖｉｓｉｏｎ”，ＩＣＭＬ２０２１，２０２１

【非特許文献2】Ｒ．Ｒ．Ｓｅｌｖａｒａｊｕｅｔａｌ，”Ｇｒａｄ－ＣＡＭ：ＶｉｓｕａｌＥｘｐｌａｎａｔｉｏｎｓｆｒｏｍＤｅｅｐＮｅｔｗｏｒｋｓｖｉａＧｒａｄｉｅｎｔ－ｂａｓｅｄＬｏｃａｌｉｚａｔｉｏｎ”，ＩＣＣＶ２０１７，２０１７

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、従来の技術では、より精度の高いＡＩ処理結果を得るためのプロンプトの調整を効率的に行うことが難しかった。

【課題を解決するための手段】

【0005】

実施形態のプログラムは、コンピュータを、入力制御部とＡＩ処理部と第１算出部と表示制御部として機能させる。入力制御部は、第１テキストと、前記第１テキストに応じた回答の期待値とを含むプロンプトの入力を受け付ける。ＡＩ処理部は、前記第１テキストと、少なくとも１つの画像とが入力されると、前記回答を出力するＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）モデルを使用して、前記少なくとも１つの画像毎に前記回答を予測する。第１算出部は、前記期待値と前記回答とから、前記回答の精度を算出する。表示制御部は、前記プロンプトと前記回答と前記精度とを少なくとも含む表示情報を表示装置に表示する。

【図面の簡単な説明】

【0006】

【図1】第１実施形態の情報処理装置の機能構成の例を示す図。

【図2】第１実施形態の表示情報の例を示す図。

【図3】悪いプロンプトの例を説明するための図。

【図4】良いプロンプトの例を説明するための図。

【図5】第１実施形態の情報処理方法の例を示すフローチャート。

【図6】第１実施形態の変形例１の情報処理装置の機能構成の例を示す図。

【図7】第１実施形態の変形例２の情報処理装置の機能構成の例を示す図。

【図8】第２実施形態の情報処理装置の機能構成の例を示す図。

【図9】第２実施形態の類似度の算出例を示す図。

【図10】第２実施形態の表示情報の例を示す図。

【図11】第３実施形態の情報処理装置の機能構成の例を示す図。

【図12】第３実施形態の質問の候補の提案例を示す図。

【図13】第３実施形態の表示情報の例を示す図。

【図14】第４実施形態の情報処理装置の機能構成の例を示す図。

【図15】第４実施形態の表示情報の例１（画像側で可視化される場合）を示す図。

【図16】第４実施形態の表示情報の例２（テキスト側で可視化される場合）を示す図。

【図17】第５実施形態の情報処理装置の機能構成の例を示す図。

【図18】第５実施形態の表示情報の例１を示す図。

【図19】第５実施形態の表示情報の例２を示す図。

【図20】第６実施形態の情報処理装置の機能構成の例を示す図。

【図21】第６実施形態の表示情報の例を示す図。

【図22】第７実施形態の情報処理装置の機能構成の例を示す図。

【図23】第１乃至第７実施形態の情報処理装置のハードウェア構成の例を示す図。

【発明を実施するための形態】

【0007】

以下に添付図面を参照して、プログラム、情報処理装置及び情報処理方法の実施形態を詳細に説明する。

【0008】

（第１実施形態）
Ｖｉｓｕａｌｑｕｅｓｔｉｏｎａｎｓｗｅｒｉｎｇ（ＶＱＡ）を用いた画像検知、及び、テキストによる画像検索などにおいて、どのようなプロンプトを用いるのかは精度に直結する。第１実施形態では、より良いプロンプトを導くためのプロンプト調整をサポートするＵＩ（ＵｓｅｒＩｎｔｅｒｆａｃｅ）の例について説明する。

【0009】

［機能構成の例］
図１は第１実施形態の情報処理装置１の機能構成の例を示す図である。第１実施形態の情報処理装置１は、入力制御部１１、ＡＩ処理部１２、算出部１３及び表示制御部１４を備える。

【0010】

入力制御部１１は、プロンプトの入力を受け付ける。プロンプトとは、画像及び言語等を処理するＡＩに入力されるテキストである。例えば、プロンプトは、ＡＩへの指示である。具体的には、ＶＱＡの場合は、プロンプトは、画像を検知するＡＩに与える質問（第１テキスト）と、その期待値とを含む。

【0011】

質問は一つでも良いし、二つ以上でも良い。期待値は、ＶＱＡに求める期待回答である。期待値は、質問に対して設定される正解である。文字や回答の表記揺れを考慮して、期待回答は複数設定されてもよい。

【0012】

なお、入力制御部１１は、プロンプトが入力されたときに、他言語に翻訳する機能（例えば、日本語から英語に翻訳する機能）を有していてもよい。

【0013】

入力制御部１１は、ユーザーによって入力された質問を、ＡＩ処理部１２に入力し、ユーザーによって入力された期待値を算出部１３に入力する。

【0014】

ＡＩ処理部１２は、ＡＩモデルのタスク処理を実行する。第１実施形態では、ＡＩモデルのタスクは、画像及び質問が入力されると、質問に応じた適切な回答（画像検知結果）を返すＶＱＡである。

【0015】

ＶＱＡの場合は、プロンプト調整が行われるＡＩモデルのタスクに入力される画像は、正例画像セットと負例画像セットとを含む少数のサンプル画像セット（例えば、５～１０枚の画像）から選択される。正例画像セットは、質問に対する回答として、検知されることが期待される画像群である。負例画像セットは、質問に対する回答として、検知されないことが期待される画像群である。

【0016】

サンプル画像は、例えば、プロンプトを調整するユーザーにより準備され、情報処理装置１の記憶装置に記憶される。

【0017】

算出部１３は、ＡＩ処理部１２による回答の精度を算出する。具体的には、算出部１３は、正例画像に対して、期待回答に含まれる回答が、どのくらいできているかを示す精度を下記により算出する。
正例画像セットに対する精度＝（回答が期待回答に含まれる数）／（正例画像の数）

【0018】

同様に、算出部１３は、負例画像に対して、期待回答に含まれない回答が、どのくらいできているかを示す精度を下記により算出する。
負例画像セットに対する精度＝（回答が期待回答に含まれない数）／（負例画像の数）

【0019】

また、算出部１３は、回答についての全体精度を下記により算出する。
全体精度＝（正例画像の割合）＊（正例画像セットに対する精度）
＋（負例画像の割合）＊（負例画像に対する精度）
ここで、正例画像の割合、及び、負例画像の割合は、下記により算出される。
正例画像の割合＝（正例画像の数）／（正例画像の数＋負例画像の数）
負例画像の割合＝（負例画像の数）／（正例画像の数＋負例画像の数）

【0020】

表示制御部１４は、プロンプト調整をサポートする表示情報を表示装置に表示する。これにより、プロンプト調整の結果をユーザーにフィードバックする。

【0021】

［表示情報の例］
図２は、第１実施形態の表示情報の例を示す図である。第１実施形態の表示情報は、正例画像セット（図２の例では、歩きスマホ画像）、負例画像セット（図２の例では、普通に歩いている画像）、プロンプト、期待値、それぞれの画像での回答、当該回答の正誤判定結果及び精度を含む。

【0022】

図２の例では、ＡＩ処理部１２は、正例を示す４つの正例画像と、負例を示す４つの負例画像とを含む８つの画像の入力を受け付け、ＶＱＡタスクを処理する。表示情報は、４つの正例画像それぞれについての回答と、４つの負例画像それぞれについての回答とを含む。

【0023】

図３は悪いプロンプトの例を説明するための図である。図３の例は、悪いプロンプトの例（”Ｄｏｅｓｔｈｅｐｅｒｓｏｎｐｌａｙｗｉｔｈｔｈｅｐｈｏｎｅｗｈｉｌｅｗａｌｋｉｎｇ？”）が入力された場合の画像検知結果の例を示す。

【0024】

図３の例では、正例画像セットに対する精度＝１．００（１００％）であり、負例画像セットに対する精度＝０．１７（１７％）である。そのため、図３のプロンプトの例では、全体精度＝０．５８（５８％）である。

【0025】

図３の例では、歩きスマホ画像（正例画像）の期待回答はＹｅｓであるところ、歩きスマホ画像６枚中、６枚Ｙｅｓと回答している。しかしながら、普通に歩いている画像（負例画像）の期待回答はＮｏであるところ、普通に歩いている画像６枚中、５枚Ｙｅｓと回答している。そのため、図３のプロンプトは、悪いプロンプトの例である。

【0026】

図４は良いプロンプトの例を説明するための図である。図４の例は、良いプロンプトの例（”Ｉｓｔｈｅｐｅｒｓｏｎｔｅｘｔｉｎｇｗｈｉｌｅｗａｌｋｉｎｇ？”）が入力された場合の画像検知結果の例を示す。

【0027】

図４の例では、正例画像セットに対する精度＝１．００（１００％）であり、負例画像セットに対する精度＝１．００（１００％）である。そのため、図４のプロンプトの例では、全体精度＝１．００（１００％）である。

【0028】

図４の例では、歩きスマホ画像（正例画像）の期待回答はＹｅｓであるところ、歩きスマホ画像６枚中、６枚Ｙｅｓと回答している。また、普通に歩いている画像（負例画像）の期待回答はＮｏであるところ、普通に歩いている画像６枚中、６枚Ｎｏと回答している。そのため、図４のプロンプトは、全て正解しているため、良いプロンプトの例である。

【0029】

なお、図３及び図４の画像検知結果の例では、画像毎のｙｅｓまたはＮｏの回答の後ろに、ＡＩモデルによって出力された予測の確信度を示す数値（例えば、０．６８等）が併記されているが、確信度は、表示されていなくてもよい。

【0030】

［情報処理方法の例］
図５は第１実施形態の情報処理方法の機能構成の例を示す図である。はじめに、ＡＩ処理部１２が、プロンプト調整に使用される画像データとして、上述のサンプル画像セットを取得する（ステップＳ１）。次に、入力制御部１１が、質問と、その回答とを含むプロンプトの入力を受け付ける（ステップＳ２及びＳ３）。

【0031】

次に、ＡＩ処理部１２が、ステップＳ１で取得されたサンプル画像セットに対し、ステップＳ２で入力された質問に対する回答（予測値）を、ＡＩモデルによるタスク処理によって出力する（ステップＳ４）。

【0032】

次に、算出部１３が、ステップＳ４で出力された予測値と、ステップＳ３で入力された期待値とから、精度を算出する。（ステップＳ５）。

【0033】

次に、表示制御部１４が、プロンプト調整をサポートする表示情報（図２参照）を表示装置に表示し（ステップＳ６）、プロンプト調整の結果をユーザーにフィードバックする。

【0034】

ユーザーがプロンプトの改良が必要であると判断した場合、入力制御部１１が、新たなプロンプトの入力をユーザーから受け付けることにより、ステップＳ２～Ｓ６の処理を繰り返す。

【0035】

以上、説明したように、第１実施形態の情報処理装置１では、入力制御部１１が、第１テキスト（第１実施形態では、質問）と、第１テキストに応じた回答の期待値とを含むプロンプトの入力を受け付ける。ＡＩ処理部１２が、第１テキストと、少なくとも１つの画像とが入力されると、回答を出力するＡＩモデルを使用して、少なくとも１つの画像毎に回答を予測する。算出部１３が、期待値と回答とから、回答の精度を算出する。そして、表示制御部１４が、プロンプトと回答と精度とを少なくとも含む表示情報を表示装置に表示する。

【0036】

これにより第１実施形態によれば、より精度の高いＡＩ処理結果を得るためのプロンプトの調整を効率的に行うことができる。

【0037】

（第１実施形態の変形例１）
次に第１実施形態の変形例１について説明する。変形例１の説明では、第１実施形態と同様の説明については省略し、第１実施形態と異なる箇所について説明する。変形例１では、ＡＩモデルのタスクが、テキストによって表現されたクエリによって、当該クエリと類似する画像（特定の特徴を有する画像）を検索する画像検索タスクである場合について説明する。

【0038】

［機能構成の例］
図６は第１実施形態の変形例１の情報処理装置１の機能構成の例を示す図である。変形例１の情報処理装置１は、入力制御部１１、ＡＩ処理部１２、算出部１３及び表示制御部１４を備える。

【0039】

変形例１では、入力制御部１１は、プロンプトとして、特定の特徴を有する画像を検索するクエリ（第１テキスト）の入力を受け付ける。回答の期待値は、正例画像に対しては特定の特徴を有する画像との類似度（第１類似度）が閾値より高いことであり、負例画像に対しては特定の特徴を有する画像との類似度が閾値以下であることである。

【0040】

ＡＩ処理部１２は、画像とクエリとを入力すると、画像とクエリとの類似度を返すＡＩモデルのタスク処理を実行する。クエリとの類似度が高い画像ほど、ＡＩモデルが、当該クエリを表現した画像であると予測した画像であることを示す。

【0041】

算出部１３は、ＡＩ処理部１２により出力された類似度を閾値処理し、閾値より高ければ、当該類似度をｙｅｓに変換し、閾値以下であれば、当該類似度をｎｏに変換する。そして、算出部１３は、正例画像に対して、閾値より高い類似度が出ているか、負例画像に対しては、類似度が閾値以下となっているかを、下記精度によって算出する。
正例画像セットに対する精度＝（ｙｅｓの数）／（正例画像の数）
負例画像セットに対する精度＝（ｎｏの数）／（負例画像の数）

【0042】

また、算出部１３は、類似度についての全体精度を下記により算出する。
全体精度＝（正例画像の割合）＊（正例画像セットに対する精度）
＋（負例画像の割合）＊（負例画像に対する精度）
ここで、正例画像の割合、及び、負例画像の割合は、下記により算出される。
正例画像の割合＝（正例画像の数）／（正例画像の数＋負例画像の数）
負例画像の割合＝（負例画像の数）／（正例画像の数＋負例画像の数）

【0043】

（第１実施形態の変形例２）
次に第１実施形態の変形例２について説明する。変形例２の説明では、第１実施形態と同様の説明については省略し、第１実施形態と異なる箇所について説明する。変形例２では、ＡＩモデルのタスクが、画像に含まれる特定の領域（例えば、特定の対象物を示す領域）をバウンディングボックスなどにより特定する画像接地（ＶｉｓｕａｌＧｒｏｕｎｄｉｎｇ）タスクである場合について説明する。

【0044】

［機能構成の例］
図７は第１実施形態の変形例２の情報処理装置１の機能構成の例を示す図である。変形例２の情報処理装置１は、入力制御部１１、ＡＩ処理部１２、算出部１３及び表示制御部１４を備える。

【0045】

第１実施形態と同様に、サンプル画像が、例えば、プロンプトを調整するユーザーにより準備され、情報処理装置１の記憶装置に記憶される。

【0046】

変形例２では、入力制御部１１は、プロンプトとして、画像接地（ＩｍａｇｅＧｒｏｕｎｄｉｎｇ）に用いられるクエリと期待値との入力を受け付ける。画像接地は、クエリに応じて画像領域を抽出する処理である。

【0047】

クエリは、ユーザーがサンプル画像内から検索したい対象物を表すフレーズなど、特定の領域を表すテキストである。期待値には、各サンプル画像に対してユーザーが探したい対象物の位置を示す座標（特定の領域の位置を示す座標）が指定される。対象物の位置を示す座標は、例えば、バウンディングボックスの領域を表す（左、上、右、下）または（左上、右下）などの数値の組で指定される。

【0048】

ＡＩ処理部１２は、ＡＩモデルのタスク処理を実行する。変形例２では、ＡＩモデルのタスクは、画像及びクエリが入力されると、クエリに応じた適切な座標（画像接地結果）を予測する処理である。

【0049】

算出部１３は、ＡＩ処理部１２により予測された座標の精度を算出する。変形例２では、算出部１３は、ＡＩ処理部１２により予測された座標が、期待値の座標に近いほど、精度を高く算出する。例えば、算出部１３は、ＡＩ処理部１２により予測された座標と、期待値の座標との平均絶対誤差（Ｍｅａｎａｂｓｏｌｕｔｅｅｒｒｏｒ）等を用いて、精度を算出する。

【0050】

（第２実施形態）
次に第２実施形態について説明する。第２実施形態の説明では、第１実施形態と同様の説明については省略し、第１実施形態と異なる箇所について説明する。第２実施形態では、プロンプト自体の質をフィードバックする構成について述べる。なお、第２実施形態では、ＡＩ処理部１２のタスクがＶＱＡタスクである場合について述べるが、その他のタスクでも同様である。

【0051】

［機能構成の例］
図８は第２実施形態の情報処理装置１－２の機能構成の例を示す図である。第２実施形態の情報処理装置１－２は、入力制御部１１、ＡＩ処理部１２、第１算出部１３、表示制御部１４、抽出部１５及び第２算出部１６を備える。第２実施形態では、第１実施形態の構成に、抽出部１５及び第２算出部１６が追加されている。

【0052】

入力制御部１１は、入力された質問を、ＡＩ処理部１２及び抽出部１５に入力し、入力された期待値を算出部１３に入力する。

【0053】

ＡＩ処理部１２及び第１算出部１３は、第１実施形態のＡＩ処理部１２及び算出部１３と同様なので説明を省略する。すなわち、ＡＩモデルで回答を予測し、当該回答の精度を算出する機能は第１実施形態と同様である。

【0054】

ＶＱＡタスクを処理するＡＩモデルは、ＶＱＡデータセットを用いて学習される。ＶＱＡデータセットは、画像群と、当該画像群に付随する質問群とを含む。学習されたＡＩモデルは、ＶＱＡデータセットに含まれる質問であれば上手く回答できるが、ＶＱＡデータセットに含まれない質問については上手く回答できるとは限らない。

【0055】

抽出部１５は、入力制御部１１から入力された質問との類似度が近い順に、Ｋ個のサンプルをＶＱＡデータセットから抽出する（ＴｏｐＫ抽出）。

【0056】

図９は第２実施形態の類似度の算出例を示す図である。類似度の算出方法は色々な方法が考えられる。例えば、抽出部１５は、質問のテキストを固定長のベクトルに変換し（埋め込み）、ＶＱＡデータセットに含まれるサンプルのベクトルと、入力された質問のベクトルとのコサイン類似度を計算する。

【0057】

テキストのベクトルへの変換には、例えば、ＡＩモデルのテキストエンコーダを用いる方法がある。また例えば、Ｂａｇｏｆｗｏｒｄｓ（ＢｏＷ）という方法が、ベクトルへの変換に用いられてもよい。ＢｏＷは、両方のテキストに含まれる全ての単語をリストアップし、それぞれの文章で出現した単語の部分は１、それぞれの文章で出現していない単語の部分は０とすることで、テキストをベクトル化する方法である。

【0058】

図８に戻り、第２算出部１６は、抽出部１５により抽出されたＫ個のサンプルそれぞれの類似度に基づき、質問とＶＱＡデータセットとの類似度を示すスコアを算出する。第２算出部１６は、ＴｏｐＫ抽出に用いられた類似度をそのまま用いても良いし、ＴｏｐＫとは異なる類似度算出方法でスコアを求めても良い。

【0059】

表示制御部１４は、プロンプト調整をサポートする表示情報を表示装置に表示する。

【0060】

［表示情報の例］
図１０は、第２実施形態の表示情報の例を示す図である。第２実施形態の表示情報は、正例画像セット（図１０の例では、歩きスマホ画像）、負例画像セット（図１０の例では、普通に歩いている画像）、プロンプト、期待値、それぞれの画像での回答、当該回答の正誤判定結果、精度及び類似度を含む。第２実施形態では、第２算出部１６により算出されたスコアが、類似度として更に表示されている。

【0061】

以上、説明したように、第２実施形態では、抽出部１５が、少なくとも１つの画像と、少なくとも１つの画像に付随する第２テキストとをサンプルとして記憶するプロンプトデータセット（第２実施形態では、ＶＱＡデータセット）から、プロンプトに含まれる第１テキストと、第２テキストとの類似度（第２類似度）が高い順にＫ個のサンプルを抽出する。第２算出部１６が、Ｋ個のサンプルそれぞれについての類似度に基づき、第１テキストとサンプル画像データセットとの類似度（第３類似度）を算出する。そして、表示情報は、類似度（第３類似度）を更に含む。

【0062】

これにより、第２実施形態によれば、入力された質問（プロンプトの一例）と、ＶＱＡデータセット（プロンプトデータセットの一例）内のサンプルとの類似度を、ユーザーにフィードバックすることができる。

【0063】

（第３実施形態）
次に第３実施形態について説明する。第２実施形態の説明では、第１実施形態と同様の説明については省略し、第１実施形態と異なる箇所について説明する。第３実施形態では、プロンプトの候補を提案する構成について述べる。なお、第３実施形態では、ＡＩ処理部１２のタスクがＶＱＡタスクである場合について述べるが、その他のタスクでも同様である。

【0064】

［機能構成の例］
図１１は第３実施形態の情報処理装置１－３の機能構成の例を示す図である。第３実施形態の情報処理装置１－３は、入力制御部１１、ＡＩ処理部１２、算出部１３、表示制御部１４、抽出部１５及び提案部１７を備える。第３実施形態では、第１実施形態の構成に、抽出部１５及び提案部１７が追加されている。

【0065】

入力制御部１１は、入力された質問を、ＡＩ処理部１２及び抽出部１５に入力し、入力された期待値を算出部１３に入力する。

【0066】

ＡＩ処理部１２及び算出部１３は、第１実施形態のＡＩ処理部１２及び算出部１３と同様なので説明を省略する。すなわち、ＡＩモデルで回答を予測し、当該回答の精度を算出する機能は第１実施形態と同様である。

【0067】

抽出部１５は、入力制御部１１から入力された質問との類似度が近い順に、Ｋ個のサンプルをＶＱＡデータセットから抽出する（ＴｏｐＫ抽出）。

【0068】

提案部１７は、抽出部１５によるＴｏｐＫ抽出の結果に基づき、質問の候補（提案テキスト）を提案する。

【0069】

図１２は第３実施形態の質問の候補の提案例を示す図である。図１２の例は、入力された質問と、ＶＱＡデータセットのサンプルとの類似度が０．２６であるため（所定の閾値より低いため）、ＴｏｐＫ抽出で抽出されたサンプルとの類似度が、より高い質問の候補が提案される場合を示す。

【0070】

なお、例えば、質問の候補は、ＴｏｐＫ抽出で抽出されたサンプルに含まれる質問をそのまま提示する方法（ＶＱＡデータセットに含まれる質問を提示する方法）で提案されてもよい。また例えば、質問の候補は、事前に学習された言語モデルにより、より適切な文に修正された上で提案されてもよい。

【0071】

図１１に戻り、表示制御部１４は、プロンプト調整をサポートする表示情報を表示装置に表示する。

【0072】

［表示情報の例］
図１３は第３実施形態の表示情報の例を示す図である。第３実施形態の表示情報は、正例画像セット（図１３の例では、歩きスマホ画像）、負例画像セット（図１３の例では、普通に歩いている画像）、プロンプト、期待値、それぞれの画像での回答、当該回答の正誤判定結果、精度及び類似度を含む。第３実施形態では、候補表示ボタンが更に表示されている。

【0073】

表示制御部１４は、図１３に示すような、候補表示ボタンが押されると、提案部１７により提案された質問の候補を表示する。

【0074】

以上、説明したように、第３実施形態では、入力された質問（プロンプトの一例）と、ＶＱＡデータセット（プロンプトデータセットの一例）内のサンプルとの類似度に基づき、より適切な質問の候補をユーザーにフィードバックすることができる。

【0075】

（第４実施形態）
次に第４実施形態について説明する。第４実施形態の説明では、第１実施形態と同様の説明については省略し、第１実施形態と異なる箇所について説明する。第４実施形態では、プロンプトに対応する注目領域を画像上に可視化し、当該注目領域に対応するテキストをプロンプト上に可視化する構成について述べる。なお、第４実施形態では、ＡＩ処理部１２のタスクがＶＱＡタスクである場合について述べるが、その他のタスクでも同様である。

【0076】

［機能構成の例］
図１４は第１実施形態の情報処理装置１－４の機能構成の例を示す図である。第１実施形態の情報処理装置１－４は、入力制御部１１、ＡＩ処理部１２、算出部１３及び表示制御部１４を備える。

【0077】

入力制御部１１及びＡＩ処理部１２は、第１実施形態の入力制御部１１及びＡＩ処理部１２と同様なので説明を省略する。

【0078】

算出部１３は、例えばＧｒａｄ－Ｃａｍ（非特許文献２）を使用して、ＡＩモデルによって、注目される注目領域を可視化する。Ｇｒａｄ－Ｃａｍは、ある出力が与えられた時に、画像内のどこに反応したのかを可視化する技術である。ＶＱＡタスクを処理するＡＩモデルでは、画像側で可視化される場合と、質問のテキスト側で可視化される場合の２パターンがあり得る。

【0079】

表示制御部１４は、プロンプト調整をサポートする表示情報を表示装置に表示する。

【0080】

［表示情報の例］
図１５は第４実施形態の表示情報の例１（画像側で可視化される場合）を示す図である。第４実施形態の表示情報は、正例画像セット（図１５の例では、歩きスマホ画像）、負例画像セット（図１５の例では、普通に歩いている画像）、プロンプト、期待値、それぞれの画像での回答、当該回答の正誤判定結果、精度及び類似度を含む。第４実施形態では、画像上の注目領域が可視化される。

【0081】

注目領域は、プロンプトの質問のテキストに含まれる単語に応じて変化する。そのため、表示制御部１４は、例えばマウスを合わせた単語に応じて、画像上の注目領域を表示する。

【0082】

図１６は第４実施形態の表示情報の例２（テキスト側で可視化される場合）を示す図である。図１６の例では、表示制御部１４は、正例画像を対象とするＶＱＡタスクで注目されたプロンプトの質問の注目領域と、負例画像を対象とするＶＱＡタスクで注目されたプロンプトの質問の注目領域と、をそれぞれ可視化する。

【0083】

以上、説明したように、第４実施形態では、算出部１３が、質問（第１テキスト）に含まれる単語に応じて、少なくとも１つの画像においてＡＩモデルによって注目される注目領域を可視化する処理を実行する。表示情報は、単語の選択に応じて注目される注目領域を、少なくとも１つの画像毎に示す情報を更に含む（図１５）。

【0084】

また、算出部１３は、少なくとも１つの画像が処理されるときに、質問（第１テキスト）に含まれる単語のうち、ＡＩモデルによって注目される注目単語を可視化する処理を実行する。表示情報は、注目単語を、少なくとも１つの画像毎に示す情報を更に含む（図「１６）。

【0085】

これにより第４実施形態によれば、ＡＩモデルによって注目される注目領域及び注目単語をユーザーにフィードバックすることができる。

【0086】

（第５実施形態）
次に第５実施形態について説明する。第５実施形態の説明では、第１実施形態と同様の説明については省略し、第１実施形態と異なる箇所について説明する。第５実施形態では、プロンプトのテキストに基づき、インターネット等のネットワークから画像検索してサンプル画像セットを準備する機能について述べる。

【0087】

［機能構成の例］
図１７は５実施形態の情報処理装置１－５の機能構成の例を示す図である。第５実施形態の情報処理装置１－５は、入力制御部１１、検索部１８及び表示制御部１４を備える。なお、図１７の例では、説明の簡略化のため、画像検索に係る機能のみ図示しており、第１乃至第４実施形態で説明したプロンプト調整をサポートする機能（ＡＩ処理部１２及び算出部１３等）については省略されている。

【0088】

入力制御部１１は、ユーザーによって入力されたプロンプトを検索部１８に入力する。

【0089】

検索部１８は、入力されたプロンプトのテキスト（第１テキスト）に基づき、インターネット等のネットワーク２から画像を検索し、当該画像を表示制御部１４に入力する。

【0090】

表示制御部１４は、プロンプト調整のためのサンプル画像セットの準備をサポートする表示情報を表示装置に表示する。

【0091】

［表示情報の例］
図１８は第５実施形態の表示情報の例１を示す図である。図１９は第５実施形態の表示情報の例２を示す図である。

【0092】

図１８の例１では、表示制御部１４は、画像検索（正例）ボタンが押されると、プロンプトのテキストに基づきネットワーク２から画像検索して、結果を正例の表示欄に表示する。同様に、表示制御部１４は、画像検索（負例）ボタンが押されると、プロンプトのテキストに基づきネットワーク２から画像検索して、結果を負例の表示欄に表示する。

【0093】

ユーザーは、画像を変更したい場合には、もう一度、画像検索（正例）ボタンまたは画像検索（負例）ボタンを押せば、正例の表示欄または負例の表示欄に、検索部１８によって再検索された画像が、表示制御部１４により表示される。

【0094】

また、ユーザーは、画像を選択して、画像検索（正例）ボタンまたは画像検索（負例）ボタンを押すことで、選択された画像を変更することもできる（図１９参照）。

【0095】

以上、説明したように、第５実施形態によれば、プロンプト調整のためのサンプル画像セットを準備する手間を軽減させることができる。

【0096】

（第６実施形態）
次に第６実施形態について説明する。第６実施形態の説明では、第１実施形態と同様の説明については省略し、第１実施形態と異なる箇所について説明する。第６実施形態では、サンプル画像セットにキャプショニング（キャプション付け）することで、プロンプト作成の支援をする機能について述べる。

【0097】

［機能構成の例］
図２０は第６実施形態の情報処理装置１－６の機能構成の例を示す図である。第６実施形態の情報処理装置１－６は、キャプショニング部１９及び表示制御部１４を備える。なお、図２０の例では、説明の簡略化のため、キャプショニングに係る機能のみ図示しており、第１乃至第４実施形態で説明したプロンプト調整をサポートする機能（ＡＩ処理部１２及び算出部１３等）については省略されている。

【0098】

キャプショニング部１９は、キャプショニングエンジン（例えば、事前に訓練されたキャプショニングＡＩ）に画像を入力することで、当該画像のキャプションを生成する。画像のキャプションは、画像を説明するテキストである。

【0099】

表示制御部１４は、キャプショニング部１９により生成されたキャプションを含む表示情報を表示する。

【0100】

［表示情報の例］
図２１は第６実施形態の表示情報の例を示す図である。図２１に示すように、それぞれの画像を説明するテキスト（キャプション－１～４）が表示されることによって、ユーザーは当該キャプション－１～４を参考にして、プロンプトを作成または調整できる。

【0101】

以上、説明したように、第６実施形態によれば、サンプル画像セットの画像検知などに、より適切なプロンプトの作成または調整する作業をサポートすることができる。

【0102】

（第７実施形態）
次に第７実施形態について説明する。第７実施形態の説明では、第１実施形態と同様の説明については省略し、第１実施形態と異なる箇所について説明する。第７実施形態では、プロンプト調整だけでは上手く対応できない場合に利用される追加学習の機能について述べる。なお、第７実施形態では、ＡＩ処理部１２のタスクがＶＱＡタスクである場合について述べるが、その他のタスクでも同様である。

【0103】

［機能構成の例］
図２２は第７実施形態の情報処理装置１－７の機能構成の例を示す図である。第７実施形態の情報処理装置１－７は、入力制御部１１、ＡＩ処理部１２及び表示制御部１４を備える。なお、図２２の例では、説明の簡略化のため、追加学習に係る機能を図示しており、第１乃至第４実施形態で説明したプロンプト調整をサポートする機能（算出部１３等）については、プロンプト調整部２１として、まとめて記載されている。

【0104】

入力制御部１１は、ユーザーによって入力された入力された質問を、ＡＩ処理部１２に入力し、ユーザーによって入力された期待値を損失計算部２０に入力する。

【0105】

ＡＩ処理部１２は、質問とサンプル画像セットとをＡＩモデルに入力し、当該ＡＩモデルから出力された予測結果を損失計算部２０に入力する。

【0106】

損失計算部２０は、ＡＩ処理部１２から入力された予測結果（回答）と、入力制御部１１から入力された期待値とから、あらかじめ設定された損失関数によって損失を計算する。損失計算部２０は、得られた損失を誤差逆伝搬することで、ＡＩモデルを更新する。損失関数には、例えばクロスエントロピー等任意の損失関数が用いられる。

【0107】

以上、説明したように、第７実施形態によれば、プロンプト調整では上手く対応できない場合に、ＡＩモデルの追加学習の機能を提供することができる。

【0108】

最後に、第１乃至第７実施形態の情報処理装置１（１－２～１－７）のハードウェア構成の例について説明する。

【0109】

［ハードウェア構成の例］
図２３は、第１乃至第７実施形態の情報処理装置１（１－２～１－７）のハードウェア構成の例を示す図である。情報処理装置１は、プロセッサ２０１、主記憶装置２０２、補助記憶装置２０３、表示装置２０４、入力装置２０５及び通信装置２０６を備える。プロセッサ２０１、主記憶装置２０２、補助記憶装置２０３、表示装置２０４、入力装置２０５及び通信装置２０６は、バス２１０を介して接続されている。

【0110】

なお、情報処理装置１は、上記構成の一部が備えられていなくてもよい。例えば、情報処理装置１が、外部の装置の入力機能及び表示機能を利用可能な場合、情報処理装置１に表示装置２０４及び入力装置２０５が備えられていなくてもよい。

【0111】

プロセッサ２０１は、補助記憶装置２０３から主記憶装置２０２に読み出されたプログラムを実行する。主記憶装置２０２は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）及びＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等のメモリである。補助記憶装置２０３は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）及びメモリカード等である。

【0112】

表示装置２０４は、例えば液晶ディスプレイ等である。入力装置２０５は、情報処理装置１を操作するためのインタフェースである。なお、表示装置２０４及び入力装置２０５は、表示機能と入力機能とを有するタッチパネル等により実現されていてもよい。通信装置２０６は、他の装置と通信するためのインタフェースである。

【0113】

例えば、情報処理装置１で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルで、メモリカード、ハードディスク、ＣＤ－ＲＷ、ＣＤ－ＲＯＭ、ＣＤ－Ｒ、ＤＶＤ－ＲＡＭ及びＤＶＤ－Ｒ等のコンピュータで読み取り可能な記憶媒体に記録されてコンピュータ・プログラム・プロダクトとして提供される。

【0114】

また例えば、情報処理装置１で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。

【0115】

また例えば、情報処理装置１で実行されるプログラムをダウンロードさせずにインターネット等のネットワーク経由で提供するように構成してもよい。具体的には、例えばＡＳＰ（ＡｐｐｌｉｃａｔｉｏｎＳｅｒｖｉｃｅＰｒｏｖｉｄｅｒ）型のクラウドサービスによって構成してもよい。

【0116】

また例えば、情報処理装置１のプログラムを、ＲＯＭ等に予め組み込んで提供するように構成してもよい。

【0117】

情報処理装置１で実行されるプログラムは、上述の機能構成のうち、プログラムによっても実現可能な機能を含むモジュール構成となっている。当該各機能は、実際のハードウェアとしては、プロセッサ２０１が記憶媒体からプログラムを読み出して実行することにより、上記各機能ブロックが主記憶装置２０２上にロードされる。すなわち上記各機能ブロックは主記憶装置２０２上に生成される。

【0118】

なお上述した各機能の一部又は全部をソフトウェアにより実現せずに、ＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）等のハードウェアにより実現してもよい。

【0119】

また複数のプロセッサ２０１を用いて各機能を実現してもよく、その場合、各プロセッサ２０１は、各機能のうち１つを実現してもよいし、各機能のうち２つ以上を実現してもよい。

【0120】

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

【符号の説明】

【0121】

１情報処理装置
２ネットワーク
１１入力制御部
１２ＡＩ処理部
１３算出部（第１算出部）
１４表示制御部
１５抽出部
１６第２算出部
１７提案部
１８検索部
１９キャプショニング部
２０損失計算部
２０１プロセッサ
２０２主記憶装置
２０３補助記憶装置
２０４表示装置
２０５入力装置
２０６通信装置
２１０バス

【図1】