(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2023-12-18
(45)【発行日】2023-12-26
(54)【発明の名称】情報処理方法、プログラム及び情報処理システム
(51)【国際特許分類】
G06N 20/00 20190101AFI20231219BHJP
G06V 10/774 20220101ALI20231219BHJP
【FI】
G06N20/00
G06V10/774
(21)【出願番号】P 2023144890
(22)【出願日】2023-09-06
【審査請求日】2023-09-07
【早期審査対象出願】
(73)【特許権者】
【識別番号】517255566
【氏名又は名称】株式会社エクサウィザーズ
(72)【発明者】
【氏名】小島 啓明
(72)【発明者】
【氏名】佐々木 励
【審査官】牛丸 太希
(56)【参考文献】
【文献】特許第7329293(JP,B1)
【文献】特開2022-35432(JP,A)
【文献】国際公開第2023/153082(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00-99/00
G06V 10/774
(57)【特許請求の範囲】
【請求項1】
情報処理装置が実行する情報処理方法であって、
処理結果における目標に関する情報である目標情報を取得する目標情報取得ステップと、
学習済みモデルからの出力が前記目標情報に関連する前記処理結果となるように当該学習済みモデルへ入力する入力情報を生成する入力情報生成ステップと、
前記目標情報と前記入力情報とを入力した前記学習済みモデルから出力された前記処理結果を評価する評価ステップと、
前記評価ステップにて所定の評価がされた前記処理結果を選択すると共に、選択された前記処理結果から機械学習モデル向けの訓練データセットを作成する訓練データ作成ステップと、
を含む情報処理方法。
【請求項2】
前記訓練データ作成ステップは、前記処理結果について補足情報を生成すると共に、前記入力情報と前記補足情報とを含めて前記訓練データセットを生成する、
請求項1に記載の情報処理方法。
【請求項3】
前記訓練データ作成ステップは、前記処理結果について補足情報を生成すると共に、当該補足情報において前記目標情報と関連性が高いと推定される情報を除いた補足補正情報を含めて前記訓練データセットを生成する、
請求項1に記載の情報処理方法。
【請求項4】
前記訓練データ作成ステップは、前記処理結果について補足情報を生成すると共に、前記処理結果において少なくとも一部と前記目標情報とが所定の一致度に達していない場合に未達情報を加えた補足補正情報を含めて前記訓練データセットを生成する、
請求項1に記載の情報処理方法。
【請求項5】
前記訓練データ作成ステップは、前記入力情報が同一の複数の前記処理結果に対して共通の所定情報を含む補足情報を生成すると共に、当該補足情報を含めて前記訓練データセットを生成する、
請求項1に記載の情報処理方法。
【請求項6】
前記目標情報取得ステップにおいて、前記処理結果に対する要望を含む情報である要望情報を取得すると共に、当該要望情報に関連した複数のトピック及び当該トピックに関連した情報の少なくとも一方を生成して選択可能に出力し、選択された当該トピック及び当該トピックに関連した情報の少なくとも一方を前記目標情報として取得する、
請求項1に記載の情報処理方法。
【請求項7】
前記入力情報生成ステップにおいて、コーパスを用いて前記入力情報を生成する、
請求項1に記載の情報処理方法。
【請求項8】
前記入力情報生成ステップにおいて、生成された複数の前記入力情報を所定の基準に基づいてクラスタリングすると共に、
前記評価ステップにおいて、クラスタ毎の前記入力情報に基づいて評価を行う、
請求項1に記載の情報処理方法。
【請求項9】
前記評価ステップにおいて、前記目標情報及び前記入力情報の少なくとも一方と前記処理結果とを入力すると前記処理結果に対して所定の基準によって評価された評価結果を出力するよう学習された評価用学習済みモデルを用いて評価を行う、
請求項1に記載の情報処理方法。
【請求項10】
情報処理装置に、
処理結果における目標に関する情報である目標情報を取得する目標情報取得ステップと、
学習済みモデルからの出力が前記目標情報と一致する前記処理結果となるように当該学習済みモデルへ入力する入力情報を生成する入力情報生成ステップと、
前記入力情報と、前記入力情報を入力したことで前記学習済みモデルから出力された前記処理結果とを評価する評価ステップと、
前記評価ステップにて所定の評価がされた前記処理結果を選択すると共に、選択された前記処理結果から機械学習モデル向けの訓練データセットを作成する訓練データ作成ステップと、
を含む情報処理方法を実行させるためのプログラム。
【請求項11】
情報処理装置が実行する情報処理システムであって、
処理結果における目標に関する情報である目標情報を取得する目標情報取得ステップと、
学習済みモデルからの出力が前記目標情報と一致する前記処理結果となるように当該学習済みモデルへ入力する入力情報を生成する入力情報生成ステップと、
前記入力情報と、前記入力情報を入力したことで前記学習済みモデルから出力された前記処理結果とを評価する評価ステップと、
前記評価ステップにて所定の評価がされた前記処理結果を選択すると共に、選択された前記処理結果から機械学習モデル向けの訓練データセットを作成する訓練データ作成ステップと、
を行う情報処理システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理方法、プログラム及び情報処理システムに関する。
【背景技術】
【0002】
特許文献1には、機械学習モデルの学習(訓練)に用いる訓練データを生成する情報処理方法が開示されている。この情報処理方法は、予め定められたルールで入力画像を変更し、変更画像を生成する。すなわち、複数の画像データベースから画像の部品を選択し、それらを組み合わせて複合画像(学習用入力画像)を生成し、特定のパーツ画像から学習用変更画像を生成することで、訓練データを大量に生成する。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、訓練データにより訓練された機械学習モデルである学習済みモデル(以下、単に「学習済みモデル」と称する。)の出力を目標となる特定の様式に統一したい場合、学習済みモデルの学習(再学習含む)やファインチューニングによってこれを行うが、特定の様式の情報を含む訓練データが必要となる。この場合、特定の様式の情報を含むことで訓練データの内容に偏りが生じて学習済みモデルの出力結果から多様性が失われる可能性があり、この点で改善の余地がある。
【0005】
本発明は、上記事実を考慮し、学習済みモデルからの出力結果が多様性を有しながら目標となる様式に沿って出力されるための訓練データを得ることを目的とする。
【課題を解決するための手段】
【0006】
一実施形態に係る情報処理方法によれば、情報処理装置が実行する情報処理方法であって、処理結果における目標に関する情報である目標情報を取得する目標情報取得ステップと、学習済みモデルからの出力が前記目標情報と一致する前記処理結果となるように当該学習済みモデルへ入力する入力情報を生成する入力情報生成ステップと、前記入力情報と、前記入力情報を入力したことで前記学習済みモデルから出力された前記処理結果とを評価する評価ステップと、前記評価ステップにて所定の評価がされた前記処理結果を選択すると共に、選択された前記処理結果から機械学習モデル向けの訓練データセットを作成する訓練データ作成ステップと、を含む。
【0007】
一実施形態に係るプログラムによれば、情報処理装置に、処理結果における目標に関する情報である目標情報を取得する目標情報取得ステップと、学習済みモデルからの出力が前記目標情報と一致する前記処理結果となるように当該学習済みモデルへ入力する入力情報を生成する入力情報生成ステップと、前記入力情報と、前記入力情報を入力したことで前記学習済みモデルから出力された前記処理結果とを評価する評価ステップと、前記評価ステップにて所定の評価がされた前記処理結果を選択すると共に、選択された前記処理結果から機械学習モデル向けの訓練データセットを作成する訓練データ作成ステップと、を含む情報処理方法を実行させる 。
【0008】
一実施形態に係る情報処理システムによれば、情報処理装置が実行する情報処理システムであって、処理結果における目標に関する情報である目標情報を取得する目標情報取得ステップと、学習済みモデルからの出力が前記目標情報と一致する前記処理結果となるように当該学習済みモデルへ入力する入力情報を生成する入力情報生成ステップと、前記入力情報と、前記入力情報を入力したことで前記学習済みモデルから出力された前記処理結果とを評価する評価ステップと、前記評価ステップにて所定の評価がされた前記処理結果を選択すると共に、選択された前記処理結果から機械学習モデル向けの訓練データセットを作成する訓練データ作成ステップと、を行う。
【発明の効果】
【0009】
一実施形態によれば、学習済みモデルからの出力結果が多様性を有しながら目標となる様式に沿って出力されるための訓練データを得ることができる。
【図面の簡単な説明】
【0010】
【
図1】実施形態に係る情報処理システムの構成の一例を示す図である。
【
図2】実施形態に係るサーバのハードウェア構成の一例を示す図である。
【
図3】実施形態に係るサーバの機能構成の一例を示す図である。
【
図4】実施形態に係る情報処理システムの処理の流れの一例を示す図である。
【
図5】実施形態に係る情報処理システムが実行する処理の一例を示すフローチャートである。
【
図6】実施形態に係る目標情報取得ステップでの処理の流れの一例を示す図である。
【
図7】実施形態に係る情報処理システムが実行する際の画面表示の一例である。
【
図8】実施形態に係る情報処理システムが実行する際の画面表示の一例である。
【
図9】変形例に係る目標情報取得ステップでの処理の流れの一例を示す図である。
【発明を実施するための形態】
【0011】
以下、
図1~
図8を用いて、本発明に係る情報処理システムの一実施形態について説明する。なお、各図において同一又は等価な構成要素及び部分には同一の参照符号を付与している。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。
【0012】
(システム概要)
まず、本実施形態に係る情報処理システム10の概要について説明する。本実施形態に係る情報処理システム10は、特定の目標に向けた目標情報を取得し、それを基に学習済みモデルへの入力情報を生成し、当該学習済みモデルからの出力である処理結果を評価し、評価結果に基づいて前述した学習済みモデルとは別の機械学習モデル向けの訓練データを作成するという一連のプロセスを自動で実行するシステムである。本実施形態では、一例として、情報処理システム10は目標情報として画像のスタイル(画風)に関する情報(以下、単に「スタイル情報」と称する。)を取得すると、当該スタイル情報に沿った画像を機械学習モデルが生成することができるように当該機械学習モデルを訓練するための訓練データセットを自動で作成する情報処理システムである。作成される訓練データセットは、機械学習モデルの学習やファインチューニングのために使用される。なお、訓練データセットは、処理結果を出力する学習済みモデルとは別の機械学習モデル向けのものとされているが、これに限らず、当該学習済みモデル向けのものとして作成してもよい。
【0013】
(システム構成)
図1は、本実施形態に係る情報処理システム10の構成の一例を示す図である。
図1に示すように、本実施形態に係る情報処理システム10は、ネットワークNを介して相互に通信可能に接続された、利用者端末12と、サーバ14と、を備える。ネットワークNは、例えば、有線LAN(Local Area Network)、無線LAN、インターネット、公衆回線網、モバイルデータ通信網、又はこれらの組み合わせである。
【0014】
利用者端末12は、ユーザUにより各種情報の入力及び表示のための操作を行う情報処理装置の一例である。利用者端末12は、PC(Personal Computer)、スマートフォン、タブレット端末、サーバ装置、マイクロコンピュータ、ウェアラブルデバイス、又はこれらの組み合わせであってもよい。
【0015】
サーバ14は、利用者端末12から入力された情報を取得し、当該情報を基に処理を行い結果を出力する情報処理装置の一例である。サーバ14は、PC(Personal Computer)、スマートフォン、タブレット端末、サーバ装置、マイクロコンピュータ、又はこれらの組み合わせであってもよい。サーバ14の具体的な構成及び作用については、後述する。
【0016】
(ハードウェア構成-サーバ)
図2は、サーバ14のハードウェア構成を示すブロック図である。サーバ14は、バスBを介して相互に通信可能に接続された、プロセッサ20と、メモリ22と、ストレージ24と、通信I/F26と、を備える。
【0017】
プロセッサ20は、ストレージ24に記憶された各種プログラムをメモリ22に展開して実行することにより、サーバ14の各構成を制御し、サーバ14の機能を実現する。プロセッサ20が実行するプログラムは、OS(Operating System)及び後述するプログラム32を含むが、これに限られない。プロセッサ20がこれらプログラムを実行することにより、本実施形態に係る状態可視化方法の一部が実現される。プロセッサ20は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)、ASIC(Application Specific Integrated Circuit)、DSP(Digital Signal Processor)、又はこれらの組み合わせである。
【0018】
メモリ22は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、又はこれらの組み合わせである。ROMは、例えば、PROM(Programmable ROM)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、又はこれらの組み合わせである。RAMは、例えば、DRAM(Dynamic RAM)、SRAM(Static RAM)、MRAM(Magnetoresistive RAM)、又はこれらの組み合わせである。
【0019】
ストレージ24は、OS、後述する各種プログラム、及び各種のデータを記憶する。ストレージ24は、例えば、フラッシュメモリ、HDD(Hard Disk Drive)、SSD(Solid State Drive)、SCM(Storage Class Memories)、又はこれらの組み合わせである。
【0020】
通信I/F26は、サーバ14を、ネットワークNを介して、利用者端末12や撮影装置16を含む外部装置に接続し、通信を制御するためのインタフェースである。通信I/F26は、例えば、Bluetooth(登録商標)、Wi-Fi(登録商標)、ZigBee(登録商標)、Ethernet(登録商標)、又は光通信(例えば、Fibre Channel)に準拠したアダプタであるが、これに限られない。
【0021】
なお、利用者端末12のハードウェア構成については、上述したサーバ14のハードウェア構成と略同一の構成とされているため、詳細な説明については省略する。
【0022】
(機能構成-サーバ)
次に、サーバ14の機能構成について説明する。
図3は、サーバ14の機能構成の一例を示す図である。各種プログラムを実行する際に、サーバ14は上記のハードウェア資源を用いて、各種の機能を実現する。サーバ14は、サーバ14が実現する機能構成として、記憶部30と、処理部40と、通信部60と、を有している。各機能構成は、プロセッサ20がメモリ22又はストレージ24に記憶されたプログラム32を読み出し、実行することで実現される。
【0023】
通信部60は、通信I/F26により実現される。通信部60は、ネットワークNを介して、利用者端末12との間で情報の送受信を行う。通信部60は、利用者端末12から入力された情報を受信する。また、通信部60は、利用者端末12に対して情報を送信し、利用者端末12からユーザUによるリクエストを受信する。
【0024】
記憶部30は、メモリ18及びストレージ24により実現される。記憶部30には、プログラム32と、学習済みモデル34と、結果DB36と、が格納される。
【0025】
学習済みモデル34は、複数の学習済み機械学習モデルにより構成されている。具体的には、言語モデルと、画像モデルと、画像キャプションモデルと、評価用学習済みモデルとしての評価モデルと、を含んで構成されている。言語モデルは、一例として、大規模言語モデルとされ、インターネット上の記事、書籍及びウェブサイトなどからの大量のテキストデータを学習させたモデルとされており、プロンプトと称されるテキストデータを入力すると、プロンプトに応じたテキストデータを生成し出力する。本実施形態の学習済みモデル34における言語モデルは、取得した目標情報を基にコーパスを用いてプロンプトに相当する短文を生成する。また、当該言語モデルは、取得した処理結果を基に補足情報、補足補正情報となるテキストデータを生成する(詳細は後述する)。
【0026】
画像生成モデルは、一例として、大量の画像データを学習させたモデルとされており、プロンプトを入力すると、プロンプトに応じた画像データを生成し出力する。本実施形態の学習済みモデル34における画像生成モデルは、目標情報を基に画像を生成し出力する(詳細は後述する)。
【0027】
画像キャプションモデルは、一例として、画像データとテキストデータとの間の意味的な関連性を学習させたモデルとされており、画像データを入力すると、画像データに応じたテキスト(キャプション)データを生成し出力する。
【0028】
評価モデルは、一例として、強化学習の一種とされ、テキストデータから画像生成モデルにより生成された画像データの出来栄えに対する人間の評価基準を学習させたモデルとされている。具体的な例として、イラスト風の画像を出力するように指示したテキストデータに対して、実写のような画像データが生成された場合に、意図した出来栄えではないと判定して当該画像データに対して低い評価を出力する。なお、本実施形態では、上述した学習済みモデル34を構成するそれぞれのモデルは、記憶部30に格納された構成とされているが、これに限らず、少なくとも一つのモデルが外部に格納され通信可能に情報処理システム10と接続されたものであってもよい。
【0029】
結果DB36は、これまでに情報処理システム10にて取得された情報や処理が実行された結果に関する情報が格納されるデータベースである。結果DB36は、例えば、これまでに取得した目標情報、入力情報、評価結果、訓練データセットが互いに紐付けられて格納されている。
【0030】
処理部40は、プロセッサ20がメモリ22(
図2参照)からプログラム32を読み出して実行し、他のハードウェア構成と協働することにより実現される。処理部40は、要望情報取得部42と、トピック生成部44と、目標情報取得部46と、入力情報生成部48と、評価部50と、訓練データ作成部52と、出力部54と、を備える。
【0031】
要望情報取得部42は、処理結果に関する要望に関する情報である要望情報を取得する(
図4におけるB1のAに相当)。この要望情報は、利用者が利用者端末12にて入力したプロンプトに相当し、利用者が情報処理システム10を通して得たい処理結果に関する要望の少なくとも一部を表したテキストデータとされている。一例として、利用者が柔らかい印象を受ける画風の画像を出力する学習済みモデルを得るための訓練データセットを必要とする場合、利用者は要望情報として「ほんわかしたイラストの例を挙げてください」とテキストデータPT(
図7参照)にて入力することで、要望情報取得部42はテキストデータPTを要望情報として取得し、結果DB36へ格納する。
【0032】
トピック生成部44は、
図6に示されるように、取得した要望情報を基に当該要望情報に関連した複数のトピックTP及び当該トピックに関連した情報(画像IG)の少なくとも一方を生成する(
図4におけるB1のB、Cに相当)。すなわち、トピック生成部44は、言語モデルに対して要望情報に関連した情報を出力する旨のプロンプトを入力することで、要望情報に関連した情報であるテキストデータを生成する。また、トピック生成部44は、画像生成モデルに対して要望情報や前述した要望情報に関連したテキストデータに対応する画像を出力する旨のプロンプトを入力することで、トピックに関連した情報としての画像を生成可能とされている。一例として、「ほんわかしたイラストの例を挙げてください」という要望情報に対して、トピック生成部44は、「ほんわかしたイラスト」に関連したトピックとして「カフェでくつろぐ女の子たち」や「幻想的な水中世界に棲むマーメイド」といったテキストデータTPを出力する(
図7参照)。また、トピック生成部44は、これらトピックに関連した画像として、「カフェでくつろぐ女の子たち」や「幻想的な水中世界に棲むマーメイド」を表す生成画像IG(
図8参照)を生成する。
【0033】
目標情報取得部46は、トピック生成部44が生成したトピック及びトピックに関連した情報の少なくとも一方を選択可能に出力すると共に、選択された情報を目標情報として取得する(
図4におけるB1のDに相当)。すなわち、目標情報取得部46は、
図7に示されるように、トピック及びトピックに関連した情報としてトピックをプロンプトとする生成画像IG(
図8参照)の少なくとも一方を利用者端末12へ選択可能に出力すると共に、利用者端末12にて利用者が選択した結果に関する情報を取得して、選択された生成画像IG及び当該生成画像IGに対応するトピックの少なくとも一方を目標情報として取得し結果DB36へ格納する。一例として、トピックとしての「カフェでくつろぐ女の子たち」及び「幻想的な水中世界に棲むマーメイド」というテキストデータのうち、「カフェでくつろぐ女の子たち」のトピックのみが選択された場合、「カフェでくつろぐ女の子たち」というテキストデータが目標情報に設定される。また、この「カフェでくつろぐ女の子たち」というトピックに関連した画風が異なる複数の生成画像IGのうち、
図8の選択入力部SBを用いて特定の画風の画像がユーザUにより選択された場合は、当該選択された画像自体及び画風の情報(スタイル情報)の少なくとも一方が目標情報に設定される。なお、ここで「画風」とは、画像のスタイルをいい、一例として、リアリズム、インプレッショニズム、ポップアート等といったものや、イラスト風、漫画風、劇画風、影絵等多様なスタイルが含まれる。また、選択されたトピック及びトピックに関連した情報としての生成画像IGを目標情報として取得する構成とされているが、これに限らず、トピックのみや生成画像IGのみを目標情報として取得してもよい。
【0034】
入力情報生成部48は、コーパスを作成する(
図4におけるB2のAに相当、詳細は後述)と共に、取得した目標情報に関連する処理結果を得るための入力情報であるプロンプトを生成する(
図4におけるB2のBに相当)。すなわち、入力情報生成部48は、学習済みモデル34における画像生成モデルからの出力(換言すると処理結果)が目標情報に関連するものとなるようなプロンプトを生成する。入力情報生成部48は、要望情報を基にプロンプトを生成してもよいし、目標情報を基にプロンプトを生成してもよい。また、入力情報生成部48は、コーパスを用いてプロンプトを生成する。すなわち、入力情報生成部48は、特定の目的のために収集及び整理された言語のデータセットであるコーパスを作成し、当該コーパスから、名詞、形容詞及び動詞の少なくとも一方をランダムサンプリングしてプロンプトとなる短文を生成する。このコーパスでは、一例として、平易な単語に限ったものとされ、具体的には、CEFR(Common European Framework of Reference for Languages)におけるA1又はA2レベルとされている。なお、コーパスは新たに作成したものに限らず、WordNetなど既存の言語データベースを用いてもよい。
【0035】
また、入力情報生成部48は、生成した複数のプロンプトを所定の基準に基づいてクラスタリングする(
図4におけるB2のCに相当)。一例として、入力情報生成部48は、生成した複数のプロンプトのそれぞれについて数値のベクトルに変換、つまり高次元のベクトル空間にマッピングすると共に、互いの位置関係が所定の基準以下にあるプロンプト(換言すると位置関係が近いことから類似の意味を持つプロンプト)同士を同一のクラスとなるようにクラスタリングを行う。
【0036】
評価部50は、目標情報と入力情報とを入力することで学習済みモデル34から処理結果を出力すると共に、処理結果を評価する。すなわち、評価部50は、目標情報及び入力情報を取得し(
図4におけるB3のAに相当)、取得したこれらの情報を学習済みモデル34における画像生成モデルに入力することで、画像生成モデルにより目標情報に沿った画像データを生成する(
図4におけるB3のBに相当)。この画像データは、目標情報から得られる画風の情報と、画像の内容を表す入力情報とに基づいて、画風及び内容がマッチする画像のデータとされている。なお、評価部50は、入力情報生成部48にてクラスタリングされたクラス毎に画像データを生成し出力する。また、評価部50が生成する画像データは、目標情報と入力情報とに完全に一致するものとは限らず、少なくとも一部が目標情報及び入力情報の少なくとも一方に一致または類似するものとされている。
【0037】
また、評価部50は、生成された画像データが目標情報及び入力情報に対してどのような出来栄えなのか評価を行う(
図4におけるB3のCに相当)。すなわち、評価部50は、学習済みモデル34の評価モデルを用いて生成された画像データに対する評価を行う。
【0038】
訓練データ作成部52は、評価部50にて所定の評価がされた画像データから外部の機械学習モデル(不図示)向けの訓練データセットを作成する。具体的には、評価部50は、クラスタリングされたクラス毎に生成した複数の画像データのうち、所定の評価として評価スコア(一例として、目標情報や入力情報に沿った画像であればあるほど高く評価されるように定量化したスコア)が最も高い画像データと当該画像データに対応する入力情報(プロンプト)を取得し(
図4におけるB4のAに相当)、取得した情報から処理を行って訓練データセットを作成する。
【0039】
すなわち、訓練データ作成部52は、補足情報としてのキャプション及び補足補正情報を生成し(
図4におけるB4のB、Cに相当)、前述の画像データに対してこれに対応する入力情報、補足情報及び補足補正情報を含めて訓練データセットを作成する。すなわち、訓練データ作成部52は、評価部50にて所定の評価がされた画像データを入力として画像キャプションモデルから生成されるテキストデータ(キャプション)を補足情報として当該補足情報も含めて訓練データセットを作成する。一例として、画像データが「リビングルームでくつろぎながら談笑する家族のイラスト」である場合、訓練データ作成部52は、当該画像データから補足情報として「家族がソファに座っている」、「漫画風かつテーブルを囲む家族」、「リビングに座っている家族のイラスト」等のキャプションを生成する。なお、訓練データ作成部52は、入力情報と補足情報を言語モデル等を用いて一つの文章に結合し、結合結果である文章を含めて訓練データを作成する。また、訓練データ作成部52は、複数の画像データが同一の入力情報及び目標情報の少なくとも一方を基に生成されたものである場合、共通の所定情報を含む補足情報を生成する。一例として、訓練データ作成部52は、複数の画像データが同一の入力情報を基に生成されたものである場合、各画像データに対して「Aスタイル」という共通の補足情報を言語モデル等を利用して生成し紐付けを行う。
【0040】
さらに、訓練データ作成部52は、生成した補足情報が目標情報と関連性が高いと推定される情報がある場合には当該関連情報を削除して生成する補足補正情報も含めて訓練データセットを作成する。一例として、目標情報が「ほんわかしたイラスト」である場合、当該入力情報を基に生成された画像に対する補足情報は「漫画風かつテーブルを囲む家族」、「リビングに座っている家族のイラスト」等のキャプションとなる。この場合、目標情報における「イラスト」と、補足情報における「漫画風」や「イラスト」とが関連性の高い情報となるため、訓練データ作成部52はこれら関連性の高い情報を削除した「テーブルを囲む家族」、「リビングに座っている家族」との補足補正情報を生成してこれを含めた訓練データセットを作成する。換言すると、目標情報として取得したスタイル情報に紐付くのが容易な情報である関連情報を削除した補足補正情報を生成してこれを含めた訓練データセットを作成する。なお、この関連性の程度については、当該関連性を判定する学習済みモデルを用いて所定の基準以上か否かにより判定してもよいし、ルールベースにより予め情報間の関連性を所定の基準以上か否かにより判定してもよいし、それ以外のものでもよい。
【0041】
さらにまた、訓練データ作成部52は、生成された画像データの少なくとも一部と、入力情報とがどの程度一致しているか言語モデルや評価モデル等を用いて判定を行うと共に、所定の一致度に達していない場合に、一致していないことを表す未達情報を加えた補足補正情報も含めて訓練データセットを作成する。一例として、「リビングルームでくつろぎながら談笑する家族」という入力情報に対して、生成された画像データのうち家族を構成する人物の顔に相当する部分が、「家族」という入力情報に対しどの程度一致しているか否か、換言すると画像データのうち家族を構成する人物の顔が人物の顔として認識できるか否かを判定する。そして、判定結果が所定の一致度として「人物の顔として自然」を満たさない場合は、顔が入力情報にて要求されるレベルを満たしていないとして「bad face」という未達情報を加えた補足補正情報を含めて訓練データセットを作成する。つまり、未達情報は、処理結果が入力情報に対して出来の悪い箇所及び内容の少なくとも一方を表す情報である。
【0042】
出力部54は、訓練データ作成部52が訓練データセットを作成完了した段階で利用者端末12からの訓練データセットのダウンロード要求情報を取得すると、訓練データセットを利用者端末12へ送信する(
図4におけるB4のDに相当)。
【0043】
(情報処理システムが実行する処理)
次に、情報処理システム10の作用について説明する。
図5は、情報処理システム10による処理の流れの一例を示すフローチャートである。プロセッサ20がストレージ24に記憶されたプログラム32を読み出して、メモリ22に展開して実行することにより、処理が行われる。なお、図示しないが、プロセッサ20は、情報処理システム10の作動終了操作情報、又は実行中の判定処理において利用者端末12より操作終了の情報(これらを単に「終了操作」と称する)を受信した場合は、処理中のプログラム32に基づく処理を終了する。
【0044】
プロセッサ20は、利用者端末12から要望情報が入力されたか否かを判定する(ステップS100)。要望情報が入力されていない場合(ステップS100:NO)、プロセッサ20は、ステップS100の処理を繰り返す。一方、要望情報が入力された場合(ステップS100:YES)、プロセッサ20は、要望情報を取得し(ステップS102)、要望情報からトピックを生成する(ステップS104、
図7参照)と共にトピックに関連した情報である画像を生成する(ステップS106)。
【0045】
プロセッサ20は、生成されたトピック及びトピックに関連した画像について利用者端末12へ選択可能に送信する(
図8参照)と共に、利用者端末12にて選択されたか否かを判定する(ステップS108)。選択されていない場合(ステップS108:NO)、プロセッサ20は、ステップS106へ処理を移行する。一方、選択されている場合(ステップS108:YES)、プロセッサ20は、選択されたトピック及びトピックに関連した画像の少なくとも一方を目標情報として取得する(ステップS110)。
【0046】
プロセッサ20は、コーパスから入力情報を生成する(ステップS112)と共に、当該入力情報をクラスタリングする(ステップS114)。そして、プロセッサ20は、クラス毎の入力情報と、目標情報とを基に画像を生成し(ステップS116)、生成された画像に対して評価を行う(ステップS118)。
【0047】
プロセッサ20は、画像に対して所定の評価がされたか否かを判定する(ステップS120)。所定の評価がされていない場合(ステップS120:NO)、プロセッサ20は、ステップS116の処理へ移行する。一方、所定の評価がされた場合(ステップS120:YES)、プロセッサ20は、当該画像に対応した補足情報を生成する(ステップS124)。
【0048】
プロセッサ20は、補足情報に目標情報と関連性が高いと推定される情報があるか否かを判定する(ステップS126)。関連性が高いと推定される情報がない場合(ステップS126:NO)、プロセッサ20は、後述するステップS130へ処理を移行する。一方、関連性が高いと推定される情報がある場合(ステップS126:YES)、プロセッサ20は、補足情報に対して関連性が高いと推定される情報を削除した補足補正情報を生成する(ステップS128)。
【0049】
プロセッサ20は、画像データの少なくとも一部と、入力情報との一致度が所定以上か否かを判定する(ステップS130)。所定の一致度以上である場合(ステップS130:YES)、プロセッサ20は、後述するステップS134へ処理を移行する。一方、所定の一致度以上ではない場合(ステップS130:NO)、プロセッサ20は、未達情報を補足情報に追加する(ステップS132)。
【0050】
プロセッサ20は、処理結果について、入力情報が共通の複数の画像データか否かを判定する(ステップS134)。処理結果について入力情報が共通ではない場合(ステップS134:NO)、プロセッサ20は、後述するステップS138へ処理を移行する。一方、処理結果について入力情報が共通である場合(ステップS134:YES)、プロセッサ20は、共通の補正情報を生成してこれを先に生成した補正情報に追加する(ステップS136)。
【0051】
プロセッサ20は、画像データに対してこれに対応する入力情報、補足情報及び補足補正情報を含めて訓練データセットを作成する(ステップS138)と共に、出力要求があった際にはこれを出力し(ステップS140)、処理を終了する。
【0052】
(本実施形態の作用効果)
本実施形態に係る情報処理システム10によれば、処理結果における目標に関する情報である目標情報を取得する目標情報取得ステップと、学習済みモデルからの出力が目標情報に関連する処理結果となるように当該学習済みモデル34へ入力する入力情報を生成する入力情報生成ステップと、目標情報と入力情報とを入力することで学習済みモデル34から出力された処理結果を評価する評価ステップと、評価ステップにて所定の評価がされた処理結果を選択すると共に、選択された処理結果から機械学習モデル向けの訓練データセットを作成する訓練データ作成ステップと、を行う。すなわち、処理結果における目標情報を取得すると、当該目標情報に関連する処理結果となる入力情報(プロンプト)を生成し、当該プロンプトによって得られる処理結果を評価し評価結果から訓練データセットに用いる処理結果を選択することから、目標情報に沿った処理結果を得ることができる。また、目標情報から直接処理結果を生成するのではなく、目標情報に関連する処理結果となるようにプロンプトを生成し、当該プロンプトにより生成された処理結果を用いることから、プロンプトから解釈し得る多様な処理結果を得ることができる。つまり、学習済みモデルからの出力結果が多様性を有しながら目標となる様式に沿って出力されるための訓練データを得ることができる。また、別の視点から捉えると、ユーザUは目標情報を入力することで、ユーザUが手元に訓練データを持っていない場合でも目標情報から生成される一連の情報に基づいて訓練データを得ることができる。
【0053】
また、訓練データ作成ステップは、処理結果についてテキストデータによる補足情報を生成すると共に、入力情報と補足情報とを含めて訓練データセットを生成することから、実際に生成された画像データに対して入力情報以外に更なる情報を補足情報にて持たせることが可能となる。つまり、補足情報を追加することで画像データとテキストデータとの間に発生する曖昧さを低減させた訓練データセットを作成することが可能となる。これにより、当該訓練データセットにて訓練することで、高い確率で望んだ結果が出力される機械学習モデルを得ることができる。
【0054】
さらに、訓練データ作成ステップにおいて、訓練データ作成部52は、入力情報と補足情報を言語モデル等を用いて一つの文章に結合し、結合結果である文章を含めて訓練データを作成することから、画像データと、入力情報及び補足情報との間に発生する曖昧さを低減させた訓練データセットを作成することが可能となる。これにより、当該訓練データセットにて訓練することで、より高い確率で望んだ結果が出力される機械学習モデルを得ることができる。
【0055】
さらにまた、訓練データ作成ステップは、処理結果について補足情報を生成すると共に、当該補足情報において目標情報と関連性が高いと推定される情報を除いた補足補正情報を含めて訓練データセットを生成することから、目標情報と実際に生成された画像データとが紐付いて学習されるのを抑制することができる。つまり、目標情報を入力すると、特定の画像データだけが偏って出力されることを抑制することができる。これにより、出力結果に多様性を持たせた機械学習モデルを得るための訓練データセットを得ることができる。
【0056】
また、訓練データ作成ステップは、処理結果について補足情報を生成すると共に、処理結果において少なくとも一部と目標情報とが所定の一致度に達していない場合に未達情報を加えた補足補正情報を含めて訓練データセットを生成することから、未達情報を含めて機械学習モデルを訓練させることができる。これにより、望まない結果の出力が抑制される機械学習モデルを得るための訓練データセットを得ることができる。
【0057】
さらに、訓練データ作成ステップは、入力情報が同一の複数の処理結果について共通の所定情報を含む補足情報を生成すると共に、当該補足情報を含めて訓練データセットを生成する。したがって、一つの入力情報に対して内容が異なる複数の処理結果が生成された場合であっても関連した処理結果であると判定できるので、当該訓練データセットを学習させた機械学習モデルの出力結果に更なる多様性を持たせることができる。
【0058】
さらにまた、目標情報取得ステップにおいて、処理結果に関する要望に関する情報である要望情報を取得すると共に、当該要望情報に関連した複数のトピック及び当該トピックに関連した情報の少なくとも一方を生成して選択可能に出力し、選択された当該トピックを目標情報として取得する。したがって、目標情報の内容を要望情報に関連しかつ多様性のあるものにすることができる。これにより、当該訓練データセットにて訓練することで、モデルからの出力結果が目標となる様式に沿って出力されることと出力結果に多様性を持たせることとを両立させることができる。さらに、
図6及び
図8に示されるように、トピックに関連した情報としての画像IGが選択可能に出力されることで、言語化が難しい画像の画風であってもユーザUは視覚的に選択することができる。これにより、容易に目標情報を設定することができるので、モデルからの出力結果をより望むものにすることが可能となる。
【0059】
また、入力情報生成ステップにおいて、コーパスを用いて入力情報を生成することから、入力情報、すなわちプロンプトが偏った表現になることや目的とする処理結果を得るには適切ではない表現となることを抑制することができる。
【0060】
さらに、入力情報生成ステップにおいて、生成された複数の入力情報を所定の基準に基づいてクラスタリングすると共に、評価ステップにおいて、クラスタ毎の入力情報に基づいて評価を行うことから、処理結果の多様性を保つことができる。
【0061】
さらにまた、評価ステップにおいて、目標情報及び入力情報の少なくとも一方と処理結果とを入力すると入力情報と処理結果との関係について所定の基準によって評価された評価結果を出力するよう学習された評価モデルを用いて評価を行うことから、評価ステップを自動で行うことができる。これにより、訓練データセットの作成の自動化を実現することができる。
【0062】
(変形例)
上述した実施形態では、
図6に示されるように、取得した要望情報を基に当該要望情報に関連した複数のトピックTP及び当該トピックTPに関連した画像IGを生成し、そのうち選択された画像IGを目標情報として取得する構成とされているが、当該処理を複数回繰り返してもよい。すなわち、
図9に示されるように、取得した要望情報を基に生成された複数のトピックTP及び画像IGのうち、選択された画像IGに関してさらに追加の要望情報を取得してこれを基に複数のトピックTP及び当該トピックTPに関連した画像IGを生成し、そのうち選択された画像IGを目標情報として取得する。具体的には、最初の要望情報を基に生成されたプロンプトTP及び画像IGのうち選択されたもの(図中第1段階)に対して、追加要望情報の例として「画像IGを生成した際の元プロンプト(トピックTP)を少しずつ変えてさらに数パターン作成すること」という内容の情報を取得すると、当該追加要望情報に基づいてさらにトピックTPが生成されると共に、当該トピックTPに基づいて画像IGが生成される(図中第2段階)。この画像IGのうち選択されたものを目標情報として取得する。つまり、要望情報を基にトピックTP及び当該トピックTPに関連した画像IGの生成複数回行う。換言すると、ユーザUと情報処理システム10との間で対話的な処理を経て目標情報を取得することができる。これにより、より精緻な目標情報を設定することができるので、モデルからの出力結果を一層望むものにすることが可能となる。なお、本変形例では、第1段階と第2段階との処理とされているが、これに限らず、第3段階以上の更なる複数の処理を繰り返した後に目標情報を取得してもよい。
【0063】
、また、上述した実施形態では、要望情報を取得し当該要望情報に関連したトピック及び当該トピックを基に生成された画像データのうち選択されたものを目標情報としていたが、これに限らず、直接入力されたテキストデータや画像データを目標情報としてもよい。
【0064】
また、補足情報は、生成された画像データのキャプションとされているが、これに限らず、画像データ生成時のログ情報等その他の情報であってもよい。
【0065】
さらに、要望情報を基に生成されるトピック及びトピックからの画像データは、ユーザUにより選択される構成とされているが、これに限らず、評価モデル等を用いて自動で選択する構成としてもよい。
【0066】
さらにまた、トピックに関連した情報として、画像データが生成される構成とされているが、これに限らず、テキストデータやその他のデータが生成される構成としてもよい。
【0067】
また、情報処理システム10は、目標とするスタイル情報に沿った画像を機械学習モデルが生成することができるように当該機械学習モデルを訓練するための訓練データセットを自動で作成するシステムとされているが、これに限らず、特定の文体を目標とし当該文体に沿った文章を機械学習モデルが生成することができるように当該機械学習モデルを訓練するための訓練データセットを作成するシステムとしてもよいし、これ以外の情報を目標としてもよい。
【0068】
<付記>
本実施形態は、以下の開示を含む。
【0069】
(付記1)
情報処理装置が実行する情報処理方法であって、
処理結果における目標に関する情報である目標情報を取得する目標情報取得ステップと、
学習済みモデルからの出力が前記目標情報に関連する前記処理結果となるように当該学習済みモデルへ入力する入力情報を生成する入力情報生成ステップと、
前記目標情報と前記入力情報とを入力することで前記学習済みモデルから出力された前記処理結果を評価する評価ステップと、
前記評価ステップにて所定の評価がされた前記処理結果を選択すると共に、選択された前記処理結果から機械学習モデル向けの訓練データセットを作成する訓練データ作成ステップと、
を含む情報処理方法。
【0070】
(付記2)
前記訓練データ作成ステップは、前記処理結果について補足情報を生成すると共に、前記入力情報と前記補足情報とを含めて前記訓練データセットを生成する、
付記1に記載の情報処理方法。
【0071】
(付記3)
前記訓練データ作成ステップは、前記処理結果について補足情報を生成すると共に、当該補足情報において前記目標情報と関連性が高いと推定される情報を除いた補足補正情報を含めて前記訓練データセットを生成する、
付記1に記載の情報処理方法。
【0072】
(付記4)
前記訓練データ作成ステップは、前記処理結果について補足情報を生成すると共に、前記処理結果において少なくとも一部と前記目標情報とが所定の一致度に達していない場合に未達情報を加えた補足補正情報を含めて前記訓練データセットを生成する、
付記1に記載の情報処理方法。
【0073】
(付記5)
前記訓練データ作成ステップは、前記入力情報が同一の複数の前記処理結果について共通の所定情報を含む補足情報を生成すると共に、当該補足情報を含めて前記訓練データセットを生成する、
付記1に記載の情報処理方法。
【0074】
(付記6)
前記目標情報取得ステップにおいて、処理結果に関する要望に関する情報である要望情報を取得すると共に、当該要望情報に関連した複数のトピック及び当該トピックに関連した情報の少なくとも一方を生成して選択可能に出力し、選択された当該トピックを前記目標情報として取得する、
付記1に記載の情報処理方法。
【0075】
(付記7)
前記入力情報生成ステップにおいて、コーパスを用いて前記入力情報を生成する、
付記1に記載の情報処理方法。
【0076】
(付記8)
前記入力情報生成ステップにおいて、生成された複数の前記入力情報を所定の基準に基づいてクラスタリングすると共に、
前記評価ステップにおいて、クラスタ毎の前記入力情報に基づいて評価を行う、
付記1に記載の情報処理方法。
【0077】
(付記9)
前記評価ステップにおいて、前記目標情報及び前記入力情報の少なくとも一方と前記処理結果とを入力すると前記入力情報と前記処理結果との関係について所定の基準によって評価された評価結果を出力するよう学習された評価用学習済みモデルを用いて評価を行う、
付記1に記載の情報処理方法。
【0078】
(付記10)
情報処理装置に、
処理結果における目標に関する情報である目標情報を取得する目標情報取得ステップと、
学習済みモデルからの出力が前記目標情報と一致する前記処理結果となるように当該学習済みモデルへ入力する入力情報を生成する入力情報生成ステップと、
前記入力情報と、前記入力情報を入力したことで前記学習済みモデルから出力された前記処理結果とを評価する評価ステップと、
前記評価ステップにて所定の評価がされた前記処理結果を選択すると共に、選択された前記処理結果から機械学習モデル向けの訓練データセットを作成する訓練データ作成ステップと、
を含む情報処理方法を実行させるためのプログラム。
【0079】
(付記11)
情報処理装置が実行する情報処理システムであって、
処理結果における目標に関する情報である目標情報を取得する目標情報取得ステップと、
学習済みモデルからの出力が前記目標情報と一致する前記処理結果となるように当該学習済みモデルへ入力する入力情報を生成する入力情報生成ステップと、
前記入力情報と、前記入力情報を入力したことで前記学習済みモデルから出力された前記処理結果とを評価する評価ステップと、
前記評価ステップにて所定の評価がされた前記処理結果を選択すると共に、選択された前記処理結果から機械学習モデル向けの訓練データセットを作成する訓練データ作成ステップと、
を行う情報処理システム。
【0080】
今回開示された実施形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。また、本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
【符号の説明】
【0081】
10情報処理システム
32プログラム
34学習済みモデル
【要約】
【課題】学習済みモデルからの出力結果が多様性を有しながら目標となる様式に沿って出力されるための訓練データを得る。
【解決手段】
一実施形態に係る情報処理方法によれば、情報処理装置が実行する情報処理方法であって、処理結果における目標に関する情報である目標情報を取得する目標情報取得ステップと、学習済みモデルからの出力が前記目標情報と一致する前記処理結果となるように当該学習済みモデルへ入力する入力情報を生成する入力情報生成ステップと、前記入力情報と、前記入力情報を入力したことで前記学習済みモデルから出力された前記処理結果とを評価する評価ステップと、前記評価ステップにて所定の評価がされた前記処理結果を選択すると共に、選択された前記処理結果から機械学習モデル向けの訓練データセットを作成する訓練データ作成ステップと、を含む。
【選択図】
図1