(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-03-22
(45)【発行日】2024-04-01
(54)【発明の名称】生成支援装置、生成支援プログラム、生成支援方法
(51)【国際特許分類】
G06T 11/80 20060101AFI20240325BHJP
【FI】
G06T11/80 A
(21)【出願番号】P 2023131665
(22)【出願日】2023-08-10
【審査請求日】2023-12-06
【新規性喪失の例外の表示】特許法第30条第2項適用 2023年6月1日NectAI株式会社がhttps://fotographer.ai/jaにて、鈴木 麟太郎、イブラヒマ カン、サリュー カンが発明した生成支援装置、生成支援プログラム、生成支援方法について公開した。
【新規性喪失の例外の表示】特許法第30条第2項適用 2023年7月4日NectAI株式会社がhttps://fotographer.ai/case/manualにて、鈴木 麟太郎、イブラヒマ カン、サリュー カンが発明した生成支援装置、生成支援プログラム、生成支援方法について公開した。
【新規性喪失の例外の表示】特許法第30条第2項適用 2023年6月1日NectAI株式会社がhttps://twitter.com/FotographerAI/status/1664110728725544962にて、鈴木 麟太郎、イブラヒマ カン、サリュー カンが発明した生成支援装置、生成支援プログラム、生成支援方法について公開した。
【新規性喪失の例外の表示】特許法第30条第2項適用 2023年6月7日NectAI株式会社がhttps://twitter.com/FotographerAI/status/1666368058049581056?s=20にて、鈴木 麟太郎、イブラヒマ カン、サリュー カンが発明した生成支援装置、生成支援プログラム、生成支援方法について公開した。
【新規性喪失の例外の表示】特許法第30条第2項適用 2023年6月10日NectAI株式会社がhttps://twitter.com/FotographerAI/status/1667328859371601920?s=20にて、鈴木 麟太郎、イブラヒマ カン、サリュー カンが発明した生成支援装置、生成支援プログラム、生成支援方法について公開した。
【新規性喪失の例外の表示】特許法第30条第2項適用 2023年6月13日NectAI株式会社がhttps://twitter.com/FotographerAI/status/1668614722525233156?s=20にて、鈴木 麟太郎、イブラヒマ カン、サリュー カンが発明した生成支援装置、生成支援プログラム、生成支援方法について公開した。
【新規性喪失の例外の表示】特許法第30条第2項適用 2023年6月29日NectAI株式会社がhttps://twitter.com/su_rintaro/status/1674324426501009413?s=20にて、鈴木 麟太郎、イブラヒマ カン、サリュー カンが発明した生成支援装置、生成支援プログラム、生成支援方法について公開した。
【新規性喪失の例外の表示】特許法第30条第2項適用 2023年7月2日NectAI株式会社がhttps://twitter.com/FotographerAI/status/1675476319214116864?s=20にて、鈴木 麟太郎、イブラヒマ カン、サリュー カンが発明した生成支援装置、生成支援プログラム、生成支援方法について公開した。
【新規性喪失の例外の表示】特許法第30条第2項適用 2023年7月7日NectAI株式会社がhttps://twitter.com/FotographerAI/status/1677155771400982528?s=20にて、鈴木 麟太郎、イブラヒマ カン、サリュー カンが発明した生成支援装置、生成支援プログラム、生成支援方法について公開した。
【新規性喪失の例外の表示】特許法第30条第2項適用 2023年7月13日NectAI株式会社がhttps://twitter.com/FotographerAI/status/1679289743291596800?s=20にて、鈴木 麟太郎、イブラヒマ カン、サリュー カンが発明した生成支援装置、生成支援プログラム、生成支援方法について公開した。
【新規性喪失の例外の表示】特許法第30条第2項適用 2023年7月13日NectAI株式会社がhttps://twitter.com/FotographerAI/status/1679377338797285376?s=20にて、鈴木 麟太郎、イブラヒマ カン、サリュー カンが発明した生成支援装置、生成支援プログラム、生成支援方法について公開した。
【新規性喪失の例外の表示】特許法第30条第2項適用 2023年7月28日NectAI株式会社がhttps://twitter.com/FotographerAI/status/1684847481954488320?s=20にて、鈴木 麟太郎、イブラヒマ カン、サリュー カンが発明した生成支援装置、生成支援プログラム、生成支援方法について公開した。
【新規性喪失の例外の表示】特許法第30条第2項適用 2023年7月28日NectAI株式会社がhttps://twitter.com/su_rintaro/status/1684849768177225728?s=20にて、鈴木 麟太郎、イブラヒマ カン、サリュー カンが発明した生成支援装置、生成支援プログラム、生成支援方法について公開した。
【新規性喪失の例外の表示】特許法第30条第2項適用 2023年8月9日NectAI株式会社がhttps://twitter.com/FotographerAI/status/1689081542008774656?s=20にて、鈴木 麟太郎、イブラヒマ カン、サリュー カンが発明した生成支援装置、生成支援プログラム、生成支援方法について公開した。
【新規性喪失の例外の表示】特許法第30条第2項適用 2023年7月11日NectAI株式会社がhttps://prtimes.jp/main/html/rd/p/000000005.000055274.htmlにて、鈴木 麟太郎、イブラヒマ カン、サリュー カンが発明した生成支援装置、生成支援プログラム、生成支援方法について公開した。
【新規性喪失の例外の表示】特許法第30条第2項適用 2023年8月8日NectAI株式会社がhttps://prtimes.jp/main/html/rd/p/000000006.000055274.htmlにて、鈴木 麟太郎、イブラヒマ カン、サリュー カンが発明した生成支援装置、生成支援プログラム、生成支援方法について公開した。
【新規性喪失の例外の表示】特許法第30条第2項適用 2023年7月12日NectAI株式会社がhttps://sogyotecho.jp/news/20230712nectai/にて、鈴木 麟太郎、イブラヒマ カン、サリュー カンが発明した生成支援装置、生成支援プログラム、生成支援方法について公開した。
【新規性喪失の例外の表示】特許法第30条第2項適用 2023年6月8日NectAI株式会社がhttps://thebridge.jp/2023/06/if-mskk-gen-ai-open-pitch-eventにて、鈴木 麟太郎、イブラヒマ カン、サリュー カンが発明した生成支援装置、生成支援プログラム、生成支援方法について公開した。
【新規性喪失の例外の表示】特許法第30条第2項適用 2023年7月5日NectAI株式会社がhttps://oiuy.net/archives/34322にて、鈴木 麟太郎、イブラヒマ カン、サリュー カンが発明した生成支援装置、生成支援プログラム、生成支援方法について公開した。
【新規性喪失の例外の表示】特許法第30条第2項適用 2023年7月10日NectAI株式会社がIVS 2023 KYOTO/IVS Crypto 2023 KYOTOにて、鈴木 麟太郎、イブラヒマ カン、サリュー カンが発明した生成支援装置、生成支援プログラム、生成支援方法について公開した。
【新規性喪失の例外の表示】特許法第30条第2項適用 2023年5月28日NectAI株式会社が【IncubateFund×Microsoft共催】Incubation Program-イベント&ピッチDay-にて、鈴木 麟太郎、イブラヒマ カン、サリュー カンが発明した生成支援装置、生成支援プログラム、生成支援方法について公開した。
【早期審査対象出願】
(73)【特許権者】
【識別番号】523139995
【氏名又は名称】Fotographer AI株式会社
(74)【代理人】
【識別番号】110002790
【氏名又は名称】One ip弁理士法人
(72)【発明者】
【氏名】鈴木 麟太郎
(72)【発明者】
【氏名】イブラヒマ カン
(72)【発明者】
【氏名】サリュー カン
【審査官】村松 貴士
(56)【参考文献】
【文献】“EC業界を大きく変える画像生成AIサービスの起業から調達、開発の裏側”,YouTube [online] [video],ANOBAKA CH,2023年07月26日,[2023年12月18日検索], <https://www.youtube.com/watch?v=_WV0lSuN-KA>,1:19~4:45
【文献】大谷大,“ChatGPTに日本語入力すると画像生成AI用のプロンプトを出力するプラグイン「photorealistic」が便利すぎる”,ディレイマニア [online],2023年05月25日,[2023年12月18日検索], <https://delaymania.com/202305/webservice/chatgpt-plugin-photorealistic/>
【文献】伊藤倫太郎,“人工知能 2023年の人工知能のトレンドについて”,Rad Fan,メディカルアイ,2023年03月31日,第21巻, 第4号,p.78-80
(58)【調査した分野】(Int.Cl.,DB名)
G06T 11/00 - 11/80
(57)【特許請求の範囲】
【請求項1】
結果画像の生成を支援する生成支援装置であって、
ユーザより、少なくとも、前記結果画像のスタイルに関するスタイル情報と、前記結果画像の一部を構成する要素画像と、を含む生成情報を取得する生成情報取得部と、
前記生成情報をもとに生成したテキスト情報を生成モデルに入力し、前記生成モデルから出力した出力情報に基づいて、前記結果画像を生成する結果画像生成部と、
を備え、
前記スタイル情報はウェブアドレスの情報
を含み、
前記生成情報取得部は、前記ウェブアドレスで指定されるウェブサイトに含まれるウェブ情報をもとに判定した前記スタイ
ルを前記スタイル情報とする、
生成支援装置。
【請求項2】
前記生成情報取得部は、更に前記要素画像の前記結果画像における位置情報を取得すること、
を特徴とする、請求項1に記載の生成支援装置。
【請求項3】
前記情報取得部は、前記要素画像のアップロードまたは選択を受け付け、前記結果画像の枠における前記要素画像の配置により前記位置情報を取得すること、
を特徴とする、請求項2に記載の生成支援装置。
【請求項4】
前記情報取得部は、前記生成情報を前記ユーザによるチャット形式での入力により取得すること、
を特徴とする、請求項1または2に記載の生成支援装置。
【請求項5】
前記情報取得部は、前記チャット形式での入力を取得する場合に、前記生成情報として必要となる情報の示唆を前記ユーザに提示すること、
を特徴とする、請求項4に記載の生成支援装置。
【請求項6】
結果画像の生成を支援する生成支援プログラムであって、
プロセッサに、
ユーザより、少なくとも、前記結果画像のスタイルに関するスタイル情報と、前記結果画像の一部を構成する要素画像と、を含む生成情報を取得する生成情報取得ステップと、
前記生成情報をもとに生成したテキスト情報を生成モデルに入力し、前記生成モデルから出力した出力情報に基づいて、前記結果画像を生成する画像生成ステップと、
を実行させ、
前記スタイル情報はウェブアドレスの情報を含み、
前記生成情報取得
ステップは、前記ウェブアドレスで指定されるウェブサイトに含まれるウェブ情報をもとに判定した前記スタイ
ルを前記スタイル情報とする、
生成支援プログラム。
【請求項7】
結果画像の生成を支援する生成支援方法であって、
プロセッサが、
ユーザより、少なくとも、前記結果画像のスタイルに関するスタイル情報と、前記結果画像の一部を構成する要素画像と、を含む生成情報を取得する生成情報取得ステップと、
前記生成情報をもとに生成したテキスト情報を生成モデルに入力し、前記生成モデルから出力した出力情報に基づいて、前記結果画像を生成する画像生成ステップと、
を実行し、
前記スタイル情報はウェブアドレスの情報を含み、
前記生成情報取得
ステップは、前記ウェブアドレスで指定されるウェブサイトに含まれるウェブ情報をもとに判定した前記スタイ
ルを前記スタイル情報とする、
生成支援方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、生成支援装置、生成支援プログラム、生成支援方法に関する。
【背景技術】
【0002】
近年、様々な方法により画像生成が行われている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
例えば、特許文献1では、機械学習を利用してキャラクタ画像を生成する技術が提案されている。
【0005】
しかしながら、特許文献1の技術では、任意の姿勢をしたキャラクタの画像を生成することしかできず、様々な画像生成には適用できない。
【0006】
本発明はこのような背景を鑑みてなされたものであり、ユーザが目的とする画像を容易に生成することを目的とする。
【課題を解決するための手段】
【0007】
上記の課題を解決するため、本開示にかかる、生成支援装置は、ユーザより、少なくとも、結果画像のスタイルに関するスタイル情報と、前記結果画像の一部を構成する要素画像と、を含む生成情報を取得する生成情報取得部と、前記生成情報をもとに生成したテキスト情報を生成モデルに入力し、前記生成モデルから出力した出力情報に基づいて、前記結果画像を生成する結果画像生成部と、を備えることを特徴とする。
【0008】
その他本願が開示する課題やその解決方法については、発明の実施形態の欄及び図面により明らかにされる。
【発明の効果】
【0009】
本発明によれば、ユーザが目的とする画像を容易に生成することができる。
【図面の簡単な説明】
【0010】
【
図1】本発明の一実施形態に係る評価システムの全体構成例を示す図である。
【
図2】同実施形態に係るサーバ装置1のハードウェア構成例を示す図である。
【
図3】同実施形態に係るサーバ装置1の機能構成例を示す図である。
【
図4】生成情報記憶部131に記憶される基本情報の例を示す図である。
【
図5】生成情報取得部111が部分画像と素材画像の位置情報を取得する画面の一例である。
【
図6】同実施形態に係るサーバ装置1の処理の例を示す図である。
【発明を実施するための形態】
【0011】
<発明の概要>
[項目1]
結果画像の生成を支援する生成支援装置であって、
ユーザより、少なくとも、前記結果画像のスタイルに関するスタイル情報と、前記結果画像の一部を構成する要素画像と、を含む生成情報を取得する生成情報取得部と、
前記生成情報をもとに生成したテキスト情報を生成モデルに入力し、前記生成モデルから出力した出力情報に基づいて、前記結果画像を生成する結果画像生成部と、
を備えることを特徴とする、生成支援装置。
[項目2]
前記生成情報取得部は、更に前記要素画像の前記結果画像における位置情報を取得すること、
を特徴とする、項目1に記載の生成支援装置。
[項目3]
前記スタイル情報はウェブアドレスの情報を含み、
前記生成情報取得部は、前記ウェブアドレスで指定されるウェブサイトに含まれるウェブ情報をもとに判定した前記スタイル情報を前記スタイル情報とすること、
を特徴とする、項目1または2に記載の生成支援装置。
[項目4]
前記情報取得部は、前記要素画像のアップロードまたは選択を受け付け、前記結果画像の枠における前記要素画像の配置により前記位置情報を取得すること、
を特徴とする、項目2に記載の生成支援装置。
[項目5]
前記情報取得部は、前記生成情報を前記ユーザによるチャット形式での入力により取得すること、
を特徴とする、項目1または2に記載の生成支援装置。
[項目6]
前記情報取得部は、前記チャット形式での入力を取得する場合に、前記生成情報として必要となる情報の示唆を前記ユーザに提示すること、
を特徴とする、項目5に記載の生成支援装置。
[項目7]
結果画像の生成を支援する生成支援プログラムであって、
プロセッサに、
ユーザより、少なくとも、前記結果画像のスタイルに関するスタイル情報と、前記結果画像の一部を構成する要素画像と、を含む生成情報を取得する生成情報取得ステップと、
前記生成情報をもとに生成したテキスト情報を生成モデルに入力し、前記生成モデルから出力した出力情報に基づいて、前記結果画像を生成する画像生成ステップと、
を実行させる、生成支援プログラム。
[項目8]
結果画像の生成を支援する生成支援方法であって、
プロセッサが、
ユーザより、少なくとも、前記結果画像のスタイルに関するスタイル情報と、前記結果画像の一部を構成する要素画像と、を含む生成情報を取得する生成情報取得ステップと、
前記生成情報をもとに生成したテキスト情報を生成モデルに入力し、前記生成モデルから出力した出力情報に基づいて、前記結果画像を生成する画像生成ステップと、
を実行させる、生成支援方法。
【0012】
図1は、本発明の一実施形態に係る評価システムの全体構成例を示す図である。本実施形態の生成支援システムは、サーバ装置1を含んで構成される。サーバ装置1は、ユーザ端末3と、通信ネットワーク2を介して通信可能に接続される。通信ネットワーク2は、たとえばインターネットであり、公衆電話回線網や携帯電話回線網、無線通信路、イーサネット(登録商標)などにより構築される。
【0013】
==サーバ装置1==
サーバ装置1は、例えば、ワークステーションやパーソナルコンピュータのような汎用コンピュータとしてもよいし、或いはクラウド・コンピューティングによって論理的に実現されてもよい。本実施形態においては、説明の便宜上1台を例示しているが、これに限定されず、複数台であってもよい。
【0014】
==ユーザ端末3==
ユーザ端末3は、画像の生成を行うユーザが扱うコンピュータである。例えば、スマートフォンやタブレットコンピュータ、パーソナルコンピュータなどである。ユーザは、たとえばユーザ端末3で実行されるアプリケーションやWebブラウザによりサーバ装置1にアクセスすることができる。
【0015】
図2は、サーバ装置1のハードウェア構成例を示す図である。なお、図示された構成は一例であり、これ以外の構成を有していてもよい。サーバ装置1は、プロセッサ101、メモリ102、記憶装置103、通信インタフェース104、入力装置105、出力装置106を備える。記憶装置103は、各種のデータやプログラムを記憶する、例えばハードディスクドライブやソリッドステートドライブ、フラッシュメモリなどである。通信インタフェース104は、通信ネットワーク2に接続するためのインタフェースであり、例えばイーサネット(登録商標)に接続するためのアダプタ、公衆電話回線網に接続するためのモデム、無線通信を行うための無線通信機、シリアル通信のためのUSB(Universal Serial Bus)コネクタやRS232Cコネクタなどである。入力装置105は、データを入力する、例えばキーボードやマウス、タッチパネル、ボタン、マイクロフォンなどである。出力装置106は、データを出力する、例えばディスプレイやプリンタ、スピーカなどである。なお、後述するサーバ装置1の各機能部はプロセッサ101が記憶装置103に記憶されているプログラムをメモリ102に読み出して実行することにより実現され、サーバ装置1の各記憶部はメモリ102及び記憶装置103が提供する記憶領域の一部として実現される。
【0016】
図3は、サーバ装置1の機能構成を示している。
図3に示すように、サーバ装置1は、生成情報記憶部131と、結果画像情報記憶部132と、の各記憶部と、生成情報取得部111と、結果画像生成部112と、の各処理部を備える。
【0017】
生成情報記憶部131と、結果画像情報記憶部132と、の各記憶部の説明を記載する。
【0018】
生成情報記憶部131は、
図4に一例を示すように、結果画像(サーバ装置1が生成する画像)の生成に用いる情報(以下、生成情報と記す)を記憶する。生成情報は、一例として、スタイルに関する情報(テキスト情報、ウェブアドレス、ウェブ情報等を含む)等の情報を含んでもよい。また、生成情報は、結果画像の一部の構成のもととなる要素画像を含んでよい。要素画像は、例えば、結果画像の主題(例えば人物や物であって、以下に記す生成情報取得部111が生成モデルに入力するテキストを生成する際に、画像のメインの内容とするように記載する対象)の画像である部分画像であって、部分画像は主題が物の画像であれば、例えば製品の画像、製品を含む画像、製品の容器、外箱などの外見の画像を含んでよい。また、要素画像には、結果画像の主題ではない、素材画像を含んでもよい。生成情報は、例えば、結果画像における部分画像、素材画像の位置の情報、を含んでもよいが、これらに限定されない。
【0019】
前記スタイルとは、生成支援装置が生成する結果画像のデザインにおけるスタイルであって、例えば、結果画像の要件(画像に含まれる物体、人物、風景などの要素など)、また、コンセプト(ターゲット、物語性など)、色彩、質感(視覚的な感覚で感じられる画像表面のテクスチャなど)、レイアウト(要素の配置や相対的な位置関係など)、フォント、形状(シャープな角度や丸みのある形状、直線、曲線など)などの美的な属性や特徴を表すが、これらに限定されない。
【0020】
前記素材画像とは、手や顔、植物、日用品、台などの画像、丸、三角、四角などの幾何学的な、または幾何学的な規則に拘束されない自由な形状の図形などであって、結果画像の一部の基となる画像である。また、前記素材画像には、生成する画像の背景の基となる画像(テンプレート)も含んでよいが、これらに限定されない。
【0021】
結果画像情報記憶部132は、結果画像生成部112が生成した結果画像を記憶する。
【0022】
以下に、生成情報取得部111と、結果画像生成部112と、の各処理部の説明を記載する。
【0023】
生成情報取得部111は、一例として、通信ネットワーク2を介して、ユーザ端末3から、結果画像生成に必要な、前記結果画像のスタイルに関するスタイル情報と、前記結果画像を構成する要素画像と、前記要素画像の前記結果画像における位置情報と、を含む生成情報を取得する。生成情報取得部111は、取得した生成情報を、生成情報記憶部131に記憶する。当該送受信における通信は、有線、無線のいずれでもよく、また、互いの通信が実行できるのであれば、どのような通信プロトコルを用いてもよい。
【0024】
生成情報取得部111は、生成情報をテキスト情報で取得してもよい。生成情報取得部111は、生成する結果画像を示す文章をユーザの入力操作により取得してもよいし、1以上の単語を取得してもよい。また、生成情報取得部111は、生成する結果画像のスタイルを表す文章または単語をユーザに提示し、ユーザにより選択された文章または単語を生成情報として取得してもよい。
【0025】
生成情報取得部111は、生成情報としてウェブアドレス(URL等)の情報を取得してもよい。生成情報取得部111は、前記ウェブアドレスで指定されるウェブサイトに含まれるウェブ情報を取得し、スタイルを判定し、生成情報とすればよい。ウェブ情報としては、当該ウェブサイトに含まれるテキスト情報、画像情報、映像情報、コード情報(ウェブサイトを構成するコードであって、例えば、HTML、CSS、Javascriptなどの形式であってよいが、これらに限定されない)等であってよい。生成情報取得部111は、例えば当該テキスト情報を基にターゲットやコンセプト等のスタイルを判定してもよい。この場合、生成情報取得部111は、例えば当該テキスト情報を形態素解析し、含まれる単語やその数の情報を基に、ターゲットやコンセプト等のスタイルを判定すればよいが、これらの方法に限定されない。生成情報取得部111は、当該画像情報や映像情報、またはコード情報などから色彩や質感、フォント、形状等のスタイルを判定してもよい。この場合、生成情報取得部111は、当該画像情報や映像情報を分析し、多く含まれる色彩や質感、フォント、形状等からスタイルを判定してもよいし、コード情報に含まれる、ウェブ背景画像の色彩や質感、形状、ウェブで用いられているフォント等の情報をもとに、スタイルを判定してもよいが、これらの方法に限定されない。
【0026】
生成情報取得部111は、結果画像の一部の構成のもととなる要素画像を取得する。生成情報取得部111は、要素画像のアップロードを受け付けてもよい。また、生成情報取得部111は、例えば
図5に一例を示すように、素材画像(例えば
図5の201)をサーバ装置1に記憶しておきユーザ端末3に提示し、ユーザによる当該素材画像の選択操作を受け付け、ユーザが選択した素材画像を生成情報として取得してもよい。
【0027】
生成情報取得部111は、一例として、結果画像における要素画像の位置情報を取得する。位置情報は、結果画像における要素画像の座標を示し、例えば、結果画像の特定の角などの所定の位置を原点としたXY座標であって、要素画像の中心などのXY座標であればよい。この場合、生成情報取得部111は、例えば
図5に一例を示すように、結果画像の形状に応じた枠(例えば202。当該枠は横長、正方形、縦長などの形態であってよいが、これらに限定されない)をユーザ端末3に提示する。生成情報取得部111は、当該枠において、ユーザ端末3上でのユーザの操作の情報を取得し、結果画像における素材画像の位置情報を取得する。この場合、生成情報取得部111は、例えばユーザによるドラッグアンドドロップ操作を受け付け、部分画像(203)または素材画像(204)の配置情報を取得し、要素画像の位置情報を取得すればよい。また、生成情報取得部111は、要素画像の拡大、縮小、回転、反転、変形なども併せて受け付けてもよい。更に、生成情報取得部111は、位置情報として、複数の要素画像の前後関係(例えば、レイヤー情報であってよい)を取得してもよい。その他、位置情報は、要素画像同士の位置関係(部分画像の下部に素材画像がある、など)の情報であってもよい。
【0028】
生成情報取得部111は、チャット形式で生成情報を取得してもよい。この場合、生成情報取得部111は、チャット形式で取得したテキスト情報を形態素解析等により単語二分割し、単語の情報を生成情報として取得すればよい。この場合、生成情報取得部111は、ユーザから取得する生成情報に関して、「主題の画像をアップしてください」、「参考となるウェブサイトを教えてください」などの案内をユーザに提示し、必要な生成情報をユーザが認識しやすくなる支援を行ってもよい。この場合、生成情報取得部111は、事前に準備された、画像の生成に必要な生成情報のリストから、ユーザから取得していない情報、または取得した生成情報からは判定できなかった情報について、ユーザに対して案内を提示すればよいが、この方法に限定されない。
【0029】
生成情報取得部111は、取得した生成情報をもとに、画像生成モデルに入力するプロンプトまたは前提となる条件等(本明細書においては纏めてプロンプト情報と記載する)を生成する。前提となる条件は、例えば画像のサイズや枠の形状、ファイルサイズ、解像度等の情報を含んでもよいが、これらに限定されない。生成情報取得部111が生成するプロンプトは、少なくともスタイルを表すテキストを含む。生成情報取得部111は、例えば、特徴抽出モジュールと言語モデルを用いて、プロンプト情報を生成する。なお、生成情報取得部111は、プロンプト情報を1以上生成し、ユーザに提示をして、プロンプトの選択、または編集を受け付けてもよい。
【0030】
生成情報取得部111は、プロンプトを生成する際に、結果画像生成部112が画像生成に用いる生成モデルの種類によって、生成するプロンプトの構造を変えてもよい。生成情報取得部111は、例えば、文章型のプロンプトを生成してもよいし、単語を並べる形のプロンプトを生成してもよい。また、例えば、重要な単語をカッコで囲むことや、単語の順番をプロンプトの冒頭に登場させること、重要な単語を複数含めること、などの単語の重要度を示す方法により、重要な単語を生成モデル側に認識させる形のプロンプトを生成してもよい。
【0031】
生成情報取得部111が生成するプロンプトは、少なくともスタイルを表すテキストを含む。また、生成情報取得部111は、プロンプトを複数生成してもよいし、プロンプトに含まれるテキストに一定のランダム性を持たせてもよい。例えば、生成情報取得部111は、スタイルを表すテキストとの意味合いの距離や類似度などにより、プロンプトに含まれるテキストに一定のランダム性を持たせる。具体的には、生成情報取得部111は、ユーザの入力等により取得した生成情報に、例えば「海」にまつわるスタイルの情報が複数含まれている場合に、「海」と意味合いの近い、または類似度の高い他の単語をプロンプトに含めて、プロンプトを生成する。後述する結果画像生成部112が、これらのプロンプトを用いて結果画像を生成することにより、ユーザが生成を希望する画像により近い結果画像の生成を行うことができる。逆に、生成情報取得部111は、ユーザの入力等により取得した生成情報に、「海」にまつわるスタイルの情報が少ない場合に、「海」と意味合いの遠い、または類似度の低い他の単語をプロンプトに含めて、プロンプトを生成する。後述する結果画像生成部112が、これらのプロンプトを用いて結果画像を生成することにより、ユーザがまだ海のイメージが湧いていない場合などに、結果画像のスタイルの方向性を検討し易くすることができる。なお、プロンプトに含まれるテキストに一定のランダム性を持たせることの効果は、他にあってもよい。
【0032】
生成情報取得部111は、結果画像生成部112が生成した第1の結果画像に対して、追加で生成情報を取得してもよい。生成情報取得部111が追加で取得した生成情報は、第1の結果画像を生成した場合に用いたプロンプトの改変、追記等に用いられ、結果画像生成部112が第2の結果画像を生成する際に用いる。
【0033】
結果画像生成部112は、一例として、スタイル情報と、要素画像と、位置情報と、の少なくともいずれかをもとに結果画像を生成する。結果画像生成部112は、例えば、スタイル情報と、要素画像と、位置情報と、の少なくともいずれかの情報をもとに生成情報取得部111が生成したプロンプト情報を生成モデルに入力し、生成モデルが出力した画像を取得する。結果画像生成部112は、生成モデルが出力した画像を結果画像としてもよいし、出力した画像を基に加工等を行い、結果画像を生成してもよい。結果画像生成部112は、生成した結果画像をユーザに提示する。ユーザは、提示された画像をダウンロードすることができる。
【0034】
結果画像生成部112が結果画像の生成に用いる生成モデルは、サーバ装置1に実装されていてもよいし、通信ネットワーク2を通じてアクセスできる他のサーバに実装されていてもよいが、これらに限定されない。このため、生成モデルがサーバ装置1に実装されている場合には、結果画像生成部112がプロンプト情報を生成モデルに入力し、生成モデルが他のサーバに実装されている場合には、結果画像生成部112はプロンプト情報を、通信ネットワーク2を介して生成モデルに送信する構成となる。本明細書においては、プロンプト情報を生成モデルに送信する場合も含めて、プロンプト情報を生成モデルに入力する、と表現している。
【0035】
前記生成モデルは、例えば、入力として与えられた特定の入力ベクトルやランダムなノイズを受け取り、それらの情報から画像を生成するモデルであればよい。前記生成モデルは、例えば、生成器(Generator)を備える。生成器は、入力された情報を適切なフィーチャーやパターンに変換し、それを画像に変換する。生成器は、例えば、畳み込みニューラルネットワーク(Convolutional Neural Network, CNN)やトランスフォーマー(Transformer)、またはその他のディープラーニングアーキテクチャを使用して構築されるが、他のアーキテクチャも利用可能である。また、前記生成モデルは、例えば、識別器(Discriminator)を備える。識別器は、画像が本物の画像か、生成器によって生成された偽の画像かを識別する。識別器は、例えば、CNNなどのネットワークを使用して構築されるが、これらに限定されない。前記生成モデルは、例えば、敵対的ネットワーク(GAN)を備える。敵対的ネットワークは、生成器がよりリアルな画像を生成するように学習し、同時に識別器が本物の画像と偽の画像を区別する能力を高めるように学習する。
【0036】
結果画像生成部112は、2以上の結果画像を生成してもよい。また、結果画像生成部112は、生成した結果画像をユーザに提示する。
【0037】
結果画像生成部112は、生成した複数の結果画像をユーザ端末3に提示した場合、ユーザ端末3において、ユーザより、複数の画像から生成したい結果画像に近い画像、または外れている画像の選択操作を受け付け、当該選択操作により選択された結果画像をもとに、更に結果画像を生成してもよい。その場合、結果画像生成部112は、例えば、画像から生成したい結果画像に近いものとして選択された結果画像Aの特徴をもとに、結果画像Aに似た結果画像Bを生成してもよい。具体的な処理としては、生成情報取得部111は、当該選択操作により選択された結果画像Aを生成する際に生成モデルに入力したプロンプトの情報を改変、または選択された結果画像Aに似た画像やバリエーションの再生成を示すプロンプトを生成し、これらのプロンプトを再度生成モデルに入力して結果画像を生成すればよいが、この方法に限定されない。
【0038】
結果画像生成部112は、生成した結果画像(第1の結果画像)に対して、生成情報取得部111がユーザより追加情報を取得した場合に、第2の結果画像を生成してもよい。この場合、結果画像生成部112は、前記第1の結果画像を生成する際に前記生成モデルに入力したプロンプト情報と、当該追加情報をもとに生成情報取得部111が生成したプロンプト情報を生成モデルに入力し、前記生成モデルが出力した出力情報に基づいて、第2の結果画像を生成すればよい。
【0039】
図6は、本実施形態の生成支援装置の処理の例を説明する図である。
【0040】
サーバ装置1は、ユーザより生成情報を取得する(1001)。サーバ装置1は、取得した生成情報を基にプロンプトを生成する(1002)。サーバ装置1は、プロンプトを生成モデルに入力する(1003)。サーバ装置1は、生成モデルの出力情報(結果画像)を取得する(1004)。サーバ装置1は、出力情報をユーザに提示する(1005)。
【0041】
以下、その他の例を記載する。
【0042】
サーバ装置1は、例えば、生成情報取得部111が取得した部分画像の前処理を行ってもよい。サーバ装置1は、例えば、部分画像の主題を判定し、主題部分以外の背景を除去してもよい。また、生成情報取得部111は、例えば部分画像から主題を強調してもよい。
【0043】
サーバ装置1は、前処理として、例えば、部分画像に含まれる主題について、主題とカメラの位置の関係を判定してカメラアングルを検出し、それに合わせて生成情報取得部111が生成するプロンプトを生成してもよい。当該プロンプトは、例えば、結果画像において、主題を表示する角度を指定するものなどを含むが、この例に限定されない。
【0044】
なお、生成情報取得部111は、上述した前処理を行った後の部分画像について、生成する画像における位置情報を取得してもよいし、プロンプトを生成してもよい。
【0045】
サーバ装置1は、マーケティング情報をもとに、ユーザにスタイルを提案してもよい。当該マーケティング情報は、事前に取得した、結果画像の主題となる製品等の情報や、業界の情報、マーケティング調査等の結果などの情報や、ユーザから取得した、主題となる製品の過去の製品販売の実績、類似製品の売れ行き等の情報を含んでいてもよい。サーバ装置1は、例えば、生成する画像の主題の製品について、類似する製品の販売実績等の情報を元に、販売数の多い類似製品の販売ウェブサイトや広告画像などから判定されるスタイルを、ユーザに提案する。この場合、サーバ装置1は、販売数の多い類似製品の販売ウェブサイトのウェブアドレスの情報や、スタイルとして生成情報取得部111が生成するプロンプトに含めるテキスト情報(例えば「高級感」、「ナチュラル」など)をユーザに提示してもよいし、画像生成に用いるプロンプトに含めるようにすればよい。
【0046】
サーバ装置1は、ユーザが過去にサーバ装置1を用いて生成した結果画像、または当該結果画像を生成する際に用いたプロンプトの情報を元に、ユーザにスタイルのレコメンドを行ってもよい。例えば、サーバ装置1は、ユーザが過去に生成した結果画像を分析、またはプロンプトに含まれるテキストの情報によりスタイルを判定し、多く検出されたスタイルを、ユーザ端末3に提示し、当該スタイルを結果画像生成に用いるかどうかの選択操作を取得すればよい。具体的には、サーバ装置1は、例えば、当該ユーザが過去にリアルな画像しか生成していないと判定した場合に、「リアルな画像を生成しますか?はい いいえ」などの質問をチャット等によりユーザ端末3に提示し、ユーザの選択操作を取得し、ユーザが選択した答えにより、プロンプトを生成すればよい。
【0047】
サーバ装置1は、画像に限らず、製品販売に関わる情報を生成してもよい。サーバ装置1が生成する情報は、例えば、製品やキャンペーンなどを宣伝するバナー広告用画像、商品やブランドの特長を簡潔に表現した効果的なキャッチフレーズ・キャッチコピー、商品の詳細な説明や特長を記述するテキスト情報であるプロダクトディスクリプション、製品を販売するECサイトのトップページなどで使われるデザインやレイアウト、商品カテゴリーページのデザインや表示方法であるカテゴリーページデザイン、特定のキャンペーンや商品を強調するためのランディングページのデザイン、ソーシャルメディアや広告プラットフォーム向けの画像やキャッチフレーズなどを含むが、これらに限定されない。サーバ装置1が上述した情報を生成する場合、生成情報取得部111が取得した情報をもとにプロンプトを生成し、画像やデザインであれば結果画像生成部112が画像生成モデルにプロンプトを入力し、テキスト情報であればテキスト生成モデル(例えば、ChatGPTのような大規模言語モデル)にプロンプトを入力し、生成すればよい。
【0048】
サーバ装置1は、結果画像の一部を構成する要素画像を取得する場合に、指定されたウェブアドレスが特定するウェブサイトに含まれる画像を、要素画像として取得してもよい。サーバ装置1は、当該ウェブサイトに含まれる画像を全て要素画像として取得し、生成情報記憶部121に記憶してもよいし、当該ウェブサイトに含まれる画像の中から、生成情報として取得する画像についてユーザによる選択操作を受け付けて、選択された画像を要素画像として記憶してもよい。
【0049】
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
【0050】
本明細書において説明した装置は、単独の装置として実現されてもよく、一部または全部が通信ネットワーク2で接続された複数の装置(例えばクラウドサーバ)等により実現されてもよい。例えば、サーバ装置1のプロセッサ101および記憶装置103は、互いに通信ネットワーク2で接続された異なるサーバにより実現されてもよい。
【0051】
本明細書において説明した装置による一連の処理は、ソフトウェア、ハードウェア、およびソフトウェアとハードウェアとの組合せのいずれを用いて実現されてもよい。本実施形態に係るサーバ装置1の各機能を実現するためのコンピュータプログラムを作製し、PC等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等である。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えば通信ネットワーク2を介して配信されてもよい。
【0052】
また、本明細書において説明した処理は、必ずしも説明した順序で実行されなくてもよい。いくつかの処理ステップは、並列的に実行されてもよい。また、追加的な処理ステップが採用されてもよく、一部の処理ステップが省略されてもよい。
【0053】
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
【符号の説明】
【0054】
1 サーバ装置
2 通信ネットワーク
3 ユーザ端末
101 CPU
102 メモリ
103 記憶装置
104 通信インタフェース
105 入力装置
106 出力装置
111 生成情報取得部
112 結果画像生成部
131 生成情報記憶部
132 画像情報記憶部
【要約】 (修正有)
【課題】ユーザが目的とする画像を容易に生成することができる生成支援装置、生成支援プログラム、生成支援方法を提供する。
【解決手段】ユーザ端末と、通信ネットワークを介して通信可能に接続される評価システムのサーバ装置1は、結果画像の生成を支援する生成支援装置であって、ユーザより、少なくとも、前記結果画像のスタイルに関するスタイル情報と、前記結果画像の一部を構成する要素画像と、を含む生成情報を取得する生成情報取得部と、前記生成情報をもとに生成したテキスト情報を生成モデルに入力し、前記生成モデルから出力した出力情報に基づいて、前記結果画像を生成する結果画像生成部と、を備えることを特徴とする。
【選択図】
図3