(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2023-08-09
(45)【発行日】2023-08-18
(54)【発明の名称】情報処理装置、方法、プログラム、およびシステム
(51)【国際特許分類】
G06T 19/00 20110101AFI20230810BHJP
【FI】
G06T19/00 A
(21)【出願番号】P 2023095341
(22)【出願日】2023-06-09
【審査請求日】2023-06-09
【早期審査対象出願】
(73)【特許権者】
【識別番号】522370469
【氏名又は名称】SNAFTY株式会社
(74)【代理人】
【識別番号】110002815
【氏名又は名称】IPTech弁理士法人
(72)【発明者】
【氏名】小池 隆太
【審査官】松永 隆志
(56)【参考文献】
【文献】特開2022-185076(JP,A)
【文献】特表2022-548060(JP,A)
【文献】特開2021-51368(JP,A)
【文献】国際公開第2021/039561(WO,A1)
【文献】国際公開第2022/230177(WO,A1)
【文献】特表2009-514075(JP,A)
【文献】中国特許出願公開第109478192(CN,A)
【文献】米国特許出願公開第2023/0075884(US,A1)
【文献】米国特許出願公開第2018/0300536(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 1/00-19/20
(57)【特許請求の範囲】
【請求項1】
コンピュータを、
特定のキャラクタに設定されたプロフィール情報に基づく第1モデル入力を、複数の参照キャラクタのプロフィール情報と当該複数の参照キャラクタの各々が外部に公開した視覚的コンテンツの特徴との関係を学習した第1モデルに与えることで、特定のキャラクタに適していると予測された視覚的コンテンツの特徴を表す特徴情報を取得する手段、
前記特徴情報に基づく第2モデル入力を、前記特定のキャラクタの容姿を被写体とする画像を生成するように学習した第2モデルに与えることで、前記特定のキャラクタの容姿を被写体とし、かつ前記第2モデル入力に応じた特徴を備えた視覚的コンテンツである候補コンテンツを取得する手段、
前記候補コンテンツを出力する手段、
として機能させる、プログラム。
【請求項2】
前記複数の参照キャラクタの各々が外部に公開した視覚的コンテンツの特徴は、当該視覚的コンテンツそのものまたは当該視覚的コンテンツの視覚的特徴を表すテキストを含む、
請求項1に記載のプログラム。
【請求項3】
前記複数の参照キャラクタの各々が外部に公開した視覚的コンテンツの特徴は、当該視覚的コンテンツの公開時刻、または当該視覚的コンテンツの公開に対する反響の少なくとも一方に関する情報をさらに含む、
請求項2に記載のプログラム。
【請求項4】
前記特徴情報は、前記特定のキャラクタに適していると予測された視覚的コンテンツの視覚的特徴を表すテキストを含み、
前記コンピュータを、前記視覚的特徴を表すテキストから容姿の静的特徴を表すテキストを除外したテキストに基づいて前記第2モデル入力を生成する手段、として機能させる、
請求項1に記載のプログラム。
【請求項5】
前記容姿の静的特徴は、身体の一部または全部の大きさ、形状または色を含む、
請求項4に記載のプログラム。
【請求項6】
前記特徴情報は、前記特定のキャラクタに適していると予測された視覚的コンテンツの視覚的特徴を表すテキストを含み、
前記コンピュータを、第1条件が成立する場合に、前記視覚的特徴を表すテキストから容姿の準静的特徴を表すテキストを除外したテキストに基づいて前記第2モデル入力を生成する手段、として機能させる、
請求項1に記載のプログラム。
【請求項7】
前記第1条件は、前記候補コンテンツの公開予定日時が前記特定のキャラクタの朝の支度後から入浴前までの時間帯に属していることを必要条件として含む、
請求項6に記載のプログラム。
【請求項8】
前記第1条件は、前記候補コンテンツの公開予定日時が前記特定のキャラクタの朝の支度後から入浴前までの時間帯に属し、かつ当該候補コンテンツが当該公開予定日時の属する日に当該時間帯内で第2番目以降に公開される視覚的コンテンツであることを必要条件として含む、
請求項6に記載のプログラム。
【請求項9】
前記特定のキャラクタに設定されたプロフィール情報および前記複数の参照キャラクタのプロフィール情報は、それぞれ、性別、職業、年齢、居住地域、容姿の特徴、または服装もしくはメイクの嗜好の少なくとも1つに関する情報を含む、
請求項1に記載のプログラム。
【請求項10】
前記候補コンテンツを出力する手段は、前記特定のキャラクタに関連付けられる管理ユーザへ当該候補コンテンツを出力し、
前記コンピュータを、前記候補コンテンツに対する前記管理ユーザからの承認に応じて、当該候補コンテンツを外部に公開する手段、としてさらに機能させる、
請求項1に記載のプログラム。
【請求項11】
前記コンピュータを、前記特定のキャラクタに関連付けられる1以上のメンバーからなる組織の意思決定内容を、前記第2モデルまたは前記第2モデル入力に反映する手段、としてさらに機能させる、
請求項1に記載のプログラム。
【請求項12】
前記コンピュータを、前記特定のキャラクタに関連付けられるメンバーからなるコミュニティ内での当該メンバーのコメントまたは発言の傾向を、前記第2モデルまたは前記第2モデル入力に反映する手段、としてさらに機能させる、
請求項1に記載のプログラム。
【請求項13】
前記外部に公開した視覚的コンテンツは、SNS(Social Networking Service)またはコンテンツ共有サービスに投稿された写真または動画を含む、
請求項1に記載のプログラム。
【請求項14】
コンピュータが、
特定のキャラクタに設定されたプロフィール情報に基づく第1モデル入力を、複数の参照キャラクタのプロフィール情報と当該複数の参照キャラクタの各々が外部に公開した視覚的コンテンツの特徴との関係を学習した第1モデルに与えることで、特定のキャラクタに適していると予測された視覚的コンテンツの特徴を表す特徴情報を取得するステップと、
前記特徴情報に基づく第2モデル入力を、前記特定のキャラクタの容姿を被写体とする画像を生成するように学習した第2モデルに与えることで、前記特定のキャラクタの容姿を被写体とし、かつ前記第2モデル入力に応じた特徴を備えた視覚的コンテンツである候補コンテンツを取得するステップと、
前記候補コンテンツを出力するステップと
を実行する方法。
【請求項15】
特定のキャラクタに設定されたプロフィール情報に基づく第1モデル入力を、複数の参照キャラクタのプロフィール情報と当該複数の参照キャラクタの各々が外部に公開した視覚的コンテンツの特徴との関係を学習した第1モデルに与えることで、特定のキャラクタに適していると予測された視覚的コンテンツの特徴を表す特徴情報を取得する手段と、
前記特徴情報に基づく第2モデル入力を、前記特定のキャラクタの容姿を被写体とする画像を生成するように学習した第2モデルに与えることで、前記特定のキャラクタの容姿を被写体とし、かつ前記第2モデル入力に応じた特徴を備えた視覚的コンテンツである候補コンテンツを取得する手段と、
前記候補コンテンツを出力する手段と
を具備する、情報処理装置。
【請求項16】
第1情報処理装置と第2情報処理装置とを具備するシステムであって、
前記第1情報処理装置は、
特定のキャラクタに設定されたプロフィール情報に基づく第1モデル入力を、複数の参照キャラクタのプロフィール情報と当該複数の参照キャラクタの各々が外部に公開した視覚的コンテンツの特徴との関係を学習した第1モデルに与えることで、特定のキャラクタに適していると予測された視覚的コンテンツの特徴を表す特徴情報を取得する手段と、
前記特徴情報に基づく第2モデル入力を、前記特定のキャラクタの容姿を被写体とする画像を生成するように学習した第2モデルに与えることで、前記特定のキャラクタの容姿を被写体とし、かつ前記第2モデル入力に応じた特徴を備えた視覚的コンテンツである候補コンテンツを取得する手段と、
前記候補コンテンツを前記第2情報処理装置へ出力する手段と
を備える、
システム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理装置、方法、プログラム、およびシステムに関する。
【背景技術】
【0002】
従来、ユーザとの間でテキストまたは音声により対話するエージェント対話システムが知られている。特許文献1には、個性を持たせたキャラクタが、その個性に応じたテキストを自動的に返答することを企図した技術的思想が開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1の技術的思想では、キャラクタの個性に応じたテキストを自動的に返答することで、当該キャラクタに対する親近感やその存在のリアリティを高められる可能性がある。
【0005】
他方、例えば現実世界における有名人やインフルエンサーは、自らのオフタイムまたはオンタイムにおける活動の様子を撮影した写真や動画をSNS(Social Networking Service)投稿し、受け手の興味関心を惹きつけている。架空のキャラクタについても同様に、写真や動画などの視覚的コンテンツが、当該キャラクタに対して受け手が抱く親近感または当該キャラクタの存在のリアリティを高めるツールとして活用する余地がある。しかしながら、キャラクタの活動記録としての視覚的コンテンツは、単に当該キャラクタを被写体とするだけでは十分とはいい難く、背景(撮影場所)や活動の内容、服装、などが本人の個性や投稿時のトレンドなどの観点からふさわしいものであることが理想的である。このため、キャラクタの活動記録としてふさわしい視覚的コンテンツを高頻度かつ適時に準備することは容易でない。そして、特許文献1の技術的思想を参酌しても、キャラクタの活動記録としてふさわしい視覚的コンテンツを自動的に生成することはできない。
【0006】
本開示の目的は、キャラクタの活動記録としてふさわしい視覚的コンテンツの準備を支援することである。
【課題を解決するための手段】
【0007】
本開示の一態様のプログラムは、コンピュータを、特定のキャラクタに設定されたプロフィール情報に基づく第1モデル入力を、複数の参照キャラクタのプロフィール情報と当該複数の参照キャラクタの各々が外部に公開した視覚的コンテンツの特徴との関係を学習した第1モデルに与えることで、特定のキャラクタに適していると予測された視覚的コンテンツの特徴を表す特徴情報を取得する手段、特徴情報に基づく第2モデル入力を、特定のキャラクタの容姿を被写体とする画像を生成するように学習した第2モデルに与えることで、特定のキャラクタの容姿を被写体とし、かつ第2モデル入力に応じた特徴を備えた視覚的コンテンツである候補コンテンツを取得する手段、候補コンテンツを出力する手段、として機能させる。
【図面の簡単な説明】
【0008】
【
図1】本実施形態の情報処理システムの構成を示すブロック図である。
【
図2】本実施形態のクライアント装置の構成を示すブロック図である。
【
図3】本実施形態のサーバの構成を示すブロック図である。
【
図4】本実施形態の第1モデルの学習の概要の説明図である。
【
図6】本実施形態のプロフィールテーブルのデータ構造を示す図である。
【
図7】本実施形態の投稿ログテーブルのデータ構造を示す図である。
【
図8】本実施形態の投稿ログ収集処理のフローチャートである。
【
図9】本実施形態の視覚的コンテンツ取得処理のフローチャートである。
【発明を実施するための形態】
【0009】
以下、本発明の一実施形態について、図面に基づいて詳細に説明する。なお、実施形態を説明するための図面において、同一の構成要素には原則として同一の符号を付し、その繰り返しの説明は省略する。
【0010】
(1)情報処理システムの構成
情報処理システムの構成について説明する。
図1は、本実施形態の情報処理システムの構成を示すブロック図である。
【0011】
図1に示すように、情報処理システム1は、クライアント装置10と、サーバ30とを備える。
クライアント装置10及びサーバ30は、ネットワーク(例えば、インターネット又はイントラネット)NWを介して接続される。
サーバ30及び外部システム50は、ネットワークNWを介して接続される。
【0012】
クライアント装置10は、サーバ30にリクエストを送信する情報処理装置の一例である。クライアント装置10は、例えば、スマートフォン、タブレット端末、又は、パーソナルコンピュータである。クライアント装置10のユーザは、例えば特定のキャラクタに関する視覚的コンテンツの公開の諾否を判断する権限を有する者(以下、「管理ユーザ」という)である。管理ユーザは、例えば、特定のキャラクタの管理権限を証明するNFT(Non-Fungible Token)を保有する者であってよく、この場合に管理ユーザは当該NFTの譲渡に伴って変化する。
【0013】
サーバ30は、クライアント装置10から送信されたリクエストに応じたレスポンスをクライアント装置10に提供する情報処理装置の一例である。サーバ30は、例えば、サーバコンピュータである。
【0014】
(1-1)クライアント装置の構成
クライアント装置の構成について説明する。
図2は、本実施形態のクライアント装置の構成を示すブロック図である。
【0015】
図2に示すように、クライアント装置10は、記憶装置11と、プロセッサ12と、入出力インタフェース13と、通信インタフェース14とを備える。クライアント装置10は、ディスプレイ21に接続される。
【0016】
記憶装置11は、プログラム及びデータを記憶するように構成される。記憶装置11は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、及び、ストレージ(例えば、フラッシュメモリ又はハードディスク)の組合せである。
【0017】
プログラムは、例えば、以下のプログラムを含む。
・OS(Operating System)のプログラム
・情報処理を実行するアプリケーション(例えば、ウェブブラウザ)のプログラム
【0018】
データは、例えば、以下のデータを含む。
・情報処理において参照されるデータベース
・情報処理を実行することによって得られるデータ(つまり、情報処理の実行結果)
【0019】
プロセッサ12は、記憶装置11に記憶されたプログラムを起動することによって、クライアント装置10の機能を実現するコンピュータである。プロセッサ12は、例えば、以下の少なくとも1つである。
・CPU(Central Processing Unit)
・GPU(Graphic Processing Unit)
・ASIC(Application Specific Integrated Circuit)
・FPGA(Field Programmable Gate Array)
【0020】
入出力インタフェース13は、クライアント装置10に接続される入力デバイスから情報(例えば、ユーザの指示)を取得し、かつ、クライアント装置10に接続される出力デバイスに情報(例えば、画像)を出力するように構成される。
【0021】
入力デバイスは、例えば、キーボード、ポインティングデバイス、タッチパネル、又は、それらの組合せである。
出力デバイスは、例えば、ディスプレイ21、スピーカ、又は、それらの組合せである。
【0022】
通信インタフェース14は、クライアント装置10と外部装置(例えばサーバ30)との間の通信を制御するように構成される。
【0023】
ディスプレイ21は、画像(静止画、または動画)を表示するように構成される。ディスプレイ21は、例えば、液晶ディスプレイ、または有機ELディスプレイである。
【0024】
(1-2)サーバの構成
サーバの構成について説明する。
図3は、本実施形態のサーバの構成を示すブロック図である。
【0025】
図3に示すように、サーバ30は、記憶装置31と、プロセッサ32と、入出力インタフェース33と、通信インタフェース34とを備える。
【0026】
記憶装置31は、プログラム及びデータを記憶するように構成される。記憶装置31は、例えば、ROM、RAM、及び、ストレージ(例えば、フラッシュメモリ又はハードディスク)の組合せである。
【0027】
プログラムは、例えば、以下のプログラムを含む。
・OSのプログラム
・情報処理を実行するアプリケーションのプログラム
【0028】
データは、例えば、以下のデータを含む。
・情報処理において参照されるデータベース
・情報処理の実行結果
【0029】
プロセッサ32は、記憶装置31に記憶されたプログラムを起動することによって、サーバ30の機能を実現するコンピュータである。プロセッサ32は、例えば、以下の少なくとも1つである。
・CPU
・GPU
・ASIC
・FPGA
【0030】
入出力インタフェース33は、サーバ30に接続される入力デバイスから情報(例えばユーザの指示)を取得し、かつ、サーバ30に接続される出力デバイスに情報(例えば画像)を出力するように構成される。
【0031】
入力デバイスは、例えば、キーボード、ポインティングデバイス、タッチパネル、又は、それらの組合せである。
出力デバイスは、例えば、ディスプレイである。
【0032】
通信インタフェース34は、サーバ30と外部装置(例えば、クライアント装置10、または外部システム50)との間の通信を制御するように構成される。
【0033】
(2)実施形態の一態様
本実施形態の一態様について説明する。
図4は、本実施形態の第1モデルの学習の概要の説明図である。
図5は、本実施形態の一態様の説明図である。
【0034】
図4に示すように、投稿者は、外部システム50に対して参照キャラクタP1の容姿を被写体とする写真または動画などの視覚的コンテンツ(以下、「参照キャラクタP1の視覚的コンテンツ」という)を投稿する。参照キャラクタP1は、投稿者と同一人物であってもよいし、投稿者が演じる架空のキャラクタであってもよい。典型的には、参照キャラクタP1は、実在のインフルエンサー、有名人、タレント、モデル、アイドル、俳優、歌手、ダンサー、スポーツ選手、などであるが、アバター、物語の登場人物、ご当地キャラクタ、などの架空のキャラクタであってもよい。また、参照キャラクタP1の数は2以上の任意の数であるが、後述する第1モデルLM31の学習に十分な規模を確保することが好ましい。
【0035】
外部システム50は、視覚的コンテンツの共有を含むサービスをユーザに提供する。外部システムの提供するサービスは、例えばInstagram(登録商標)などのSNSであるが、これに限られない。また、視覚的コンテンツの共有は、外部システムの主要なサービスではなく付帯的なサービスであってもよい。外部システム50は、投稿された参照キャラクタP1の視覚的コンテンツを蓄積し、ユーザに公開する。
【0036】
サーバ30は、参照キャラクタP1のプロフィール情報を取得する。参照キャラクタP1のプロフィール情報は、外部システム50から取得されてもよいし、参照キャラクタP1について取得可能な情報に基づいて作成されてもよい。参照キャラクタP1のプロフィール情報は、人間(例えば、情報処理システム1の運営者)によって作成されてもよいし、参照キャラクタP1について取得可能な情報を例えば学習済みモデルに要約・整形させることで作成されてもよい。
【0037】
また、サーバ30は、参照キャラクタP1の視覚的コンテンツ(視覚的コンテンツのメタデータを含み得る)を外部システム50から取得する。
【0038】
サーバ30は、取得した情報を学習データとして用い、参照キャラクタP1のプロフィール情報と、参照キャラクタP1の視覚的コンテンツの特徴との関係を学習した第1モデルLM31を作成する。学習の結果、第1モデルLM31は、所与のプロフィール情報に対し、当該プロフィール情報にふさわしい視覚的コンテンツの特徴を推論できる。
【0039】
図5に示すように、サーバ30は、特定のキャラクタC2のプロフィール情報を取得する。特定のキャラクタC2のプロフィール情報は、例えば、人間(例えば、特定のキャラクタC2の管理ユーザM3)によって作成されてもよいし、特定のキャラクタC2について人間(例えば、特定のキャラクタC2の管理ユーザM3、当該キャラクタC2のファン、またはそれらの組み合わせ)が指定した情報を例えば学習済みモデルに要約・整形させることで作成されてもよい。
【0040】
サーバ30は、特定のキャラクタC2のプロフィール情報に基づく第1モデル入力を、第1モデルLM31に与えることで、当該キャラクタC2に適している(例えば、当該キャラクタC2が公開するにふさわしい)と予測された視覚的コンテンツの特徴を表す特徴情報を取得する。
【0041】
さらに、サーバ30は、第2モデルLM32を用いて視覚的コンテンツを取得する。ここで、第2モデルLM32は、特定のキャラクタC2の容姿を被写体とする画像を生成するように予め学習されている。サーバ30は、取得した特徴情報に基づく第2モデル入力を、第2モデルLM32に与えることで、特定のキャラクタC2の容姿を被写体とし、かつ、当該特徴情報に応じた特徴を備えた視覚的コンテンツ(以下、「候補コンテンツ」という)を取得する。なお、第2モデルLM32は、1つに限らず複数の候補コンテンツを同時に生成してもよい。
【0042】
サーバ30は、取得した候補コンテンツを、特定のキャラクタC2の管理ユーザM3が操作するクライアント装置10へ出力(送信)する。管理ユーザM3は、候補コンテンツが特定のキャラクタC2の視覚的コンテンツとしてふさわしいか否かをチェックし、公開の承認または否認をクライアント装置10に指示する。クライアント装置10は、候補コンテンツの公開の認否をサーバ30へ送信する。サーバ30は、公開が認められた候補コンテンツを外部に公開する。
【0043】
視覚的コンテンツの外部への公開とは、第三者(管理ユーザM3とは異なる者であり、典型的には特定のキャラクタC2のファン)が当該視覚的コンテンツの全体、一部、またはそれらの加工版を、条件付きまたは無条件で閲覧できる状態にすることを指す。視覚的コンテンツの外部への公開は、以下のいずれであってもよい。
・SNS(Social Networking Service)またはコンテンツ共有サービス等への視覚的コンテンツの投稿
・視覚的コンテンツ(視覚的コンテンツのNFTを含み得る)の販売(オークションを含み得る)サービスへの視覚的コンテンツの出品
【0044】
(3)データベース
本実施形態のデータベースを構成するテーブルについて説明する。以下のテーブルは、記憶装置31に記憶される。
【0045】
(3-1)プロフィールテーブル
本実施形態のプロフィールテーブルについて説明する。
図6は、本実施形態のプロフィールテーブルのデータ構造を示す図である。
【0046】
プロフィールテーブルには、プロフィール情報が格納される。プロフィール情報は、参照キャラクタのプロフィールに関する情報である。
【0047】
図6に示すように、プロフィールテーブルは、「キャラクタID」フィールドと、「性別」フィールドと、「職業」フィールドと、「年齢」フィールドと、「フォロワ数」フィールドとを含む。各フィールドは、互いに関連付けられている。
【0048】
「キャラクタID」フィールドには、キャラクタIDが格納される。キャラクタIDは、該当レコードに対応する参照キャラクタを識別する情報である。一例として、キャラクタIDは、外部システム50が提供するサービスにおける参照キャラクタのアカウント名であってよい。
【0049】
「性別」フィールドには、性別情報が格納される。性別情報は、該当レコードに対応する参照キャラクタの性別に関する情報である。
【0050】
「職業」フィールドには、職業情報が格納される。職業情報は、該当レコードに対応する参照キャラクタの職業に関する情報である。
【0051】
「年齢」フィールドには、年齢情報が格納される。年齢情報は、該当レコードに対応する参照キャラクタの年齢に関する情報である。
【0052】
「フォロワ数」フィールドには、フォロワ数情報が格納される。フォロワ数情報は、例えば外部システムが提供するサービスにおける、該当レコードに対応する参照キャラクタのアカウントのフォロワ数に関する情報である。
【0053】
なお、プロフィール情報は、上記例に限られない。プロフィール情報は、上記例の一部または全部を含まなくてもよいし、以下の情報を含んでもよい。
・該当レコードに対応する参照キャラクタの居住地域に関する地域情報
・該当レコードに対応する参照キャラクタの容姿(例えば、人種、体型、など)の特徴に関する容姿情報
・該当レコードに対応する参照キャラクタの服装またはメイクなどの嗜好に関する嗜好情報
・該当レコードに対応する参照キャラクタのパーソナリティに関するパーソナリティ情報
・該当レコードに対応する参照キャラクタの生活リズム(例えば、朝の支度、入浴、食事、または就労の時刻)に関する生活リズム情報
【0054】
参照キャラクタに加え、候補コンテンツの作成対象となり得る(つまり、候補コンテンツの被写体となり得る)キャラクタのプロフィール情報も同一または類似のテーブルを用いて管理することができる。
【0055】
(3-2)投稿ログテーブル
本実施形態の投稿ログテーブルについて説明する。
図7は、本実施形態の投稿ログテーブルのデータ構造を示す図である。
【0056】
投稿ログテーブルには、投稿ログ情報が格納される。投稿ログ情報は、外部システム50が提供するサービスに投稿された、参照キャラクタの視覚的コンテンツのログに関する情報である。
【0057】
図7に示すように、投稿ログテーブルは、「投稿日時」フィールドと、「キャラクタID」フィールドと、「視覚的特徴」フィールドとを含む。各フィールドは、互いに関連付けられている。
【0058】
「投稿日時」フィールドには、投稿日時情報が格納される。投稿日時情報は、該当レコードに対応する視覚的コンテンツの投稿日時に関する情報である。
【0059】
「キャラクタID」フィールドには、キャラクタIDが格納される。キャラクタIDは、該当レコードに対応する視覚的コンテンツの被写体である参照キャラクタを識別する情報である。キャラクタIDは、プロフィールテーブル(
図6)におけるキャラクタIDと同一または1対1の関係にある。
【0060】
「視覚的特徴」フィールドには、視覚的特徴情報が格納される。視覚的特徴情報は、該当レコードに対応する視覚的コンテンツの視覚的特徴を表す情報である。視覚的特徴情報は、典型的にはテキスト情報である。サーバ30は、視覚的コンテンツに基づくモデル入力に対し、当該視覚的コンテンツの視覚的特徴を表すテキストを出力する学習済みモデルを利用して、かかる視覚的特徴情報を取得可能である。ただし、視覚的特徴情報として、視覚的コンテンツそのもの、またはその所在を示す情報(例えばURL)を用いることもできる。
【0061】
(4)情報処理
本実施形態の情報処理について説明する。
【0062】
(4-1)投稿ログ収集処理
本実施形態の投稿ログ収集処理について説明する。
図8は、本実施形態の投稿ログ収集処理のフローチャートである。
【0063】
投稿ログ収集処理は、例えば以下の開始条件の成立に応じて開始され得る。
・投稿ログ収集処理の開始指示が例えば情報処理システム1の運営者によってサーバ30に与えられた。
・前回の投稿ログ収集処理の実施から所定期間が経過した。
・所定の日時が到来した。
・プロフィールテーブル(
図6)が更新(レコードの挿入または削除を含み得る)された。
・候補コンテンツの作成対象となり得るキャラクタのプロフィール情報を管理するテーブルが更新(レコードの挿入または削除を含み得る)された。
【0064】
図8に示すように、サーバ30は、投稿コンテンツの取得(S130)を実行する。
具体的には、サーバ30は、外部システム50に投稿された視覚的コンテンツを取得する。ここで、取得される視覚的コンテンツは、過去の所定期間に投稿されたものに限られてよい。所定期間は、例えば、現時点から前回の投稿ログ収集処理の実施時点までの期間であってよい。
【0065】
一例として、サーバ30は、外部システム50によって提供されるAPI(Application Programming Interface)を用いて、またはスクレイピングによって、視覚的コンテンツを取得し得る。
【0066】
サーバ30は、さらに、各視覚的コンテンツのメタデータを取得し得る。メタデータは、以下の少なくとも1つを含むことができる。
・視覚的コンテンツの投稿時刻(投稿日時を含み得る)
・視覚的コンテンツの投稿者のアカウント名
・視覚的コンテンツの撮影場所
・視覚的コンテンツの公開に対する反響(例えば、閲覧数、または閲覧者からのリアクション数)
・視覚的コンテンツにタグ付けされたキャラクタ
【0067】
ステップS130の後に、サーバ30は、参照キャラクタの特定(S131)を実行する。
具体的には、サーバ30は、ステップS130において取得した各視覚的コンテンツに対応する参照キャラクタ(つまり、各視覚的コンテンツの被写体である参照キャラクタ)を特定する。一例として、サーバ30は、視覚的コンテンツの投稿者のアカウント名に基づいて、当該視覚的コンテンツに対応する参照キャラクタを特定する。これにより、ステップS130において取得した各視覚的コンテンツと、対応する参照キャラクタのプロフィール情報とが紐付けられる。
【0068】
ステップS131の後に、サーバ30は、投稿ログテーブルの更新(S132)を実行する。
具体的には、サーバ30は、ステップS130において取得した各視覚的コンテンツに対応する投稿ログ情報を投稿ログテーブル(
図7)に保存する。一例として、サーバ30は、既存の画像生成AI(Artificial Intelligence)サービスに視覚的コンテンツを読み込ませることで、当該視覚的コンテンツの視覚的特徴を表現するテキストを取得する。このテキストは、当該テキストの元となった視覚的コンテンツと同一または類似の視覚的コンテンツを画像生成AIに生成させるためのプロンプト(命令文)に相当する。画像生成AIサービスとして、例えば、Midjourney、またはStable Diffusionなどが利用可能である。サーバ30は、さらに、取得したプロンプトを、第2モデルに適した形式に変換してもよい。変換には、例えば、例えばChatGPTなどの大規模言語モデルを利用可能である。
【0069】
サーバ30は、ステップS130において取得した投稿日時情報と、ステップS130において取得した視覚的コンテンツの視覚的特徴情報(或いは、視覚的コンテンツそのもの)と、ステップS131において特定した参照キャラクタのキャラクタIDとを関連付けるレコードを投稿ログテーブル(
図7)に保存する。
【0070】
ステップS132の後に、サーバ30は、第1モデルの学習(S133)を実行する。
具体的には、サーバ30は、ステップS132における投稿ログテーブルの更新内容(つまり、追加された投稿ログ情報)と、各投稿ログ情報に対応する参照キャラクタのプロフィール情報とに基づく学習データを用いて、第1モデルの機械学習を行う。例えば、学習データは、参照キャラクタのプロフィール情報に基づく説明変数と、対応する視覚的コンテンツの特徴(例えば、投稿日時情報、視覚的特徴情報、またはそれらの組み合わせ)に基づく正解データとを含む。一例として、サーバ30は、例えばChatGPTなどの既存の学習済みモデルの追加学習(例えば、ファインチューニングまたは転移学習)を行うことで、第1モデルを作成または更新してもよい。
【0071】
なお、第1モデルの学習(S133)は、不要な場合にスキップされてよい。すなわち、第1モデルの学習(S133)は、投稿ログ収集処理に比べて長い間隔で繰り返し実行されてもよい。或いは、第1モデルの学習(S133)は、投稿ログ収集処理とは独立したタイミングで(例えば定期的に、または情報処理システム1の運営者からの要求に応じて)実行されてもよい。
【0072】
(4-2)視覚的コンテンツ取得処理
本実施形態の視覚的コンテンツ取得処理について説明する。
図9は、本実施形態の視覚的コンテンツ取得処理のフローチャートである。
【0073】
視覚的コンテンツ取得処理は、例えば以下の開始条件の成立に応じて開始され得る。
・視覚的コンテンツ取得処理の開始指示が例えば情報処理システム1の運営者、または特定のキャラクタの管理ユーザによってサーバ30に与えられた。
・前回の視覚的コンテンツ取得処理の実施から所定期間が経過した。
・所定の日時が到来した。
・プロフィールテーブル(
図6)が更新(レコードの挿入または削除を含み得る)された。
・候補コンテンツの作成対象となり得るキャラクタのプロフィール情報を管理するテーブルが更新(レコードの挿入または削除を含み得る)された。
・投稿ログテーブル(
図7)に新たな投稿ログ情報が格納された。
【0074】
図9に示すように、サーバ30は、プロフィール情報の取得(S230)を実行する。
具体的には、サーバ30は、視覚的コンテンツの取得対象となるキャラクタ(以下、「対象キャラクタ」という)のプロフィール情報を取得する。対象キャラクタは、候補コンテンツの作成対象となり得るキャラクタの全部であってもよいし、一部であってもよい。
【0075】
ステップS230の後に、サーバ30は、所望の視覚的コンテンツの特徴の取得(S231)を実行する。
具体的には、サーバ30は、ステップS230において取得した各対象キャラクタのプロフィール情報に基づく第1モデル入力を第1モデルに与えることで、当該対象キャラクタに適していると予測された視覚的コンテンツ(すなわち、所望の視覚的コンテンツ)の特徴を表す特徴情報を取得する。特徴情報は、テキスト形式のデータであってよい。一例として、サーバ30は、対象キャラクタのプロフィール情報を列挙したうえで、当該対象キャラクタに適している(投稿しそうな)視覚的コンテンツの特徴の出力を要求するプロンプトを第1モデル入力とすることができる。特徴情報は、例えば、画像生成AIに画像を生成させるためのプロンプトと、生成された画像の公開に適した時刻ないし日時の情報とを含み得る。
【0076】
ステップS231の後に、サーバ30は、モデル入力の生成(S232)を実行する。
具体的には、サーバ30は、ステップS231において取得した各対象キャラクタの特徴情報に基づいて、当該対象キャラクタの第2モデル入力を生成する。一例として、サーバ30は、ステップS231において取得した特徴情報のうち、候補コンテンツに反映しないで欲しい特徴に関する情報を取り除く(例えばプロンプトから削除する)ことで第2モデル入力を生成する。候補コンテンツに反映しないで欲しい特徴は、例えば以下の少なくとも1つを含むことができる。
・容姿の静的特徴
・容姿の準静的特徴(第1条件が成立する場合)
【0077】
ここで、容姿の静的特徴とは、身体の一部または全部の大きさ、形状または色(例えば、胸のサイズ、目、肌もしくは髪の色、髪の長さ、身長)などの長期間(例えば1ヶ月以上)に亘って変動しない特徴を指す。また、容姿の準静的特徴とは、メイク、服飾品、または髪型などの短期間(例えば1日程度)のサイクルで変動し得るが、同一サイクル内では通常変動しない特徴を指す。他方、容姿の動的特徴として、例えば、表情、姿勢、ジェスチャなどが挙げられる。
【0078】
第1条件は、候補コンテンツの公開予定日時が対象キャラクタの朝の支度後から入浴前までの時間帯(以下、「活動時間帯」という)に属していることを必要条件として含み得る。ここで、公開予定日時は、例えば特徴情報に含まれる時刻ないし日時に合致する時刻ないし日時である。また、対象キャラクタの朝の支度時刻および入浴時刻はプロフィール情報に含まれ得る。すなわち、例えば、公開予定日時が対象キャラクタの朝の支度時刻前(かつ起床時刻後)である場合、または入浴時刻後(かつ就寝時刻前)である場合に、サーバ30は、「寝巻」、「ノーメイク」などの準静的特徴を特徴情報から取り除かなくてもよい。また、第1条件は、候補コンテンツが公開予定日時の属する日の活動時間帯で第2番目以降に公開される視覚的コンテンツであることを必要条件としてさらに含んでもよい。すなわち、候補コンテンツが公開予定日時の属する日の活動時間帯で最初に公開される視覚的コンテンツである場合に、サーバ30は、準静的特徴を特徴情報から取り除かなくてもよい。これにより、同じ日の活動時間帯内では服装やメイクなどの準静的特徴の変動を抑制しながら、準静的特徴を日々変化させることができる。
【0079】
ステップS232の後に、サーバ30は、候補コンテンツの取得(S233)を実行する。
具体的には、サーバ30は、ステップS232において生成した各対象キャラクタの第2モデル入力を、第2モデルに与えることで、当該対象キャラクタの候補コンテンツを取得する。第2モデルは、画像生成AI(例えば、Stable Diffusion)に対し、対象キャラクタの容姿を被写体とする画像を生成するように追加学習を行うことで予め作成されている。追加学習には、例えば、以下の機械学習手法を利用可能であるがこれらに限られない。
・Dreambooth
・Textual Inversion
・LoRA
・LoCon
・LoHA
・HyperNetworks
・DreamArtist
・Aesthetic Gradients
【0080】
第2モデル入力を与えることで、第2モデルは、対象キャラクタの容姿を被写体とし、かつ当該第2モデル入力に応じた特徴を備えた1以上の視覚的コンテンツを生成して出力する。サーバ30は、出力された視覚的コンテンツを候補コンテンツとして取得する。
【0081】
ステップS233の後に、サーバ30は、候補コンテンツの出力(S234)を実行する。
具体的には、サーバ30は、ステップS233において生成した各対象キャラクタの候補コンテンツを、当該対象キャラクタの管理ユーザの操作するクライアント装置10へ出力(送信)する。クライアント装置10は、受信した候補コンテンツをディスプレイ21に表示し、管理ユーザの承認を求める。管理ユーザは、候補コンテンツの品質が十分か、また候補コンテンツが対象キャラクタのブランディングやファン層の観点からふさわしいか、などをチェックし、公開可能と判断すれば承認をクライアント装置10に指示し、公開不可と判断すれば否認をクライアント装置10に指示する。クライアント装置10は、各候補コンテンツの認否の結果をサーバ30へ送信する。
【0082】
ステップS234において出力した視覚的コンテンツが管理ユーザによって承認された場合に、サーバ30は候補コンテンツの公開(S235)を実行する。
具体的には、サーバ30は、候補コンテンツを、対象キャラクタの視覚的コンテンツとして外部に公開する。一例として、サーバ30は、視覚的コンテンツまたはそのNFTを販売するサービスに候補コンテンツを出品する。別の例として、サーバ30は、会員制または課金制の視覚的コンテンツの共有サービスに候補コンテンツを共有する。さらなる別の例として、サーバ30は、SNSに候補コンテンツを投稿する。
【0083】
他方、ステップS234において出力した視覚的コンテンツが管理ユーザによって否認された場合に、サーバ30は候補コンテンツ取得処理を終了する。或いは、サーバ30は、いずれの候補コンテンツも否認された対象キャラクタについて、候補コンテンツ取得処理を再実行してもよい。これにより、対象キャラクタの管理ユーザが納得するまで候補コンテンツを繰り返し提供することができる。
【0084】
(5)小括
以上説明したように、本実施形態のサーバ30は、特定のキャラクタに設定されたプロフィール情報に基づく第1モデル入力を、複数の参照キャラクタのプロフィール情報と当該複数の参照キャラクタの各々が外部に公開した視覚的コンテンツの特徴との関係を学習した第1モデルに与えることで、特定のキャラクタに適していると予測された視覚的コンテンツの特徴を表す特徴情報を取得する。サーバ30は、取得した特徴情報に基づく第2モデル入力を、特定のキャラクタの容姿を被写体とする画像を生成するように学習した第2モデルに与えることで、特定のキャラクタの容姿を被写体とし、かつ第2モデル入力に応じた特徴を備えた視覚的コンテンツである候補コンテンツを取得する。サーバ30は、候補コンテンツを出力する。これにより、特定のキャラクタの容姿を被写体とし、かつ当該キャラクタのプロフィール設定にふさわしい特徴を備えた候補コンテンツ、つまり当該キャラクタの活動記録としてのリアリティがある候補コンテンツを得ることができる。
【0085】
複数の参照キャラクタの各々が外部に公開した視覚的コンテンツの特徴は、当該視覚的コンテンツそのものまたは当該視覚的コンテンツの視覚的特徴を表すテキストを含んでもよい。これにより、第1モデルの学習や推論を適切に行うことができる。
【0086】
複数の参照キャラクタの各々が外部に公開した視覚的コンテンツの特徴は、当該視覚的コンテンツの公開時刻、または当該視覚的コンテンツの公開に対する反響の少なくとも一方に関する情報をさらに含んでもよい。これにより、視覚的コンテンツの公開時刻を特徴として学習や推論を行ったり、公開に対する反響の大きかった視覚的コンテンツを重視して学習や推論を行ったりすることができる。
【0087】
特徴情報は、特定のキャラクタに適していると予測された視覚的コンテンツの視覚的特徴を表すテキストを含んでもよい。サーバ30は、視覚的特徴を表すテキストから容姿の静的特徴を表すテキストを除外したテキストに基づいて第2モデル入力を生成してもよい。これにより、キャラクタの容姿のうち長期間(例えば1ヶ月以上)に亘って変動しない静的特徴が不自然な頻度で変更されるのを防ぐことができる。
【0088】
容姿の静的特徴は、身体の一部または全部の大きさ、形状または色を含んでもよい。これにより、候補コンテンツにおいてキャラクタの身体の一部または全部の大きさ、形状または色が不自然な頻度で変更されるのを防ぐことができる。
【0089】
特徴情報は、特定のキャラクタに適していると予測された視覚的コンテンツの視覚的特徴を表すテキストを含んでもよい。サーバ30は、第1条件が成立する場合に、視覚的特徴を表すテキストから容姿の準静的特徴を表すテキストを除外したテキストに基づいて第2モデル入力を生成してもよい。これにより、キャラクタの容姿のうち短期間(例えば1日程度)のサイクルで変動し得るが同一サイクル内では通常変動しない特徴である準静的特徴が不自然な頻度で変更されるのを防ぐことができる。
【0090】
第1条件は、候補コンテンツの公開予定日時が特定のキャラクタの朝の支度後から入浴前までの時間帯に属していることを必要条件として含んでもよい。これにより、キャラクタが朝の支度をしてから入浴するまで容姿の準静的特徴の変動を抑制することができる。
【0091】
第1条件は、候補コンテンツの公開予定日時が特定のキャラクタの朝の支度後から入浴前までの時間帯に属し、かつ当該候補コンテンツが当該公開予定日時の属する日に当該時間帯内で第2番目以降に公開される視覚的コンテンツであることを必要条件として含んでもよい。これにより、1日のうち最初に公開される候補コンテンツではキャラクタの容姿の準静的特徴が特徴情報に基づいて決定され得るが、当該準静的特徴を同じ日のより遅い時間に公開される可能性のある候補コンテンツにおいても維持することができる。
【0092】
特定のキャラクタに設定されたプロフィール情報および複数の参照キャラクタのプロフィール情報は、それぞれ、性別、職業、年齢、居住地域、容姿の特徴、または服装もしくはメイクの嗜好の少なくとも1つに関する情報を含んでもよい。これにより、第1モデルから妥当な特徴情報を得ることができる。
【0093】
サーバ30は、特定のキャラクタに関連付けられる管理ユーザへ当該候補コンテンツを出力し、候補コンテンツに対する管理ユーザからの承認に応じて、当該候補コンテンツを外部に公開してもよい。これにより、管理ユーザによって品質が不十分と判断された候補コンテンツや、キャラクタのブランディングやファン層などの観点からふさわしくないと判断された候補コンテンツの公開を抑止することができる。
【0094】
外部に公開した視覚的コンテンツは、SNS(Social Networking Service)またはコンテンツ共有サービスに投稿された写真または動画を含んでもよい。これにより、第1モデルから妥当な特徴情報を得ることができる。
【0095】
(6)その他の変形例
記憶装置11は、ネットワークNWを介して、クライアント装置10と接続されてもよい。ディスプレイ21は、クライアント装置10に内蔵されてもよい。記憶装置31は、ネットワークNWを介して、サーバ30と接続されてもよい。
【0096】
上記の情報処理の各ステップは、クライアント装置10及びサーバ30の何れでも実行可能である。
【0097】
上記説明では、参照キャラクタの視覚的コンテンツとして、SNSまたはコンテンツ共有サービスに投稿されたものを前提とした。しかしながら、参照キャラクタの視覚的コンテンツは、投稿されたコンテンツに限られず、外部に様々な態様で公開されたコンテンツ(例えば、出品されたコンテンツ)を含み得る。
【0098】
サーバ30は、対象キャラクタに関連付けられる1以上のメンバーからなる組織の意思決定内容を、第2モデルまたは第2モデル入力に反映してもよい。対象キャラクタに関連付けられる1以上のメンバーは、例えば対象キャラクタに関するガバナンストークンまたはNFTの保有者であってもよいし、対象キャラクタのファンクラブのメンバーであってもよい。組織は、DAO(Decentralized Autonomous Organization)であってよく、この場合に、ガバナンストークンの保有者による投票(ただし、各人の投票権はガバナンストークンの保有数に依存する)によって当該組織の意思決定が行われる。意思決定内容は、例えば、対象キャラクタの容姿の特徴(典型的には準静的特徴であるが他の特徴を含み得る)の変更や、対象キャラクタに取ってほしい行動(食べて欲しい物、行って欲しい場所、など)である。例えば、サーバ30は、意思決定内容に応じたプロンプトを第2モデル入力に埋め込んでもよいし、意思決定内容に応じて第2モデルの追加学習を行ってもよい。これにより、対象キャラクタの容姿を対象キャラクタのファンの嗜好に近づけることができる。
【0099】
サーバ30は、対象キャラクタに関連付けられるメンバーからなるコミュニティ内での当該メンバーのコメントまたは発言の傾向を、第2モデルまたは第2モデル入力に反映してもよい。対象キャラクタに関連付けられる1以上のメンバーは、例えば対象キャラクタに関するガバナンストークンまたはNFTの保有者であってもよいし、対象キャラクタのファンクラブのメンバーであってもよい。コミュニティは、例えばチャットグループであってよい。メンバーのコメントまたは発言が肯定的な傾向にある場合に、サーバ30は、ポジティブな印象に結び付けられる特徴(例えば、表情、姿勢、ジェスチャ、メイク、服飾品、髪型、活動)などに関するプロンプトを第2モデル入力に埋め込んでもよいし、当該特徴に応じて第2モデルの追加学習を行ってもよい。他方、メンバーのコメントまたは発言が否定的な傾向にある場合に、サーバ30は、ネガティブな印象に結び付けられる特徴(例えば、表情、姿勢、ジェスチャ、メイク、服飾品、髪型、活動)などに関するプロンプトを第2モデル入力に埋め込んでもよいし、当該特徴に応じて第2モデルの追加学習を行ってもよい。これにより、対象キャラクタがファンの反応に喜んだり落ち込んだりした様子を表す候補コンテンツが生成されるので、ファンは対象キャラクタの存在をよりリアルに感じることができる。
【0100】
以上、本発明の実施形態について詳細に説明したが、本発明の範囲は上記の実施形態に限定されない。また、上記の実施形態は、本発明の主旨を逸脱しない範囲において、種々の改良や変更が可能である。また、上記の実施形態及び変形例は、組合せ可能である。
【符号の説明】
【0101】
1 :情報処理システム
10 :クライアント装置
11 :記憶装置
12 :プロセッサ
13 :入出力インタフェース
14 :通信インタフェース
21 :ディスプレイ
30 :サーバ
31 :記憶装置
32 :プロセッサ
33 :入出力インタフェース
34 :通信インタフェース
50 :外部システム
【要約】
【課題】キャラクタの活動記録としてふさわしい視覚的コンテンツの準備を支援する。
【解決手段】本開示の一態様のプログラムは、コンピュータを、特定のキャラクタに設定されたプロフィール情報に基づく第1モデル入力を、複数の参照キャラクタのプロフィール情報と当該複数の参照キャラクタの各々が外部に公開した視覚的コンテンツの特徴との関係を学習した第1モデルに与えることで、特定のキャラクタに適していると予測された視覚的コンテンツの特徴を表す特徴情報を取得する手段、特徴情報に基づく第2モデル入力を、特定のキャラクタの容姿を被写体とする画像を生成するように学習した第2モデルに与えることで、特定のキャラクタの容姿を被写体とし、かつ第2モデル入力に応じた特徴を備えた視覚的コンテンツである候補コンテンツを取得する手段、候補コンテンツを出力する手段、として機能させる。
【選択図】
図5