IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ アナザーボール ピーティーイー.エルティーディー.の特許一覧

特許7565122コンピュータプログラム、システム、サーバ装置、サーバ装置の制御方法
<>
  • 特許-コンピュータプログラム、システム、サーバ装置、サーバ装置の制御方法 図1
  • 特許-コンピュータプログラム、システム、サーバ装置、サーバ装置の制御方法 図2
  • 特許-コンピュータプログラム、システム、サーバ装置、サーバ装置の制御方法 図3
  • 特許-コンピュータプログラム、システム、サーバ装置、サーバ装置の制御方法 図4
  • 特許-コンピュータプログラム、システム、サーバ装置、サーバ装置の制御方法 図5
  • 特許-コンピュータプログラム、システム、サーバ装置、サーバ装置の制御方法 図6
  • 特許-コンピュータプログラム、システム、サーバ装置、サーバ装置の制御方法 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-10-02
(45)【発行日】2024-10-10
(54)【発明の名称】コンピュータプログラム、システム、サーバ装置、サーバ装置の制御方法
(51)【国際特許分類】
   G06T 13/40 20110101AFI20241003BHJP
【FI】
G06T13/40
【請求項の数】 25
(21)【出願番号】P 2024020547
(22)【出願日】2024-02-14
【審査請求日】2024-02-21
【早期審査対象出願】
(73)【特許権者】
【識別番号】523230351
【氏名又は名称】アナザーボール ピーティーイー.エルティーディー.
【氏名又は名称原語表記】AnotherBall Pte.Ltd.
【住所又は居所原語表記】105 CECIL STREET #24-02 THE OCTAGON SINGAPORE 069534
(74)【代理人】
【識別番号】110003281
【氏名又は名称】弁理士法人大塚国際特許事務所
(72)【発明者】
【氏名】福永 尚爾
【審査官】鈴木 肇
(56)【参考文献】
【文献】特開2021-111102(JP,A)
【文献】国際公開第2023/176210(WO,A1)
【文献】国際公開第2022/244120(WO,A1)
【文献】米国特許出願公開第2011/0022965(US,A1)
【文献】特開2023-004585(JP,A)
【文献】河谷 大和, 柏崎 礼生, 高井 昌彰, 高井 那美,アニメ作品における人物キャラクター画像の萌え特徴分析とその応用,FIT2009 第8回情報科学技術フォーラム 講演論文集,日本,社団法人 情報処理学会,2009年,第3分冊,pp.321-322
(58)【調査した分野】(Int.Cl.,DB名)
G06T 1/00 - 7/90
G06T 11/00 -19/20
G06V 10/00 -20/90
G06V 30/418
G06V 40/16
G06V 40/20
H04L 51/00 -51/58
H04L 67/00 -67/75
H04N 7/10
H04N 7/14 - 7/173
H04N 7/20 - 7/56
H04N 21/00 -21/858
(57)【特許請求の範囲】
【請求項1】
コンピュータに、
入力されたキャラクタを含む画像に基づき、互いに異なる角度もしくは姿勢で該キャラクタが描画される複数の派生パーツ画像を生成する生成工程と、
前記派生パーツ画像を、前記キャラクタを動作させるための配信用画像として登録し、前記複数の派生パーツ画像を、前記複数の派生パーツ画像の生成に用いたパラメータと紐付けて管理する登録工程と
を実行させるためのコンピュータプログラム。
【請求項2】
前記生成工程では、入力されたキャラクタを含む画像に基づき、互いに異なる角度もしくは姿勢で前記キャラクタが描画される派生画像を生成し、該派生画像における前記キャラクタのパーツに基づいて該パーツの複数の派生パーツ画像を生成することを特徴とする請求項1に記載のコンピュータプログラム。
【請求項3】
前記コンピュータプログラムはさらに、前記互いに異なる角度もしくは姿勢を指定する工程を前記コンピュータに実行させることを特徴とする請求項1に記載のコンピュータプログラム。
【請求項4】
前記生成工程では、少なくとも派生画像を出力するよう学習された画像生成モデルを用いて前記画像から前記派生画像を生成することを特徴とする請求項に記載のコンピュータプログラム。
【請求項5】
前記コンピュータプログラムは、前記派生画像の生成条件としてユーザにより入力された入力条件である前記パラメータを受け付ける受付工程を前記コンピュータに実行させ、
前記生成工程では、前記入力条件に従って前記画像生成モデルを用いて前記画像から前記派生画像を生成することを特徴とする請求項に記載のコンピュータプログラム。
【請求項6】
前記生成工程では、前記キャラクタの表情ごとの派生画像を生成することを特徴とする請求項に記載のコンピュータプログラム。
【請求項7】
前記キャラクタの顔が見えている範囲での派生画像の数は、前記キャラクタの顔が見えていない範囲での派生画像の数よりも多いことを特徴とする請求項に記載のコンピュータプログラム。
【請求項8】
前記パラメータは、生成される派生画像内のキャラクタの描画される角度の範囲に関する指示を含むことを特徴とする請求項に記載のコンピュータプログラム。
【請求項9】
前記生成工程では、前記コンピュータが取得した前記キャラクタの性格に関する情報に基づいて前記派生画像および前記派生パーツ画像のうち少なくとも一方を生成することを特徴とする請求項に記載のコンピュータプログラム。
【請求項10】
前記キャラクタが正面を向いた派生画像から生成する派生パーツ画像の数は、前記キャラクタが真後ろを向いた派生画像から生成する派生パーツ画像の数よりも多いことを特徴とする請求項に記載のコンピュータプログラム。
【請求項11】
前記登録工程では、前記派生画像と、前記複数の派生パーツ画像と、該派生画像における該複数の派生パーツ画像の位置を表す情報と、を登録することを特徴とする請求項に記載のコンピュータプログラム。
【請求項12】
前記登録工程では、前記派生画像と前記パーツとを対応付けて階層的に管理することを特徴とする請求項2に記載のコンピュータプログラム。
【請求項13】
前記パーツは、前記キャラクタの目、口、眉を含むことを特徴とする請求項に記載のコンピュータプログラム。
【請求項14】
前記角度は前記キャラクタの顔の角度であることを特徴とする請求項1に記載のコンピュータプログラム。
【請求項15】
前記角度は、前記キャラクタの顔が左右上下を向いた際の角度範囲内の角度であることを特徴とする請求項1に記載のコンピュータプログラム。
【請求項16】
前記派生画像における前記キャラクタの姿勢は、前記画像における前記キャラクタの姿勢とは異なり、
前記派生画像における前記キャラクタの角度は、前記画像における前記キャラクタの角度とは異なることを特徴とする請求項に記載のコンピュータプログラム。
【請求項17】
前記登録工程では、前記画像における前記キャラクタの特徴情報を登録することを特徴とする請求項1に記載のコンピュータプログラム。
【請求項18】
前記特徴情報は、前記キャラクタの髪の毛の線および/または顔の輪郭を含むことを特徴とする請求項17に記載のコンピュータプログラム。
【請求項19】
前記画像は、前記キャラクタの上半身の一部もしくは全部を含む画像であることを特徴とする請求項1に記載のコンピュータプログラム。
【請求項20】
前記コンピュータプログラムは、前記派生画像および前記複数の派生パーツ画像と、配信者の動作を表す動作情報と、を配信する配信工程を前記コンピュータに実行させることを特徴とする請求項に記載のコンピュータプログラム。
【請求項21】
前記登録工程では、前記パーツごとに、該パーツの複数の派生パーツ画像、該パーツの親パーツを特定する情報、該親パーツに対する該パーツの相対的な位置、該複数の派生パーツ画像の再生速度、の一部もしくは全てをメタデータとして生成して管理することを特徴とする請求項2に記載のコンピュータプログラム。
【請求項22】
前記生成工程では、互いに異なる角度もしくは姿勢で前記キャラクタが描画される派生画像から前記キャラクタのパーツを抽出し、該抽出したパーツに基づいて該パーツの複数の派生パーツ画像を生成することを特徴とする請求項1に記載のコンピュータプログラム。
【請求項23】
配信者端末と、サーバ装置と、視聴者端末と、を有するシステムであって、
前記配信者端末は、
配信者の動作を表す動作情報を取得する取得手段と、
前記動作情報を前記サーバ装置に対して送信する第1送信手段と
を備え、
前記サーバ装置は、
入力されたキャラクタを含む画像に基づき、互いに異なる角度もしくは姿勢で該キャラクタが描画される複数の派生パーツ画像を生成する第1生成手段と、
前記派生パーツ画像を、前記キャラクタを動作させるための配信用画像として登録し、前記複数の派生パーツ画像を、前記複数の派生パーツ画像の生成に用いたパラメータと紐付けて管理する登録工程と、
前記配信者端末から受信した動作情報と、前記第1生成手段により生成された派生パーツ画像と、を前記視聴者端末に対して送信する第2送信手段と
を備え、
前記視聴者端末は、
前記サーバ装置から受信した派生パーツ画像および動作情報に基づいて、前記配信者の動きに応じたキャラクタの画像を生成する第2生成手段と、
前記第2生成手段が生成した画像を表示部に表示させる表示制御手段と
を備えることを特徴とするシステム。
【請求項24】
入力されたキャラクタを含む画像に基づき、互いに異なる角度もしくは姿勢で該キャラクタが描画される複数の派生パーツ画像を生成する生成手段と、
前記派生パーツ画像を、前記キャラクタを動作させるための配信用画像として登録し、前記複数の派生パーツ画像を、前記複数の派生パーツ画像の生成に用いたパラメータと紐付けて管理する登録手段と
を実行させるためのサーバ装置。
【請求項25】
サーバ装置の制御方法であって、
前記サーバ装置の生成手段が、入力されたキャラクタを含む画像に基づき、互いに異なる角度もしくは姿勢で該キャラクタが描画される複数の派生パーツ画像を生成する生成工程と、
前記サーバ装置の登録手段が、前記派生パーツ画像を、前記キャラクタを動作させるための配信用画像として登録し、前記複数の派生パーツ画像を、前記複数の派生パーツ画像の生成に用いたパラメータと紐付けて管理する登録工程と
を備えることを特徴とする制御方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、キャラクタ画像の生成技術に関する。
【背景技術】
【0002】
特許文献1には、入力されたキャラクタ画像に対し、目や口を開閉した状態の派生画像を生成し、その派生画像を利用することで表情が変化する動画像を生成する、ことが開示されている。
【0003】
特許文献2には、入力された画像のキャラクタの骨格の特徴量を抽出し、抽出された特徴量と類似する特徴量を有する類似画像をDBから抽出し、類似画像に描画されるキャラクタの骨格の角度に関する値をもとに入力された画像のキャラクタに該骨格を適用した場合の画像を生成する、ことが開示されている。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2021-111102号公報
【文献】特開2021-071843号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1に開示の技術では、適用対象が顔のみであり、たとえば、振り向くような動作を行うようなアバターに対しては適用が限定的である。
【0006】
特許文献2に開示の技術では、入力画像のキャラクタについて、取らせたい姿勢に応対する身体部分が描画されている画像が必要であることに加え、このような画像がDBに蓄積されている必要がある。
【0007】
本発明では、このような従来技術に鑑み、よりバリエーション豊かにキャラクタを動作させるための配信用画像の生成技術を提供する。
【課題を解決するための手段】
【0008】
本発明の一様態は、コンピュータに、入力されたキャラクタを含む画像に基づき、互いに異なる角度もしくは姿勢で該キャラクタが描画される複数の派生パーツ画像を生成する生成工程と、前記派生パーツ画像を、前記キャラクタを動作させるための配信用画像として登録し、前記複数の派生パーツ画像を、前記複数の派生パーツ画像の生成に用いたパラメータと紐付けて管理する登録工程とを実行させることを特徴とする。
【発明の効果】
【0009】
本発明の構成によれば、よりバリエーション豊かにキャラクタを動作させるための配信用画像の生成技術を提供することができる。
【図面の簡単な説明】
【0010】
図1】システムの構成例を示すブロック図。
図2】配信者が配信する内容を視聴者が視聴するためにシステムが行う処理のフローチャート。
図3】キャラクタを含む画像(キャラクタ画像)から該キャラクタに対応するアバターデータを生成するためにシステムが行う処理のフローチャート。
図4】キャラクタのそれぞれの表情の派生画像の一例を示す図。
図5】キャラクタの顔のパーツの一例を示す図。
図6】キャラクタのキャラクタ画像(入力画像)の一例を示す図。
図7】互いに異なる角度もしくは姿勢でキャラクタが描画される複数の派生画像の一例を示す図。
【発明を実施するための形態】
【0011】
以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものではなく、また実施形態で説明されている特徴の組み合わせの全てが発明に必須のものとは限らない。実施形態で説明されている複数の特徴のうち二つ以上の特徴が任意に組み合わされてもよい。また、同一若しくは同様の構成には同一の参照番号を付し、重複した説明は省略する。
【0012】
先ず、本発明の一実施形態に係るシステムの構成例について、図1のブロック図を用いて説明する。図1に示す如く、システムは、配信者端末100と、サーバ装置120と、視聴者端末140と、を有し、それぞれの装置はインターネットなどのネットワークに接続されている。なお、図1では説明を簡単にするために、配信者端末100、サーバ装置120、視聴者端末140、のそれぞれの装置の台数を1としているが、台数は2以上であっても良い。
【0013】
先ず、配信者端末100について説明する。配信者端末100は、Vtuberなどの配信者が操作する端末装置であり、PC、タブレット端末装置、スマートフォン、などのコンピュータ装置である。
【0014】
CPU101は、RAM102に格納されているコンピュータプログラムやデータを用いて各種の処理を実行する。これによりCPU101は、配信者端末100全体の動作制御を行うと共に、配信者端末100が行う処理として説明する各種の処理を実行する。
【0015】
RAM102は、ROM103や記憶装置107からロードされたコンピュータプログラムやデータを格納するためのエリア、I/F108を介して外部から受信したコンピュータプログラムやデータを格納するためのエリア、CPU101が各種の処理を実行する際に用いるワークエリア、などの各種のエリアを適宜提供する。
【0016】
ROM103には、配信者端末100の設定データ、配信者端末100の起動に係るコンピュータプログラムやデータ、配信者端末100の基本動作に係るコンピュータプログラムやデータ、などが格納されている。
【0017】
操作部104は、キーボード、マウス、タッチパネル画面、などのユーザインターフェースであり、配信者が操作することで各種の指示や情報を配信者端末100に対して入力することができる。
【0018】
撮像部105は、動画像を撮像し、該動画像における各フレームの画像を出力する。なお、図1では、撮像部105は配信者端末100に内蔵されているが、配信者端末100に外付けであっても良い。
【0019】
表示部106は、液晶画面やタッチパネル画面を有し、CPU101による処理結果を画像や文字などでもって表示する。
【0020】
記憶装置107は、ハードディスクドライブなどの大容量情報記憶装置である。記憶装置107には、OS,配信者端末100が行う処理として説明する各種の処理をCPU101に実行させるためのコンピュータプログラムやデータ、などが保存されている。
【0021】
I/F108は、インターネットなどのネットワークを介して外部装置との間のデータ通信を行うための通信インターフェースである。
【0022】
CPU101、RAM102、ROM103、操作部104、撮像部105、表示部106、記憶装置107、I/F108、はいずれもシステムバス109に接続されている。
【0023】
次に、サーバ装置120について説明する。サーバ装置120は、PC、タブレット端末装置、スマートフォン、などのコンピュータ装置である。
【0024】
CPU121は、RAM122に格納されているコンピュータプログラムやデータを用いて各種の処理を実行する。これによりCPU121は、サーバ装置120全体の動作制御を行うと共に、サーバ装置120が行う処理として説明する各種の処理を実行する。
【0025】
RAM122は、ROM123や記憶装置125からロードされたコンピュータプログラムやデータを格納するためのエリア、I/F126を介して外部から受信したコンピュータプログラムやデータを格納するためのエリア、CPU121が各種の処理を実行する際に用いるワークエリア、などの各種のエリアを適宜提供する。
【0026】
ROM123には、サーバ装置120の設定データ、サーバ装置120の起動に係るコンピュータプログラムやデータ、サーバ装置120の基本動作に係るコンピュータプログラムやデータ、などが格納されている。
【0027】
操作部124は、キーボード、マウス、タッチパネル画面、などのユーザインターフェースであり、サーバ装置120のユーザが操作することで各種の指示や情報をサーバ装置120に対して入力することができる。
【0028】
記憶装置125は、ハードディスクドライブなどの大容量情報記憶装置である。記憶装置125には、OS,サーバ装置120が行う処理として説明する各種の処理をCPU121に実行させるためのコンピュータプログラムやデータ、などが保存されている。
【0029】
I/F126は、インターネットなどのネットワークを介して外部装置との間のデータ通信を行うための通信インターフェースである。
【0030】
CPU121、RAM122、ROM123、操作部124、記憶装置125、I/F126、はいずれもシステムバス127に接続されている。
【0031】
次に、視聴者端末140について説明する。視聴者端末140は、配信者による配信内容を視聴する視聴者が操作する端末装置であり、PC、タブレット端末装置、スマートフォン、などのコンピュータ装置である。
【0032】
CPU141は、RAM142に格納されているコンピュータプログラムやデータを用いて各種の処理を実行する。これによりCPU141は、視聴者端末140全体の動作制御を行うと共に、視聴者端末140が行う処理として説明する各種の処理を実行する。
【0033】
RAM142は、ROM143や記憶装置146からロードされたコンピュータプログラムやデータを格納するためのエリア、I/F147を介して外部から受信したコンピュータプログラムやデータを格納するためのエリア、CPU141が各種の処理を実行する際に用いるワークエリア、などの各種のエリアを適宜提供する。
【0034】
ROM143には、視聴者端末140の設定データ、視聴者端末140の起動に係るコンピュータプログラムやデータ、視聴者端末140の基本動作に係るコンピュータプログラムやデータ、などが格納されている。
【0035】
操作部144は、キーボード、マウス、タッチパネル画面、などのユーザインターフェースであり、視聴者が操作することで各種の指示や情報を視聴者端末140に対して入力することができる。
【0036】
表示部145は、液晶画面やタッチパネル画面を有し、CPU141による処理結果を画像や文字などでもって表示する。
【0037】
記憶装置146は、ハードディスクドライブなどの大容量情報記憶装置である。記憶装置146には、OS,視聴者端末140が行う処理として説明する各種の処理をCPU141に実行させるためのコンピュータプログラムやデータ、などが保存されている。
【0038】
I/F147は、インターネットなどのネットワークを介して外部装置との間のデータ通信を行うための通信インターフェースである。
【0039】
CPU141、RAM142、ROM143、操作部144、表示部145、記憶装置146、I/F147、はいずれもシステムバス148に接続されている。
【0040】
なお、図1に示したそれぞれの装置のハードウェア構成は一例であり、図1に示した構成に限らない。
【0041】
次に、配信者が配信する内容を視聴者が視聴するためにシステムが行う処理について、図2のフローチャートに従って説明する。
【0042】
ステップS201では、配信者端末100は、配信者の動作と状態を検出する。以下、ステップS201における処理の一例について説明する。撮像部105は、配信者の動画像を撮像しており、該動画像における各フレームの画像はRAM102に格納される。CPU101は、RAM102に格納された該配信者の各フレームの画像に基づき、該配信者の動作と状態を検出する。配信者の画像から該配信者の動作を検出するための技術は、例えば入力された画像内における人の顔や身体の一部や眼や口などの部位の位置、姿勢、開閉状態、形状を出力するよう学習された機械学習モデルを用いる周知の画像認識技術などである。検出する動作と状態は、たとえば、画像における配信者の骨格の特徴量、該特徴量の時系列での変位情報であっても良いし、該配信者の各部位(頭、腕、足、上半身、下半身など)、顔を構成する部位(目、鼻、口、耳、輪郭、頭髪、髭、まつ毛、眉毛、装飾品など)のそれぞれの位置や姿勢や開閉などの状態、これらの時系列での変位情報であっても良い。このような検出処理は従来の顔認識技術を用いて実行される。
【0043】
ステップS202では、配信者端末100は、ステップS201で検出した動作や状態を表す動作情報をI/F108を介してサーバ装置120に対して送信する。
【0044】
ステップS221では、サーバ装置120は、配信者端末100から送信された動作情報をI/F126を介して受信する。
【0045】
ステップS222では、サーバ装置120は、ステップS221で受信した動作情報と、後述する処理により生成されるアバターデータと、をI/F126を介して視聴者端末140に対して送信(配信)する。具体的には、動作情報とは、配信者の四肢、胴体、頭部、さらには顔を構成する目や口などの各特徴点やボーンの位置、動作(変化量)および向きなどを示す数値データであり、顔を構成する目や口などの開閉状態などを識別できる動作情報である。アバターデータとは配信者の動作や状態に合わせて表示、動作する二次元キャラクタ(アバター)を視聴者端末140上に描画するための複数の画像のセットである。また、アバターデータは、一つのキャラクタを構成するためにその複数の画像を一つのキャラクタに紐づくよう管理されている。視聴者端末140に対して該アバターデータを送付する場合は、視聴者端末140が配信者により提供される配信を視聴開始する前後の時期にアバターデータ全てを視聴者端末140に対して送信しても良いし、配信者の動作情報の送信に合わせて都度送信しても良い。
【0046】
ステップS241では、視聴者端末140は、サーバ装置120から送信された動作情報とアバターデータとをI/F147を介して受信する。
【0047】
ステップS242では、視聴者端末140は、ステップS241で受信した動作情報とアバターデータとに基づいて、該動作情報が表す配信者の動作および状態と同様の動作および状態のキャラクタを含む画像を表示画像として生成する。具体的には、配信者の動作情報に基づいて、顔などの各部位に向きや角度、さらに各パーツの状態(例えば、開閉状態等)を判定し、該判定の結果に基づいてアバターデータの中に含まれる適切な派生画像を選択して、表示画像を選択する。例えば、配信者の動作情報に基づいて、顔の傾きが左方向に15度、目が開状態、口が閉状態と判定された場合には、顔の傾きが左方向に15度、目が開状態、口が閉状態となっている派生画像を選択し、該派生画像に基づいて表示画像を生成する。顔以外の部位やパーツが含まれる場合も同様に、配信者の動作情報から各部位やパーツの状態を判定し、判定された各部位やパーツの状態に対応した派生画像を抽出することで、配信者の動作に適したキャラクタの表示画像を生成することができる。
【0048】
さらに、眼の開度、口の開度、輪郭の変化などをもとに特定の感情を推定し、推定された感情をもとに対応する感情タグが付与された派生画像を取得してもよい。例えば、この感情の推定は、あらかじめサーバ装置120内に準備された前述の眼の開度、口の開度、輪郭の変化など人の表情もしくは人の表情の変化を入力として人の感情の種類を出力するよう訓練された学習済モデルなどを用いる。配信者の顔の各パーツが所定条件を満たす場合にサーバ装置120は配信者が特定の感情もしくは特定の感情を表現するための表情を示していると推定し、推定された感情のタグが付与される複数の派生パーツ画像を取得してもよい。
【0049】
ステップS243では、視聴者端末140は、ステップS242で生成した表示画像を表示部145に表示させる。
【0050】
次に、キャラクタを含む画像(キャラクタ画像)から該キャラクタに対応するアバターデータを生成するためにシステムが行う処理について、図3のフローチャートに従って説明する。なお、アバターデータの生成は配信者が配信を行う前にあらかじめ配信者の操作に応じて実施しておき、生成されたアバターデータをサーバ装置120や配信者端末上に格納しておくことで、上述の配信処理が実現できる。
【0051】
ステップS301では、配信者端末100は、キャラクタ画像をI/F108を介してサーバ装置120に対して送信する。
【0052】
キャラクタ画像は、キャラクタの頭頂部から足先までを含む画像であっても良いし、キャラクタの上半身の一部もしくは全部を含む画像であっても良いし、キャラクタの上半身は含むが下半身は含まない画像であっても良い。キャラクタ画像は、配信者が配信者端末100の操作部104を操作して選択したキャラクタ画像であっても良いし、配信者端末100が生成したキャラクタ画像であっても良いし、予め設定されたキャラクタ画像であっても良い。
【0053】
さらに、配信者端末100は派生画像の生成条件であるパラメータをサーバ装置120に対して送信してもよく、パラメータは例えば、配信者が配信者端末100の操作部104を操作して入力されるキャラクタ画像に基づき生成されるアバターデータに関する条件を指定するものである。
【0054】
ステップS321では、サーバ装置120は、配信者端末100から送信されたキャラクタ画像とパラメータとをI/F126を介して受信する。なお、キャラクタ画像はサーバ装置120側で指定しても良い。
【0055】
ステップS322では、サーバ装置120は、ステップS321で受信したパラメータに基づいて、ステップS321で受信したキャラクタ画像から、互いに異なる角度もしくは姿勢でキャラクタが描画される複数の派生画像を生成する。
【0056】
本実施形態では、サーバ装置120は、少なくとも派生画像を出力するよう学習された画像生成モデル(たとえば、周知のStable Diffusionのようなモデル)に、ステップS321で受信したキャラクタ画像を入力画像として入力して該画像生成モデルが処理を行うことで、互いに異なる角度もしくは姿勢でキャラクタが描画される複数の派生画像を生成する。具体的には、サーバ装置120は、ステップS321で受信した画像と、上記の配信者から受信したパラメータもしくは予めサーバ内に設定される派生画像生成に関するパラメータに基づき前述の画像生成モデルに対して派生画像の生成を指示するプロンプトを生成し、この生成されたプロンプトを画像生成モデルへ入力することで前述の派生画像を生成させる。
【0057】
ステップS323では、サーバ装置120は、ステップS322で生成したそれぞれの派生画像からキャラクタのパーツを抽出する。たとえば、サーバ装置120は、Anime Face Detector、Segment Anythingといった周知の技術を用いて、派生画像からキャラクタの顔のパーツを認識して該パーツを抽出する。なお、サーバ装置120は、セグメント分け(派生画像からパーツを切り分ける作業工程)時に発生する意図しないピクセルを削除するようにしても良い。
【0058】
ステップS322およびステップS323の処理について、具体例を挙げて、より詳細に説明する。
【0059】
ステップS322において、たとえば、パラメータに「媚び、悲しみ、怒り、うんざり、見下し/煽り、上目遣い、ガンギマリ顔」など複数種類の表情が設定されている場合には、サーバ装置120は、図4に示す如く、キャラクタ画像(入力画像)から、キャラクタのそれぞれの表情の派生画像を生成する。なお、表情の種類は、ここで挙げたものに限らない。
【0060】
またたとえば、パラメータは、生成される派生画像内のキャラクタの描画される角度に関する指示を含んでよい。一例として、パラメータは「キャラクタの顔の正面視(顔が真正面を向いている方向)を基準として、上下又は左右の傾きを指定するものであってもよい。具体的には、顔の正面視に対してキャラクタの顔が左45度を向いているところから右45度を向いているところまでの角度範囲内で10度ごとの角度を指定するパラメータを設定しておき、サーバ装置120は、該パラメータに基づき、例えばキャラクタの頭部鉛直方向を回転中心軸(頭部の頂点から下方向に頭部を貫く方向の軸)として、キャラクタ画像(入力画像)から、該角度範囲内で10度ごと角度が変化した顔の派生画像を生成する。なお、ここで挙げた数値は一例であり、これらの数値に限らない。
【0061】
同様に、パラメータとして「キャラクタの顔が上20度を向いているところから下20度を向いているところまでの角度範囲内で5度ごとの角度」が設定されている場合には、サーバ装置120は、例えば回転中心をキャラクタの首の付け根や頭の付け根として、キャラクタ画像(入力画像)から、該角度範囲内でキャラクタの顔が前述の回転中心を基準として前後方向に5度ごとずつ角度が変化した場合の顔の派生画像を生成する。なお、ここで挙げた数値は一例であり、これらの数値に限らない。
【0062】
また、パラメータは、上下左右だけでなく、上15度左20度から下15度右20度といったようにキャラクタの顔が右斜め上や左斜め下方向を向くような斜め方向の角度を指定するものであっても良い。
【0063】
また、サーバ装置120は、前後左右傾き方向にキャラクタの頭部が移動した場合の派生画像(左右上下を向く、うつむく、あおぐ、首を左右方にかしげる、などの状態の顔を含む派生画像)を生成するようにしても良い。
【0064】
このように、サーバ装置120は、中心軸をキャラクタの頭部鉛直として、θ(回転)方向、前後左右傾き方向に頭部が移動した場合のパーツ(顔の場合、左右上下を向く、うつむく、あおぐ、首を左右方にかしげる、などの状態の顔)の派生画像を生成する。
【0065】
たとえば、サーバ装置120は、図6に例示するキャラクタのキャラクタ画像(入力画像)とパラメータとして「キャラクタの顔が正面を向いている状態を基準として、左方向45度から右方向45度の範囲と上向き5度から下向き20度の範囲」が角度範囲として指定されている場合、図7(a)~(d)に示されるようにキャラクタが、(a)左方向を向いている,(b)左斜め下方向を向いている,(c)右斜め下方向を向いている,(d)右方向を向いている状態の画像の画像をパラメータの指定に応じて互いに異なる角度もしくは姿勢で該キャラクタが描画される複数の派生画像を生成することができる。図7に描画される画像はあくまで一例であり、これに限定されるものではない。
【0066】
なお、サーバ装置120は、キャラクタの顔が見えている範囲での派生画像の数が、該キャラクタの顔が見えていない範囲での派生画像の数よりも多くなるようにしてもよい。顔が見えていない範囲の画像とは、たとえば顔の表情を構成する目や口といったパーツが含まれない画像や、顔の輪郭が含まれない画像を指す。また、派生画像におけるキャラクタの姿勢は、キャラクタ画像における該キャラクタの姿勢とは異なり、派生画像におけるキャラクタの角度は、キャラクタ画像における該キャラクタの角度とは異なる。
【0067】
そしてサーバ装置120は、このようにして生成されたそれぞれの派生画像からキャラクタの顔のパーツを認識して該パーツを抽出する。たとえば、図5に示す如く、キャラクタ画像に含まれているキャラクタの「Body(頭・胴体・下半身)」、「Face(顔)」、「EyebrowsL(左側の眉)」、「EyebrowsR(右側の眉)」、「EyesL(左側の目の輪郭・左側の白目・左側のまつ毛)」、「PupilL(左側の瞳)」、「EyesR(右側の目の輪郭・右側の白目・右側のまつ毛)」、「PupilR(右側の瞳)」、「Nose(鼻)」、「Mouth(口)」を抽出する。なお、サーバ装置120は、抽出したパーツを下記のように元となる派生画像とそこから抽出された各パーツを対応付けて階層的に管理する。
【0068】
Root - ルート
(a) Body
(b) Face
(c) EyebrowsL
(d) EyebrowsR
(e) EyesL
(f) PupilL
(g) EyesR
(h) PupilR
(i) Nose
(j) Mouth
このような階層構造では、(b)の親パーツ(親ノード)は(a)であり、(c)~(j)の親パーツ(親ノード)は(b)である。
【0069】
ステップS324では、サーバ装置120は、ステップS323で抽出したパーツに基づいて該パーツの複数の派生パーツ画像を、Stable Diffusionなどの周知の画像生成モデルなどを用いて生成する。この場合、派生画像と同じく、サーバ装置120は抽出された各パーツの画像を含むプロンプトを入力として画像生成モデルに入力し、画像生成モデルが生成する派生パーツ画像を取得する。たとえば、サーバ装置120は、開状態と閉状態との間の複数の状態における眉の派生パーツ画像を生成しても良いし、左45度から右45度の角度範囲内で5度ごとの角度の目の派生パーツ画像を生成しても良いし、上20度から下20度の角度範囲内で5度ごとの角度の目の派生パーツ画像を生成しても良いし、上15度左20度から下15度右20度の角度範囲内で5度ごとの角度の目の派生パーツ画像を生成しても良い。
【0070】
さらに、生成された派生パーツ画像は前述のように階層構造で管理される場合、生成時に入力された角度、姿勢、表情の種類といったパラメータの情報と紐づき管理される。このように各派生パーツ画像が管理されることにより、例えば視聴者端末において配信者動作に合わせた画像を選択する場合、配信者の角度情報と生成された派生パーツ画像の角度情報とを照会することにより適切な派生パーツ画像を選択することができる。
【0071】
また、サーバ装置120は、派生画像におけるキャラクタの特徴情報、たとえば、キャラクタの髪の毛の線や輪郭、および/または顔の輪郭や形状を維持するようにして該髪の派生パーツ画像を生成するようにしても良い。
【0072】
また、サーバ装置120は、派生パーツ画像についても派生画像と同様にキャラクタの顔に関連しない派生パーツ画像の数を顔に関連する派生パーツ画像の数よりも減じて生成してもよい。これにより、生成可能な画像の数の上限が予め定まっている場合でも、アバターや配信のクオリティにより影響を及ぼしやすい顔に関する画像を多く生成することで、配信者や視聴者の満足度を維持向上させることができる。
【0073】
また、サーバ装置120は、キャラクタの目や口について、該キャラクタが喜怒哀楽もしくは特有のキャラクタ性(性格:ヤンデレ、ツンデレ、妹系、など)を表現した場合の派生パーツ画像を生成する。サーバ装置120は、このようなキャラクタ性をWEBで検索することで取得/推定するようにしても良く、また、該キャラクタ性をもとに、たとえば、喜怒哀楽をさらに細分化した感情である派生感情に関する派生パーツ画像を生成するようにしても良い(基本感情:哀→派生感情:ジト目と涙目。さらに、微笑みと爆笑、焦り、といった感情など)。なお、キャラクタ性に基づき生成される派生パーツ画像は、キャラクタ性毎にルールベースで定められており、サーバ装置120は、このようなルールベースに基づいて派生パーツ画像を生成するようにしても良い。
【0074】
なお、サーバ装置120は、キャラクタが喜怒哀楽もしくは特有のキャラクタ性(性格:ヤンデレ、ツンデレ、妹系、など)を表現した場合の派生画像を生成するようにしても良い。
【0075】
また、サーバ装置120は、喜怒哀楽に関する派生パーツ画像は必ず生成し、特有のキャラクタ性に関する派生パーツ画像については、パラメータによって指定されたキャラクタ性について生成するようにしても良いし、予め設定された全てのキャラクタ性について生成するようにしても良い。
【0076】
これらキャラクタ性を表現した派生画像及び/または派生パーツ画像は、各画像に該画像がどのキャラクタ性に関するものかを示すタグをつけて管理されており、サーバ装置120は、これらの各キャラクタ性を表現した派生画像および/または派生パーツ画像について、配信者が配信前に特定のキャラクタ性を設定することでその選択されたキャラクタ性に応じた派生画像および/または派生パーツ画像をアバターデータとして設定してよい。また、該派生画像や派生パーツ画像について、配信者の動作情報があらかじめ設定される所定の条件(口の開度70%以上や顔と手の相対位置が所定距離内、等)を満たす場合に、所定のキャラクタ性の派生画像および/または派生パーツ画像を選択し、視聴者画面上に表示するようにしても良い。
【0077】
また、サーバ装置120は、派生画像の画風を維持するように派生パーツ画像を生成してもよい。画風とは、例えば、特定の作画会社のアニメーションに共通して見られるキャラクタ画像の特徴や特定のイラストレーターが描くキャラクタ画像に共通してみられる特徴などを示す。
【0078】
また、サーバ装置120は、所定の表情や所定の角度に関する派生パーツ画像の数を他の表情や角度に比して多く・少なくするようにしても良いし、所定のパーツについて変化を加えて派生パーツ画像を生成するようにしても良い(たとえば、歯をギザ歯に、髪の毛を別の色に等)。このような処理内容はパラメータによって規定されている。
【0079】
なお、上記に示した派生パーツ画像のさまざまな生成方法のうち一部については有償にしても良い。
【0080】
そしてサーバ装置120は、抽出したパーツごとに、{該パーツの複数の派生パーツ画像、該パーツの親パーツを特定する情報、該親パーツに対する該パーツの相対的な位置、該複数の派生パーツ画像の再生速度}のセットをメタデータとして生成して管理する。
【0081】
ステップS325では、サーバ装置120は、ステップS322で生成した派生画像、ステップS324で生成した派生パーツ画像およびメタデータ、を含むJsonファイルを生成する。Jsonファイルは上記の特徴情報を含んでも良い。
【0082】
ステップS326では、サーバ装置120は、ステップS325で生成したJsonファイルをアバターデータとして記憶装置125に格納(登録)する。これにより、サーバ装置120は、派生画像を、キャラクタを動作させるための配信用画像として登録することができる。
【0083】
以降、サーバ装置120は、視聴者端末140から所定のキャラクタのアバターデータの送信要求をI/F126を介して受信した場合には、該所定のキャラクタのアバターデータを記憶装置125から読み出し、該読み出したアバターデータをI/F126を介して視聴者端末140に対して送信する。アバターデータはバイナリファイルとして送信しても良い。
【0084】
そして上記のステップS242では、視聴者端末140は、TalkingHeadのような周知の技術を用いて、アバターデータおよび動作情報に基づいて、配信者の動きに応じたキャラクタの画像を表示画像として生成する。アバターデータには、互いに異なる角度や姿勢でキャラクタが描画された派生画像が含まれているため、サーバ装置120は、動作情報が示す動作や状態に応じた派生画像および派生パーツ画像を用いて表示画像を生成する。その際、サーバ装置120は、上記のメタデータを参照し、派生画像上に派生パーツ画像を配置するようにして、キャラクターを生成してもよい。たとえば、派生画像上に左目の派生パーツ画像を配置する場合、サーバ装置120は、上記のメタデータを参照し、左目の親パーツ「顔」に対する左目の相対的な位置に、左目の派生パーツ画像を配置する。そして、サーバ装置120は、上記のメタデータを参照し、左目の派生パーツ画像を該左目の派生パーツ画像の再生速度で再生する。
【0085】
これにより、たとえば、正面顔で目パチや口パクができている表示画像を表示部145に表示させることができ、配信者の表情よりも多様な表情やしぐさでキャラクターの表情を表現することが可能となる。
【0086】
なお、表示部145に表示させる表示画像として、デフォルト状態では、元のキャラクタ画像を表示させても良い。
【0087】
また、サーバ装置120は、視聴者端末140や配信者端末100などの外部装置から派生画像や派生パーツ画像の修正や再生成の指示を受けた場合には、派生画像や派生パーツ画像の修正や再生成を行うようにしても良い。
【0088】
たとえば、サーバ装置120は、派生パーツ画像のパラメータ(寸法、角度、位置など)の調整指示を外部装置から受けると、該パラメータに基づき、派生パーツ画像を再生成すると共に、これに合わせて上記のメタデータも更新する。たとえば、キャラクタの身体に対する顔の位置の調整、顔を構成するパーツの角度や寸法が顔と合うように調整する。
【0089】
また、配信用画像は、配信者が配信に使うものでも良いし、視聴者がコメントを出すときに表示される画像でもよい。
【0090】
上記の実施形態で使用した数値、処理タイミング、処理順、処理の主体、データ(情報)の取得方法/送信先/送信元/格納場所などは、具体的な説明を行うために一例として挙げたもので、このような一例に限定することを意図したものではない。
【0091】
また、以上説明した実施形態の一部若しくは全部を適宜組み合わせて使用しても構わない。また、以上説明した実施形態の一部若しくは全部を選択的に使用しても構わない。
【0092】
発明は上記の実施形態に制限されるものではなく、発明の要旨の範囲内で、種々の変形・変更が可能である。
【要約】
【課題】 よりバリエーション豊かにキャラクタを動作させるための配信用画像の生成技術を提供すること。
【解決手段】 コンピュータに、入力されたキャラクタを含む画像に基づき、互いに異なる角度もしくは姿勢で該キャラクタが描画される複数の派生画像を生成する生成工程と、派生画像を、キャラクタを動作させるための配信用画像として登録する登録工程とを実行させる。
【選択図】 図1
図1
図2
図3
図4
図5
図6
図7