(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024092145
(43)【公開日】2024-07-08
(54)【発明の名称】コンテンツ生成装置、コンテンツ生成方法、およびプログラム
(51)【国際特許分類】
H04N 21/854 20110101AFI20240701BHJP
H04N 21/233 20110101ALI20240701BHJP
【FI】
H04N21/854
H04N21/233
【審査請求】有
【請求項の数】14
【出願形態】OL
(21)【出願番号】P 2022207873
(22)【出願日】2022-12-26
(11)【特許番号】
(45)【特許公報発行日】2023-07-25
(71)【出願人】
【識別番号】598138327
【氏名又は名称】株式会社ドワンゴ
(74)【代理人】
【識別番号】100083806
【弁理士】
【氏名又は名称】三好 秀和
(74)【代理人】
【識別番号】100101247
【弁理士】
【氏名又は名称】高橋 俊一
(74)【代理人】
【識別番号】100095500
【弁理士】
【氏名又は名称】伊藤 正和
(74)【代理人】
【識別番号】100098327
【弁理士】
【氏名又は名称】高松 俊雄
(72)【発明者】
【氏名】戀塚 昭彦
(72)【発明者】
【氏名】北岡 伸也
(72)【発明者】
【氏名】中谷 侑司
(72)【発明者】
【氏名】柳澤 俊介
【テーマコード(参考)】
5C164
【Fターム(参考)】
5C164FA06
5C164FA29
5C164MA03S
5C164MC01P
5C164MC04P
5C164PA44
5C164SB01S
5C164SB04P
5C164UD21S
(57)【要約】
【課題】より魅力的な配信用動画を生成する。
【解決手段】配信者端末1は、配信者が配信したいコンテンツを入力する入力部11と、動画配信サーバ2が配信する動画に対して付与されたコメントを取得するコメント取得部12と、コメントから音声を生成する音声合成部13と、音声に応じた動作を行うキャラクタまたはキャラクタデータを含むキャラクタコンテンツを生成する動画生成部14と、コンテンツにキャラクタコンテンツを重畳させた配信用動画を生成する動画合成部15を備える。
【選択図】
図2
【特許請求の範囲】
【請求項1】
コンテンツ配信サーバが配信するコンテンツを生成するためのコンテンツ生成装置であって、
コンテンツを入力する入力部と、
前記コンテンツ配信サーバが配信するコンテンツに対して投稿されたコメントを取得するコメント取得部と、
前記コメントから音声を生成する音声合成部と、
前記音声に応じた動作を行うキャラクタまたはキャラクタデータを含むキャラクタコンテンツを生成する生成部と、
前記コンテンツに前記キャラクタコンテンツを重畳させた配信用コンテンツを生成する合成部を備える
コンテンツ生成装置。
【請求項2】
請求項1に記載のコンテンツ生成装置であって、
前記音声合成部は、前記コメントの種類ごとまたは前記コメントの投稿者ごとに異なる声質の音声を生成し、
前記生成部は、前記声質に対応するキャラクタまたは当該キャラクタのデータを含む前記キャラクタコンテンツを生成する
コンテンツ生成装置。
【請求項3】
請求項2に記載のコンテンツ生成装置であって、
前記声質と前記キャラクタの少なくともいずれか一方は前記コメントの投稿者によって指定される
コンテンツ生成装置。
【請求項4】
請求項1に記載のコンテンツ生成装置であって、
前記生成部は、前記コメントの内容に応じた動作を行うキャラクタまたはキャラクタデータを含む前記キャラクタコンテンツを生成する
コンテンツ生成装置。
【請求項5】
請求項4に記載のコンテンツ生成装置であって、
前記生成部は、前記コメントの内容が数字の8の文字が複数個連続する文字列を含む場合は、拍手の動作を行うキャラクタまたはキャラクタデータを含む前記キャラクタコンテンツを生成する
コンテンツ生成装置。
【請求項6】
請求項1に記載のコンテンツ生成装置であって、
前記生成部は、前記コメントの投稿状況に応じた動作を行うキャラクタまたはキャラクタデータを含む前記キャラクタコンテンツを生成する
コンテンツ生成装置。
【請求項7】
請求項1に記載のコンテンツ生成装置であって、
前記音声合成部は、配信者が発話中は、音声の生成を一時的に停止する
コンテンツ生成装置。
【請求項8】
請求項1に記載のコンテンツ生成装置であって、
前記音声合成部は、前記コメントの内容の長さに応じた速さの音声を生成する
コンテンツ生成装置。
【請求項9】
コンテンツ配信サーバが配信するコンテンツを生成するためのコンテンツ生成装置によるコンテンツ生成方法であって、
コンテンツを入力し、
前記コンテンツ配信サーバが配信するコンテンツに対して投稿されたコメントを取得し、
前記コメントから音声を生成し、
前記音声に応じた動作を行うキャラクタまたはキャラクタデータを含むキャラクタコンテンツを生成し、
前記コンテンツに前記キャラクタコンテンツを重畳させた配信用コンテンツを生成する
コンテンツ生成方法。
【請求項10】
コンテンツ配信サーバが配信するコンテンツを生成するためのコンテンツ生成装置としてコンピュータを動作させるプログラムであって、
コンテンツを入力する処理と、
前記コンテンツ配信サーバが配信するコンテンツに対して投稿されたコメントを取得する処理と、
前記コメントから音声を生成する処理と、
前記音声に応じた動作を行うキャラクタまたはキャラクタデータを含むキャラクタコンテンツを生成する処理と、
前記コンテンツに前記キャラクタコンテンツを重畳させた配信用コンテンツを生成する処理を
コンピュータに実行させるプログラム。
【請求項11】
コンテンツ配信サーバが配信するコンテンツを生成するためのコンテンツ生成装置としてコンピュータを動作させるプログラムを格納した記録媒体であって、
コンテンツを入力する処理と、
前記コンテンツ配信サーバが配信するコンテンツに対して投稿されたコメントを取得する処理と、
前記コメントから音声を生成する処理と、
前記音声に応じた動作を行うキャラクタまたはキャラクタデータを含むキャラクタコンテンツを生成する処理と、
前記コンテンツに前記キャラクタコンテンツを重畳させた配信用コンテンツを生成する処理を
コンピュータに実行させるプログラムを格納した記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、コンテンツ生成装置、コンテンツ生成方法、プログラム、および記録媒体に関する。
【背景技術】
【0002】
配信される動画に対してコメントを投稿できるサービスが広く利用されている(特許文献1)。投稿されたコメントは、動画の表示領域内に重畳して表示されたり、動画の表示領域外に設けられたコメント欄に表示されたりする。リアルタイムでライブ配信される、いわゆる生放送番組では、視聴者が投稿したコメントを配信者が読み上げることで視聴者と配信者との間でコミュニケーションを取ることができる。
【0003】
配信者自身がコメントを読むのではなく、コメントを機械音声で読み上げる技術も利用されている(非特許文献1)。
【0004】
特許文献2には、ユーザ端末装置で撮影した画像にユーザの化身であるアバターオブジェクトを重畳した画像を配信する技術が開示されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特許第6295494号公報
【特許文献2】特開2020-160645号公報
【非特許文献】
【0006】
【非特許文献1】“棒読みちゃん”、インターネット〈URL:https://chi.usamimi.info/Program/Application/BouyomiChan/〉
【発明の概要】
【発明が解決しようとする課題】
【0007】
配信者自身がコメントを読む場合、コメントを読み飛ばすことがある。コメントを読み飛ばされた視聴者は、コメントを投稿する意欲をなくし、番組を視聴しなくなる可能性がある。非特許文献1の技術を利用してコメントを機械音声で読み上げることでコメントの読み飛ばしは解消されるが、単調な合成音声であるから視聴者が飽きてしまうという問題がある。
【0008】
本開示は、上記に鑑みてなされたものであり、より魅力的な配信用動画を生成することを目的とする。
【課題を解決するための手段】
【0009】
本開示の一態様のコンテンツ生成装置は、コンテンツ配信サーバが配信するコンテンツを生成するためのコンテンツ生成装置であって、コンテンツを入力する入力部と、前記コンテンツ配信サーバが配信するコンテンツに対して投稿されたコメントを取得するコメント取得部と、前記コメントから音声を生成する音声合成部と、前記音声に応じた動作を行うキャラクタまたはキャラクタデータを含むキャラクタコンテンツを生成する生成部と、前記コンテンツに前記キャラクタコンテンツを重畳させた配信用コンテンツを生成する合成部を備える。
【発明の効果】
【0010】
本開示によれば、より魅力的な配信用動画を生成できる。
【図面の簡単な説明】
【0011】
【
図1】
図1は、本実施形態の動画配信システムの構成の一例を示す図である。
【
図2】
図2は、配信者端末の構成の一例を示す図である。
【
図3】
図3は、配信者端末の処理の流れの一例を示すフローチャートである。
【
図4】
図4は、配信者端末が生成する画面の一例を示す図である。
【発明を実施するための形態】
【0012】
以下、本開示の実施の形態について図面を用いて説明する。
【0013】
[システムの構成]
図1は、本実施形態の動画配信システムの構成の一例を示す図である。同図に示す動画配信システムは、配信者端末1、動画配信サーバ2、コメント配信サーバ3、および視聴者端末4を備える。各装置はネットワークを介して通信可能に接続される。
図1では、視聴者端末4を2台のみ図示しているが、これに限るものではない。視聴者は多数存在し、多数の視聴者端末4が接続される。また、配信者端末1を1台のみ図示しているが、実際には多数の配信者が存在し、多数の配信者端末1が接続される。視聴者は見たい配信者の番組を選択して視聴できる。
【0014】
動画配信サーバ2は、配信者端末1から受信した動画をリアルタイムに視聴者端末4へ配信する。リアルタイムに動画を配信することをライブ配信、生放送配信、またはストリーミング配信ともいう。動画配信サーバ2は、配信者端末1から受信した動画を蓄積しておき、視聴者端末4からの配信要求に応じて任意の時間に動画を視聴者端末4へ配信してもよい。任意の時間に動画を配信することをタイムシフト配信ともいう。
【0015】
コメント配信サーバ3は、視聴者端末4から、視聴者が動画に対して入力したコメントを受信し、受信したコメントをリアルタイムで同じ動画の配信を受けている視聴者端末4へ配信する。視聴者端末4から受信するコメントの情報は、コメントの内容(文字列)、ユーザID、および時刻情報を含む。ユーザIDは、コメントを投稿したユーザの識別子である。時刻情報は、ユーザがコメントを投稿したときの番組のタイムスタンプである。コメント配信サーバ3は、コメントを配信者端末1へ配信してもよい。また、コメント配信サーバ3は、配信者端末1から、配信者が入力したコメントを受信し、配信者コメントとして視聴者端末4へ配信する。
【0016】
コメント配信サーバ3は、コメントを動画ごとに管理して保持する。動画配信サーバ2は、視聴者端末4から配信要求を受信すると、視聴者端末4を識別する情報と要求された動画を識別する情報をコメント配信サーバ3へ通知する。コメント配信サーバ3は、動画に対応するコメントの視聴者端末4への送信と視聴者端末4からのコメントの受信を開始する。コメントの配信については特許文献1に記載の技術を用いることができる。
【0017】
視聴者端末4は、番組を視聴する視聴者が使用する端末であり、動画配信サーバ2から動画を受信して表示する。視聴者が視聴者端末4を操作して見たい生放送番組(ライブ配信される動画)を選択すると、視聴者端末4は、動画の配信要求を動画配信サーバ2へ送信する。動画配信サーバ2は、配信要求を受信すると、要求された動画の視聴者端末4への送信を開始する。視聴者端末4として、例えば、パーソナルコンピュータ(PC)、スマートフォン、またはタブレット端末を利用できる。
【0018】
視聴者は、生放送番組を見ながら、生放送番組に対してコメントを投稿できる。視聴者端末4は、生放送番組に対して投稿されたコメントを表示できる。具体的には、視聴者が視聴者端末4にコメントを入力すると、視聴者端末4は、入力されたコメントをコメント配信サーバ3へ送信する。視聴者端末4は、投稿されたコメントを配信者端末1および視聴者端末4のそれぞれに対して配信する。
【0019】
視聴者端末4は、配信されたコメントを表示する。視聴者端末4は、動画に重畳してコメントを表示してもよいし、動画表示領域外のコメント欄にコメントを表示してもよい。視聴者は、視聴者端末4を操作してコメントの表示をオン・オフできる。
【0020】
配信者端末1は、番組を配信する配信者が使用する端末であり、配信したい動画をリアルタイムに動画配信サーバ2へ送信する。例えば、配信者端末1は、配信者端末1に接続したカメラで撮影した動画を入力し、入力した動画に後述するキャラクタ動画を重畳して動画配信サーバ2へ送信する。配信者端末1がカメラを備えてもよいし、ゲーム機などの外部の装置から映像を入力してもよい。配信者端末1として、例えば、PC、スマートフォン、またはタブレット端末を利用できる。
【0021】
配信者端末1は、コメント配信サーバ3から、生放送番組に対するコメントを受信し、コメントに対応した音声を生成するとともに、コメントに対応した動作を行うキャラクタを含むキャラクタ動画を生成する。コメントに対応した動作とは、例えば、コメントから生成した音声に合わせて口パク(リップシンク)する動作である。
【0022】
[配信者端末の構成]
次に、配信者端末1の構成の一例について説明する。
【0023】
図2は、配信者端末1の構成の一例を示す図である。同図に示す配信者端末1は、入力部11、コメント取得部12、音声合成部13、動画生成部14、動画合成部15、および送信部16を備える。配信者端末1が備える各部は、演算処理装置、記憶装置等を備えたコンピュータにより構成して、各部の処理がプログラムによって実行されるものとしてもよい。このプログラムは配信者端末1が備える記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリなどのコンピュータが読み取り可能な非一時的な記録媒体に記録することも、ネットワークを通して提供することも可能である。
【0024】
入力部11は、配信者が配信したいコンテンツを入力する。例えば、入力部11が入力するコンテンツは、カメラで配信者自身を撮影した動画、事前に撮影した実写動画、コンピュータが描いたコンピュータグラフィックス映像、配信者端末1または他の装置(ゲーム機、パーソナルコンピュータ、スマートフォン、タブレット端末など)で実行されるアプリケーションの画面(ゲーム画面、ペイントソフト、ブラウザなど)、あるいは写真やイラストなどの静止画であり、動画配信サーバ2が配信できるものであればコンテンツの内容と形式は問わない。入力部11は、複数のコンテンツを入力して合成してもよい。例えば、配信者がゲームのプレイ動画を配信する場合、入力部11は、ゲーム機から入力したゲーム画面に、カメラで配信者を撮影した画像を合成した動画を生成する。以下、入力部11が入力したコンテンツと入力部11が合成したコンテンツを含めてコンテンツと称する。
【0025】
なお、入力部11は、コンテンツの音も入力する。入力部11は、複数のソースから音を入力する場合、これらの音をミックスする。例えば、配信者がゲームのプレイ動画を配信する場合、入力部11は、ゲームの音と配信者の音声とをミックスする。ゲームの音はゲーム機から入力さら、配信者の音声は配信者端末1に接続したマイクから入力される。
【0026】
コメント取得部12は、コメント配信サーバ3から、視聴者が生放送番組に対して投稿したコメントを取得する。コメントには、視聴者が投稿する視聴者コメント、配信者が入力する配信者コメント、動画配信システムが表示するシステムコメントがある。以下、単にコメントと呼ぶ場合は、視聴者コメントを指すものとする。
【0027】
音声合成部13は、コメント取得部12が取得したコメントから音声を合成(生成)する。音声合成部13は、一般的な音声合成技術を利用できる。例えば、音声合成部13には、深層学習技術を活用したテキストから音声への音声合成技術を利用できる。
【0028】
音声合成部13は、コメントの到着順にコメントから音声を合成して出力する。音声合成部13は、音声の出力が終わると、次のコメントの処理を行う。
【0029】
コメントが大量に投稿された場合、音声合成部13は、読み上げる(音声を生成する)コメントを選別し、選別したコメントのみを読み上げてもよい。例えば、コメントが大量に投稿された場合、音声合成部13は、時間的に読み上げ可能な個数のコメントをコメントの到着順に抽出し、抽出したコメントのみから音声を生成する。抽出されなかったコメントは読み上げ対象から除外される。その後、処理的な余裕が生じると、音声合成部13は、新しく投稿されたコメントの読み上げを再開する。
【0030】
長いコメント、例えば文字数の多いコメントについては、音声合成部13は、そのコメントの読み上げ時間が所定内に収まるように音声合成する。つまり、音声合成部13は、長いコメントは早口で読み上げられるように音声合成する。
【0031】
動画生成部14は、音声合成部13で合成した音声からキャラクタが口パクするキャラクタ動画を生成する。例えば、動画生成部14は、合成した音声の音素情報に基づいてキャラクタが口パクする動きを生成する。キャラクタ動画は、キャラクタ以外の背景部分は透過する動画である。キャラクタは、コンピュータグラフィクスで描かれた2次元または3次元のキャラクタでもよいし、手書きのキャラクタまたは実写の人物でもよい。キャラクタは、人だけでなく、擬人化した動物や物であってもよい。
【0032】
動画合成部15は、コンテンツに動画生成部14が生成したキャラクタ動画を重畳して配信用動画を生成する。配信者は、配信用動画内でのキャラクタの位置を任意の位置に設定できる。配信者は、配信開始時にキャラクタの位置とサイズ(キャラクタ動画を重畳する位置)を指定する。配信者は、配信途中で、キャラクタの位置とサイズを変更してもよい。コンテンツが実空間を撮影した実写動画の場合、動画合成部15は、拡張現実(AR)技術を用いて、キャラクタを実空間の座標系に基づいて配置してもよい。
【0033】
動画合成部15は、コンテンツにコメントを重畳して表示してもよいし、コンテンツ内にコメントを表示しなくてもよい。動画合成部15は、コメントをキャラクタ動画の上に重畳して表示してもよいし、コンテンツとキャラクタ動画の間に重畳して表示してもよい。配信者端末1において動画にコメントを重畳することで、コメントの表示、コメントの音声、およびキャラクタの動きを同期させることができる。なお、配信者端末1においてコンテンツにコメントを重畳しなくても、視聴者端末4は、コメント配信サーバ3からコメントを取得して配信された動画にコメントを重畳表示することができる。
【0034】
動画合成部15は、コンテンツにキャラクタ動画を重畳するとともに、音声合成部13が生成した音声と配信用動画の音とをミックスする。
【0035】
送信部16は、配信用動画を動画配信サーバ2へ送信する。
【0036】
[配信者端末の動作]
図3のフローチャートを参照し、配信者端末1の処理の流れの一例について説明する。下記の処理は、配信者が生放送番組の配信を開始してから配信を終了するまで繰り返して行われる。
【0037】
ステップS11にて、配信者端末1は、配信者が配信したいコンテンツを入力する。
【0038】
ステップS12にて、配信者端末1は、コメント配信サーバ3から、視聴者が投稿したコメントを取得する。
【0039】
ステップS13にて、配信者端末1は、ステップS12で取得したコメントから音声を生成する。
【0040】
ステップS14にて、配信者端末1は、ステップS13で生成した音声からキャラクタ動画を生成する。
【0041】
なお、ステップS11の処理と、ステップS12ないしステップS14の処理とは、並列して行われてもよい。
【0042】
ステップS15にて、配信者端末1は、ステップS11で入力したコンテンツに、ステップS14で生成したキャラクタ動画を重畳して配信用動画を生成する。
【0043】
ステップS16にて、配信者端末1は、動画配信サーバ2に、ステップS13で生成した音声と、ステップS15で生成した配信用動画を送信する。
【0044】
動画配信サーバ2は、視聴者端末4のそれぞれに、配信用動画を配信する。コメント配信サーバ3は、視聴者端末4のそれぞれから、視聴者が投稿したコメントを受信し、配信者端末1および視聴者端末4のそれぞれに、コメントを配信する。
【0045】
[配信用動画の例]
図4を参照し、配信用動画の画面の一例について説明する。
図4は、配信者端末が生成する画面の一例を示す図である。
図4に示す画面100では、カメラで撮影した動画に、コメント110,111とキャラクタ120を重畳している。
【0046】
コメント110は、視聴者が投稿した視聴者コメントである。視聴者コメントは、例えば、画面の右端から左端に向けて移動する。コメント111は、配信者が入力した配信者コメントである。配信者コメント111は、画面の上部に表示される。図示していないが、システムコメントは画面100の下部に表示される。
【0047】
キャラクタ120は、コメント110,111から生成した音声に合わせて口パクの動きをする。これにより、キャラクタ120がコメントを読み上げるような生放送番組を配信できる。配信者が視聴者のコメントに対して応答すると、あたかも配信者がコメントを読み上げたキャラクタ120に対して応答したように見えるので、配信者と視聴者との間でより魅力的な双方向コミュニケーションを実現できる。
【0048】
[変形例]
次に、本実施形態のいくつかの変形例について説明する。
【0049】
音声合成部13は、コメントの種類ごとに異なる声質でコメントを音声合成してもよい。例えば、音声合成部13は、視聴者コメント、配信者コメント、およびシステムコメントを異なる声質で音声合成してもよいし、システムコメントのみを別の声質で音声合成してもよい。音声合成部13を配信者の声で音声合成できるように学習し、配信者コメントを配信者の声質で音声合成してもよい。動画生成部14は、声質ごとに異なるキャラクタのキャラクタ動画を生成してもよい。例えば、動画生成部14は、視聴者コメントを読み上げるキャラクタと配信者コメントを読み上げるキャラクタを異ならせてもよい。
【0050】
音声合成部13は、コメントしたユーザごとに異なる声質でコメントを音声合成してもよい。例えば、音声合成部13は、複数種類(例えば数十種類程度)の声質を出力できる音声合成モデルを利用する。音声合成部13は、コメントを音声合成する際に、ユーザIDと声質の識別番号との対応付けを記憶する。ユーザIDと声質の識別番号との対応付けが記憶されている場合は、音声合成部13は、対応付けられた声質でコメントを音声合成する。ユーザIDと声質の識別番号との対応付けが記憶されていない場合、つまり新たなユーザのコメントの場合は、音声合成部13は、そのユーザIDにいずれかの声質の識別番号を対応付け、その声質でコメントを音声合成する。コメントするユーザの数が声質の数よりも多い場合、同じ声質を複数のユーザに対応付けてもよい。動画生成部14は、声質のそれぞれに対応するキャラクタを用意しておき、音声合成部13の合成した音声の声質に対応するキャラクタが口パクするキャラクタ動画を生成する。
【0051】
視聴者が、自分のコメントを読み上げるキャラクタと声質の少なくともいずれかを指定してもよい。例えば、視聴者は、コメントを投稿する際のコマンドでキャラクタと音質を指定する。音声合成部13は、コメントの表示態様(色、サイズ、表示位置)で声質を変えてもよい。この場合、視聴者は、コメントの表示態様でキャラクタと声質を指定できる。
【0052】
コメントしたユーザの数のキャラクタを表示してもよい。例えば、同時または近い時刻でコメントが投稿された場合、音声合成部13は、コメントを順番に音声合成するのではなく、音声が重なるようにコメントを音声合成して出力し、動画生成部14は、複数のキャラクタを同時に表示する。
【0053】
動画生成部14は、コメントの内容に基づいた動作をキャラクタに行わせてもよい。例えば、コメントの内容が「8888」(8が2つ以上連続した文字列であり、パチパチと読み、拍手を意味する)の場合、動画生成部14は、キャラクタが拍手する動作のキャラクタ動画を生成する。このとき、音声合成部13は、「8888」に対応する音声を出力しなくてもよいし、拍手の音を出力してもよいし、パチパチと発声する音声を合成してもよい。コメントの内容が「www」(wが1つ以上連続した文字列、笑を意味する)の場合、動画生成部14は、キャラクタが笑うキャラクタ動画を生成する。コメントの最後に「w」の文字が付与されている場合、動画生成部14は、コメントを読み上げた後にキャラクタが笑うキャラクタ動画を生成する。
【0054】
動画生成部14は、コメントの投稿状況(例えばコメント量)に応じた動作をキャラクタに行わせてもよい。例えば、大量のコメントが届いた場合、動画生成部14は、キャラクタが慌てる動作を行うキャラクタ動画を生成する。コメントが少ない場合、例えば所定時間以上コメントが届かない場合、動画生成部14は、キャラクタが暇そうな動作を行うキャラクタ動画を生成する。
【0055】
生放送番組に対してギフトを投入できる場合、ギフトが投入された際に、動画生成部14は、キャラクタが感謝する動作を行うキャラクタ動画を生成してもよい。音声合成部13は、ギフトを投入したユーザの名前を読み上げる音声を合成してもよい。また、動画生成部14は、投入されたギフトの演出に応じた動作を行うキャラクタ動画を生成してもよい。例えば、動画生成部14は、画面上端からオブジェクトが落下するような演出の場合、落下物を受け止める動作を行うキャラクタ動画を生成する。
【0056】
配信者が発話中は、コメントの読み上げを一時停止してもよい。例えば、マイクに配信者の音声が入力されている場合、音声合成部13は、コメントの入力を一時停止して、コメントの音声合成を行わない。配信者の発話の終了を検知すると、音声合成部13は、読み上げを一時停止したコメントを、読み上げを中断した位置から再開して読み上げてもよいし、そのコメントを最初から読み上げてもよい。配信者が発話中に取得したコメントは、読み上げ対象から除外してもよい。あるいは、音声合成部13は、配信者が発話中に取得したコメントを一時的に保持し、配信者の発話後に、順次コメントを音声合成してもよい。
【0057】
配信者端末1は、キャラクタ動画を生成するためのキャラクタデータ(例えばモーションデータなど)を送信してもよい。具体的には、動画生成部14は、合成した音声からキャラクタデータを生成し、動画合成部15は、キャラクタデータをコンテンツに重畳し、送信部16は、キャラクタデータが重畳されたコンテンツを送信する。この場合、視聴者端末4が、キャラクタデータからキャラクタ動画を生成し、コンテンツにキャラクタ動画を重畳表示する。動画配信サーバ2がキャラクタ動画を生成してコンテンツにキャラクタ動画を重畳し、キャラクタ動画を重畳したコンテンツを視聴者端末4へ送信してもよい。配信者端末1は、コンテンツとキャラクタデータを別々に送信してもよい。
【0058】
なお、本実施形態では、配信者端末1でキャラクタ動画を生成したが、視聴者端末4でキャラクタ動画を生成し、配信動画に重畳表示してもよい。具体的には、視聴者端末4は、コメント配信サーバ3から取得したコメントから音声を合成し、合成した音声からキャラクタ動画を生成し、動画配信サーバ2から受信した動画にキャラクタ動画を重畳して表示するとともに、合成した音声を出力する。視聴者端末4でキャラクタ動画を生成する場合は、タイムシフトで配信される動画についても同様に、投稿されたコメントについても音声合成とキャラクタ動画を行うことで、コメントを読み上げるキャラクタを表示して動画を視聴できる。
【0059】
以上説明したように、本実施形態の配信者端末1は、配信者が配信したいコンテンツを入力する入力部11と、動画配信サーバ2が配信する動画に対して投稿されたコメントを取得するコメント取得部12と、コメントから音声を生成する音声合成部13と、音声に応じた動作を行うキャラクタを含むキャラクタ動画を生成する動画生成部14と、コンテンツにキャラクタ動画を重畳させた配信用動画を生成する動画合成部15を備える。これにより、キャラクタがコメントを読み上げる動画を配信できるので、コメントを投稿する意欲をかきたてることができる。配信者が視聴者のコメントに対して返答することで、配信者がキャラクタと対話しているような動画を配信できる。
【符号の説明】
【0060】
1…配信者端末
11…入力部
12…コメント取得部
13…音声合成部
14…動画生成部
15…動画合成部
16…送信部
2…動画配信サーバ
3…コメント配信サーバ
4…視聴者端末
【手続補正書】
【提出日】2023-04-13
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
コンテンツ配信サーバが配信するコンテンツを生成するためのコンテンツ生成装置であって、
コンテンツを入力する入力部と、
前記コンテンツ配信サーバが配信するコンテンツに対して投稿されたコメントを取得するコメント取得部と、
前記コメントから前記コメントの種類ごとまたは前記コメントの投稿者ごとに異なる声質の音声を生成する音声合成部と、
前記音声に応じた動作を行い、前記声質に対応するキャラクタまたはキャラクタデータを含むキャラクタコンテンツを生成する生成部と、
前記コンテンツに前記キャラクタコンテンツを重畳させた配信用コンテンツを生成する合成部を備える
コンテンツ生成装置。
【請求項2】
請求項1に記載のコンテンツ生成装置であって、
前記声質と前記キャラクタの少なくともいずれか一方は前記コメントの投稿者によって指定される
コンテンツ生成装置。
【請求項3】
コンテンツ配信サーバが配信するコンテンツを生成するためのコンテンツ生成装置であって、
コンテンツを入力する入力部と、
前記コンテンツ配信サーバが配信するコンテンツに対して投稿されたコメントを取得するコメント取得部と、
前記コメントから音声を生成する音声合成部と、
前記コメントの内容または前記コメントの投稿状況に応じた動作を行うキャラクタまたはキャラクタデータを含むキャラクタコンテンツを生成する生成部と、
前記コンテンツに前記キャラクタコンテンツを重畳させた配信用コンテンツを生成する合成部を備える
コンテンツ生成装置。
【請求項4】
請求項3に記載のコンテンツ生成装置であって、
前記生成部は、前記コメントの内容が数字の8の文字が複数個連続する文字列を含む場合は、拍手の動作を行うキャラクタまたはキャラクタデータを含む前記キャラクタコンテンツを生成する
コンテンツ生成装置。
【請求項5】
コンテンツ配信サーバが配信するコンテンツを生成するためのコンテンツ生成装置であって、
コンテンツを入力する入力部と、
前記コンテンツ配信サーバが配信するコンテンツに対して投稿されたコメントを取得するコメント取得部と、
前記コメントから音声を生成する音声合成部と、
前記音声に応じた動作を行うキャラクタまたはキャラクタデータを含むキャラクタコンテンツを生成する生成部と、
前記コンテンツに前記キャラクタコンテンツを重畳させた配信用コンテンツを生成する合成部を備え、
前記音声合成部は、配信者が発話中は、音声の生成を一時的に停止する
コンテンツ生成装置。
【請求項6】
コンテンツ配信サーバが配信するコンテンツを生成するためのコンテンツ生成装置であって、
コンテンツを入力する入力部と、
前記コンテンツ配信サーバが配信するコンテンツに対して投稿されたコメントを取得するコメント取得部と、
前記コメントから前記コメントの内容の長さに応じた速さの音声を生成する音声合成部と、
前記音声に応じた動作を行うキャラクタまたはキャラクタデータを含むキャラクタコンテンツを生成する生成部と、
前記コンテンツに前記キャラクタコンテンツを重畳させた配信用コンテンツを生成する合成部を備える
コンテンツ生成装置。
【請求項7】
コンテンツ配信サーバが配信するコンテンツを生成するためのコンテンツ生成装置によるコンテンツ生成方法であって、
コンテンツを入力し、
前記コンテンツ配信サーバが配信するコンテンツに対して投稿されたコメントを取得し、
前記コメントから前記コメントの種類ごとまたは前記コメントの投稿者ごとに異なる声質の音声を生成し、
前記音声に応じた動作を行い、前記声質に対応するキャラクタまたはキャラクタデータを含むキャラクタコンテンツを生成し、
前記コンテンツに前記キャラクタコンテンツを重畳させた配信用コンテンツを生成する
コンテンツ生成方法。
【請求項8】
コンテンツ配信サーバが配信するコンテンツを生成するためのコンテンツ生成装置によるコンテンツ生成方法であって、
コンテンツを入力し、
前記コンテンツ配信サーバが配信するコンテンツに対して投稿されたコメントを取得し、
前記コメントから音声を生成し、
前記コメントの内容または前記コメントの投稿状況に応じた動作を行うキャラクタまたはキャラクタデータを含むキャラクタコンテンツを生成し、
前記コンテンツに前記キャラクタコンテンツを重畳させた配信用コンテンツを生成する
コンテンツ生成方法。
【請求項9】
コンテンツ配信サーバが配信するコンテンツを生成するためのコンテンツ生成装置によるコンテンツ生成方法であって、
コンテンツを入力し、
前記コンテンツ配信サーバが配信するコンテンツに対して投稿されたコメントを取得し、
前記コメントから音声を生成し、
前記音声に応じた動作を行うキャラクタまたはキャラクタデータを含むキャラクタコンテンツを生成し、
前記コンテンツに前記キャラクタコンテンツを重畳させた配信用コンテンツを生成し、
配信者が発話中は、音声の生成を一時的に停止する
コンテンツ生成方法。
【請求項10】
コンテンツ配信サーバが配信するコンテンツを生成するためのコンテンツ生成装置によるコンテンツ生成方法であって、
コンテンツを入力し、
前記コンテンツ配信サーバが配信するコンテンツに対して投稿されたコメントを取得し、
前記コメントから前記コメントの内容の長さに応じた速さの音声を生成し、
前記音声に応じた動作を行うキャラクタまたはキャラクタデータを含むキャラクタコンテンツを生成し、
前記コンテンツに前記キャラクタコンテンツを重畳させた配信用コンテンツを生成する
コンテンツ生成方法。
【請求項11】
コンテンツ配信サーバが配信するコンテンツを生成するためのコンテンツ生成装置としてコンピュータを動作させるプログラムであって、
コンテンツを入力する処理と、
前記コンテンツ配信サーバが配信するコンテンツに対して投稿されたコメントを取得する処理と、
前記コメントから前記コメントの種類ごとまたは前記コメントの投稿者ごとに異なる声質の音声を生成する処理と、
前記音声に応じた動作を行い、前記声質に対応するキャラクタまたはキャラクタデータを含むキャラクタコンテンツを生成する処理と、
前記コンテンツに前記キャラクタコンテンツを重畳させた配信用コンテンツを生成する処理を
コンピュータに実行させるプログラム。
【請求項12】
コンテンツ配信サーバが配信するコンテンツを生成するためのコンテンツ生成装置としてコンピュータを動作させるプログラムであって、
コンテンツを入力する処理と、
前記コンテンツ配信サーバが配信するコンテンツに対して投稿されたコメントを取得する処理と、
前記コメントから音声を生成する処理と、
前記コメントの内容または前記コメントの投稿状況に応じた動作を行うキャラクタまたはキャラクタデータを含むキャラクタコンテンツを生成する処理と、
前記コンテンツに前記キャラクタコンテンツを重畳させた配信用コンテンツを生成する処理を
コンピュータに実行させるプログラム。
【請求項13】
コンテンツ配信サーバが配信するコンテンツを生成するためのコンテンツ生成装置としてコンピュータを動作させるプログラムであって、
コンテンツを入力する処理と、
前記コンテンツ配信サーバが配信するコンテンツに対して投稿されたコメントを取得する処理と、
前記コメントから音声を生成する処理と、
前記音声に応じた動作を行うキャラクタまたはキャラクタデータを含むキャラクタコンテンツを生成する処理と、
前記コンテンツに前記キャラクタコンテンツを重畳させた配信用コンテンツを生成する処理をコンピュータに実行させ、
配信者が発話中は、音声の生成を一時的に停止する処理を
コンピュータに実行させるプログラム。
【請求項14】
コンテンツ配信サーバが配信するコンテンツを生成するためのコンテンツ生成装置としてコンピュータを動作させるプログラムであって、
コンテンツを入力する処理と、
前記コンテンツ配信サーバが配信するコンテンツに対して投稿されたコメントを取得する処理と、
前記コメントから前記コメントの内容の長さに応じた速さの音声を生成する処理と、
前記音声に応じた動作を行うキャラクタまたはキャラクタデータを含むキャラクタコンテンツを生成する処理と、
前記コンテンツに前記キャラクタコンテンツを重畳させた配信用コンテンツを生成する処理を
コンピュータに実行させるプログラム。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0009
【補正方法】変更
【補正の内容】
【0009】
本開示の一態様のコンテンツ生成装置は、コンテンツ配信サーバが配信するコンテンツを生成するためのコンテンツ生成装置であって、コンテンツを入力する入力部と、前記コンテンツ配信サーバが配信するコンテンツに対して投稿されたコメントを取得するコメント取得部と、前記コメントから前記コメントの種類ごとまたは前記コメントの投稿者ごとに異なる声質の音声を生成する音声合成部と、前記音声に応じた動作を行い、前記声質に対応するキャラクタまたはキャラクタデータを含むキャラクタコンテンツを生成する生成部と、前記コンテンツに前記キャラクタコンテンツを重畳させた配信用コンテンツを生成する合成部を備える。生成部は、コメントの内容またはコメントの投稿状況に応じた動作を行うキャラクタまたはキャラクタデータを含むキャラクタコンテンツを生成する。音声合成部は、配信者が発話中は、音声の生成を一時的に停止する。音声合成部は、コメントからコメントの内容の長さに応じた速さの音声を生成する。