特開2024-130534 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社フレクトの特許一覧

特開2024-130534処理装置、処理プログラム及び処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024130534

(43)【公開日】2024-09-30

(54)【発明の名称】処理装置、処理プログラム及び処理方法

(51)【国際特許分類】

H04N 21/235 20110101AFI20240920BHJP

G06F 3/16 20060101ALI20240920BHJP

【ＦＩ】

H04N21/235

G06F3/16 540

【審査請求】未請求

【請求項の数】11

【出願形態】ＯＬ

(21)【出願番号】P 2023040321

(22)【出願日】2023-03-15

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＦＡＣＥＢＯＯＫ

２．ＩＮＳＴＡＧＲＡＭ

３．ツイッター

４．ＴｉｋＴｏｋ

５．ＬＩＮＥ

６．Ｔｗｉｔｔｅｒ

(71)【出願人】

【識別番号】515172278

【氏名又は名称】株式会社フレクト

(74)【代理人】

【識別番号】230121016

【弁護士】

【氏名又は名称】小笠原匡隆

(72)【発明者】

【氏名】岡田渡

【テーマコード（参考）】

5C164

【Ｆターム（参考）】

5C164MA07S

5C164MB13S

5C164PA41

5C164SB08P

5C164SD12S

5C164TA08S

5C164UB08S

5C164UB10S

(57)【要約】

【課題】配信者から配信される音声情報を含むコンテンツの音声情報を好適に変換すること。
【解決手段】少なくとも一つのプロセッサを具備する処理装置であって、前記少なくとも一つのプロセッサは、配信者が使用する配信者端末から送信されるコンテンツに含まれる音声情報をユーザが使用するユーザ端末にて変換させるための音声変換情報を、前記ユーザ端末に送信する。
【選択図】図１

【特許請求の範囲】

【請求項1】

少なくとも一つのプロセッサを具備する処理装置であって、
前記少なくとも一つのプロセッサは、
配信者が使用する配信者端末から送信されるコンテンツに含まれる音声情報をユーザが使用するユーザ端末にて変換させるための音声変換情報を、前記ユーザ端末に送信する
ための処理を実行するように構成された処理装置。

【請求項2】

前記少なくとも一つのプロセッサは、前記ユーザ端末に複数の前記音声変換情報を送信し、前記複数の前記音声変換情報のうち少なくともひとつを前記ユーザに前記ユーザ端末で選択させるための処理を実行するように構成された、請求項１に記載の処理装置。

【請求項3】

前記少なくとも一つのプロセッサは、前記配信者が選択した前記音声変換情報を前記ユーザ端末に送信するための処理を実行するように構成された、請求項１に記載の処理装置。

【請求項4】

前記少なくとも一つのプロセッサは、
音声情報の基となる当該音声情報の特徴量を含むコンテンツを前記ユーザ端末に送信し、前記ユーザ端末に前記音声情報を前記特徴量に基づいて構築させるための処理を実行するように構成された、請求項１に記載の処理装置。

【請求項5】

前記少なくとも一つのプロセッサは、音声情報の基となるテキストデータを含むコンテンツを前記ユーザ端末に送信するための処理を実行するように構成された、請求項１に記載の処理装置。

【請求項6】

前記少なくとも一つのプロセッサは、前記配信者が撮影途中のコンテンツを、所定時間ごとに時分割して受信し、当該時分割された前記コンテンツを、連続して前記ユーザ端末に送信するための処理を実行するように構成された、請求項１に記載の処理装置。

【請求項7】

前記コンテンツは、前記配信者の代わりの映像として表示される、２次元的又は３次元的であって静的又は動的なキャラクタに音声情報を付加したものである、請求項１に記載の処理装置。

【請求項8】

前記少なくとも一つのプロセッサは、前記配信者が選択した前記ユーザ端末に、前記音声変換情報を送信するための処理を実行するように構成された、請求項１に記載の処理装置。

【請求項9】

前記少なくとも一つのプロセッサは、有効期間が設定された音声変換情報を送信するための処理を実行するように構成された、請求項１に記載の処理装置。

【請求項10】

少なくとも一つのプロセッサを具備するコンピュータにおいて前記少なくとも一つのプロセッサを、
配信者が使用する配信者端末から送信されるコンテンツに含まれる音声情報を、ユーザが使用するユーザ端末に変換させるための音声変換情報を前記ユーザ端末に送信する
ように機能させる処理プログラム。

【請求項11】

少なくとも一つのプロセッサを具備するコンピュータにおいて前記少なくとも一つのプロセッサにより実行される処理方法であって、
配信者が使用する配信者端末から送信されるコンテンツに含まれる音声情報を、ユーザが使用するユーザ端末に変換させるための音声変換情報を前記ユーザ端末に送信する段階、
を含む処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、処理装置、処理プログラム及び処理方法に関する。

【背景技術】

【0002】

従来より、インターネットを介した動画配信システムが知られていた。例えば、特許文献１には、「動画には、配信ユーザＵ１の音声が合成されており、視聴ユーザから配信ユーザＵ１の音声を変更するためのボイスチェンジギフトを受け付けたことに応じて、配信ユーザ装置２０に音声変更指示オブジェクトを表示し、前記音声変更指示オブジェクトへの操作に応じて、前記配信ユーザの音声をボイスチェンジギフトにて指定された音声に変更する」動画配信システムが記載されている。

【0003】

しかし、特許文献１に記載の動画配信システムにおいては、サーバ装置での音声変換処理が多大なものになる虞がある。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０２０－３６１３４号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

本開示は、上述した背景からなされたものであり、配信者から配信される音声情報を含むコンテンツの音声情報を好適に変換することが可能な処理装置、処理プログラム及び処理方法を提供する。

【課題を解決するための手段】

【0006】

本開示の一態様によれば、「少なくとも一つのプロセッサを具備する処理装置であって、前記少なくとも一つのプロセッサは、配信者が使用する配信者端末から送信されるコンテンツに含まれる音声情報を、ユーザが使用するユーザ端末にて変換させるための音声変換情報を前記ユーザ端末に送信するための処理を実行するように構成された処理装置。」が提供される。

【0007】

本開示の一態様によれば、「少なくとも一つのプロセッサを具備するコンピュータにおいて前記少なくとも一つのプロセッサを、配信者が使用する配信者端末から送信されるコンテンツに含まれる音声情報を、ユーザが使用するユーザ端末に変換させるための音声変換情報を前記ユーザ端末に送信するように機能させる処理プログラム。」が提供される。

【0008】

本開示の一態様によれば、「少なくとも一つのプロセッサを具備するコンピュータにおいて前記少なくとも一つのプロセッサにより実行される処理方法であって、配信者が使用する配信者端末から送信されるコンテンツに含まれる音声情報を、ユーザが使用するユーザ端末に変換させるための音声変換情報を前記ユーザ端末に送信する段階、を含む処理方法。」が提供される。

【発明の効果】

【0009】

本開示によれば、配信者から配信される音声情報を含むコンテンツの音声情報を好適に変換することが可能な処理装置、処理プログラム及び処理方法を提供することができる。

【0010】

なお、上記効果は説明の便宜のための例示的なものであるにすぎず、限定的なものではない。上記効果に加えて、又は上記効果に代えて、本開示中に記載されたいかなる効果や当業者であれば明らかな効果を奏することも可能である。

【図面の簡単な説明】

【0011】

【図1】図１は、本開示の実施形態に係る処理システム１に係る動画配信処理の概要を概略的に示す図である。

【図2】図２は、本開示の実施形態に係る処理システム１の構成を概略的に示す概念図である。

【図3】図３は、本開示の実施形態に係るユーザ端末装置１００の構成の例を示すブロック図である。

【図4】図４は、本開示の実施形態に係る運営者サーバ装置２００の構成の例を示すブロック図である。

【図5】図５は、本開示の実施形態に係る配信者端末装置３００の構成の例を示すブロック図である。

【図6】図６は、本開示の実施形態に係るユーザ端末装置１００、運営者サーバ装置２００、及び配信者端末装置３００の間で実行される処理シーケンスを示す図である。

【図7】図７は、本開示の実施形態に係る動画情報及びボイスチェンジギフトを受信したユーザ端末装置１００での処理シーケンスを示す図である。

【図8】図８は、ボイスチェンジギフトの選択肢が表示されたユーザ端末装置１００の出力インターフェイス１１１の一例を示す図である。

【図9】図９は、ボイスチェンジギフトの選択肢が表示されたユーザ端末装置１００の出力インターフェイス１１１の一例を示す図である。

【図10】図１０は、本開示の実施形態に係る運営者サーバ装置２００において実行される処理フローを示す図である。

【図11】図１１は、本開示の実施形態に係る処理システム１の変形例１に係る動画配信処理の概要を概略的に示す図である。

【図12】図１２は、本開示の実施形態に係る処理システム１の変形例２に係る動画配信処理の概要を概略的に示す図である。

【発明を実施するための形態】

【0012】

添付図面を参照して本開示の実施形態を説明する。なお、図面における共通する構成要素には同一の参照符号が付されている。

【0013】

１．本開示に係る処理システム１の概要
本開示に係る処理システムは、一例としては、配信者から配信される動画等のコンテンツについて、ユーザが音声を変換して当該コンテンツを楽しむものである。特に、当該処理システムは、例えば、音声の変換を効率よく行う点で好適に用いられる。

【0014】

図１は、本開示の実施形態に係る処理システム１に係る動画配信処理の概要を概略的に示す図である。具体的には、図１には、動画配信者が配信する動画情報が提供されてからエンドユーザに視聴されるまでの一連の概略的な流れが示されている。図１によれば、動画配信者は、自身の端末装置を操作することで、動画配信運営者に対して動画をアップロード（提供）する。このとき、動画配信者は、自身の端末装置を操作することで、動画と併せて音声を変換するための情報（ボイスチェンジギフト）をもアップロードする。

【0015】

次に、アップロードされた動画及びボイスチェンジギフトは、動画配信運営者が管理するＳＮＳプラットフォームを介してエンドユーザに提供される。このようにＳＮＳプラットフォームを介して動画及びボイスチェンジギフトを提供されたエンドユーザは、動画に含まれる音声をボイスチェンジギフトに基づいて変換することができる。本開示に係る処理システム１は、このような動画配信者から配信されるコンテンツの音声を好適に変換するために用いられる。

【0016】

ここで、本開示において、処理システム１は、一例として、エンドユーザが操作する端末装置（後述するユーザ端末装置１００）、動画配信運営者が管理するＳＮＳプラットフォーム内のサーバ装置（後述する運営者サーバ装置２００）、配信者が操作する端末装置（後述する配信者端末装置３００）、を含む。そして、本開示では、動画配信運営者管理するサーバ装置が処理装置として機能する場合を中心に説明する。しかし、本開示における処理装置は、上記のような動画の配信に係る処理を実行可能な装置であればいずれでもよく、当然に、動画配信運営者が管理するサーバ装置以外の他のサーバ装置、処理システムに含まれる他のサーバ装置、各端末装置、並びにこれら以外のサーバ装置又は端末装置、及びこれらの組み合わせのいずれであっても、好適に処理装置として機能することが可能である。すなわち、本開示においては、各装置につけられた呼称は、各装置を互いに区別するために用いられているに過ぎず、各装置の機能に応じては他の呼称がなされてもよい。

【0017】

また、本開示において、「ＳＮＳプラットフォーム」とは、インターネット上において個人同士のコミュニケーションを促進して、社会的なネットワークの構築を支援し、個人同士の繋がる場所を提供するサービスであるソーシャルネットワーキングサービス（ＳＮＳ：Social Networking Service）の土台や基盤となる環境を意味するに過ぎない。具体的な「ＳＮＳプラットフォーム」としては、フェイスブック（Facebook）、ユーチューブ（YouTube（登録商標））、インスタグラム（Instagram）、ツイッター（Twitter）、ティックトック（Tik Tok）、ライン（Line）があるが、これらに限定されることはない。すなわち、本開示における「ＳＮＳプラットフォーム」とは、個人同士の繋がる場所をインターネット上で提供できるサービスの基盤環境に該当すれば、既存のＳＮＳのプラットフォームだけでなく、今後新たに提供されるＳＮＳのプラットフォームも含まれる。

【0018】

また、本開示において、「エンドユーザ」は配信者が配信する動画を視聴する視聴者を意味するに過ぎない。特に、「エンドユーザ」はＳＮＳプラットフォームへの登録者を想定しているが、動画が公開されているＳＮＳサイトを閲覧するためにＳＮＳプラットフォームへの登録が不要な場合には、ＳＮＳプラットフォームへの登録者に限定されることはない。例えば、非登録の一般ユーザであっても、当該動画を視聴できる環境であれば、当該一般ユーザも「エンドユーザ」に含まれることになる。また、本開示に係る処理システムによって提供される動画を配信する配信者は、当該サービスのユーザとも言えるが、「エンドユーザ」とは利用するサービスが異なっており、ユーザとして記載する場合であっても区別して説明する。

【0019】

また、本開示において、「配信者」は動画等のコンテンツを提供する者を意味するに過ぎない。したがって、「配信者」は、動画等のコンテンツの配信を行っていれば、単なる個人又は個人事業主だけでなく、法人、組合、団体、又は組織などであってもよい。

【0020】

また、本開示において、「動画等のコンテンツ」は音声データまたは音声データに準ずる情報（以下、総じて「音声情報」ともいう。）を含む情報を意味するに過ぎない。したがって、「動画等のコンテンツ」は、動画だけでなく、音声のみのデータ、音声を文字起ししたテキストデータなどであってもよい。

【0021】

また、本開示において、「動画等のコンテンツ」は、機械学習により生成されたアルゴリズムや人間によって設計されたアルゴリズムなどによって動画や音声から抽出された、動画や音声を構築可能な特徴を示すデータであってもよく、ユーザにより入力された、動画や音声を再構築可能な特徴を示すデータなどであってもよい。

【0022】

また、本開示において、「動画」とは音声情報を含むことを意味するにすぎない。すなわち、「動画」は、予め撮影して録画した動画、撮影と同時に配信する所謂ライブ動画、配信者の代わりに表示される２次元的または３次元的で静的または動的なキャラクタに音声情報を付加したものなどであってもよい。

【0023】

なお、本開示において、「第１」や「第２」等の記載がなされていたとしても、これらが付された二つの要素のみに限定されることを意味するわけではない。当然に、「第３」、「第４」及びそれ以上の複数の要素が含まれていてもよい。

【0024】

２．処理システム１の構成
図２は、本開示の実施形態に係る処理システム１の構成を概略的に示す概念図である。図２によると、自身が希望する動画を視聴する動画閲覧者であるエンドユーザによって操作されるユーザ端末装置１００、当該動画等の動画情報を管理する運営者サーバ装置２００及び動画情報を配信する配信者によって操作される配信者端末装置３００が、互いにネットワークを通じて通信可能に接続されている。当該ネットワークは、無線、有線又はそれらの組み合わせにより構成される。

【0025】

なお、図２の例では、ユーザ端末装置１００及び配信者端末装置３００は、それぞれ１台しか記載されていないが、当然２台以上の各装置を含むことが可能である。また、運営者サーバ装置２００は単一のものとして記載されているが、各サーバ装置の各構成要素及び処理を複数のサーバ装置やクラウドサーバ装置に分配することも可能である。

【0026】

また、図２の例では、ユーザ端末装置１００及び配信者端末装置３００を互いに区別して記載しているが、これらを総称して端末装置１００と記載する場合がある。ただし、このような場合であったとしても、各端末装置をただ単に総称しているに過ぎず、ユーザ端末装置１００及び配信者端末装置３００が同じ処理・構成をしていることを意味するわけではない。

【0027】

３．ユーザ端末装置１００の構成
図３は、本開示の実施形態に係るユーザ端末装置１００の構成の例を示すブロック図である。ユーザ端末装置１００は、図３に示す構成要素の全てを備える必要はなく、一部を省略した構成をとることも可能であるし、他の構成要素を加えることも可能である。

【0028】

ユーザ端末装置１００は、典型的には、スマートフォンに代表される無線通信可能な端末装置が挙げられるが、当然当該装置のみには限られない。例えば、端末装置としては、フィーチャーフォン、携帯情報端末、ＰＤＡ、ラップトップパソコン、デスクトップパソコン、携帯型ゲーム機、据え置き型ゲーム機など、本開示に係るプログラムを実行可能な装置であれば、いずれでも好適に適用することが可能である。また、処理システム１においてユーザ端末装置１００は、複数の端末装置を含むことが可能であるが、各端末装置内において同種の端末装置である必要はなく、それぞれ異なる種類の端末装置であってもよい。

【0029】

図３によると、ユーザ端末装置１００は、出力インターフェイス１１１、プロセッサ１１２、ＲＡＭ、ＲＯＭ、又は不揮発性メモリ（場合によっては、ＳＳＤ）等を含むメモリ１１３、通信処理回路及びアンテナを含む通信インターフェイス１１４、タッチセンサ及びハードキーを含む入力インターフェイス１１５を含む。そして、これらの各構成要素が制御ライン及びデータラインを介して互いに電気的に接続される。

【0030】

出力インターフェイス１１１は、プロセッサ１１２の指示に応じて、入力インターフェイス１１５に含まれるカメラで撮影される画像や、本開示に係るプログラムを実行することによって出力される各種表示を、ディスプレイやプリンタ等の機器に出力する出力部として機能する。なお、このようなディスプレイは、例えば液晶ディスプレイ、有機ＥＬディスプレイ又は電子ペーパー等から構成される。また、出力インターフェイス１１１は、スピーカを含んでおり、プロセッサ１１２の指示に応じて音を発することが可能である。

【0031】

プロセッサ１１２は、ＣＰＵ（マイクロコンピュータ：マイコン）から構成され、メモリ１１３に記憶された各種プログラムに基づいて、接続された他の構成要素を制御する制御部として機能する。具体的には、プロセッサ１１２は、本開示に係るアプリケーションを実行するためのプログラムやＯＳを実行するためのプログラムをメモリ１１３から読み出して実行する。本開示においては、プロセッサ１１２は、特に、図５～図７の処理シーケンスで記載された各処理等を実行する（処理の詳細は、図５～図７等において説明する。）。なお、プロセッサ１１２は、単一のＣＰＵで構成されても良いが、複数のＣＰＵやＧＰＵを組み合わせて構成しても良い。

【0032】

メモリ１１３は、ＲＯＭ、ＲＡＭ、不揮発性メモリ等の主記憶装置、ＨＤＤ、ＳＳＤ等の補助記憶装置を備え、記憶部として機能する。ＲＯＭは、本開示に係るアプリケーションやＯＳを実行するための指示命令をプログラムとして記憶する。ＲＡＭは、ＲＯＭに記憶されたプログラムがプロセッサ１１２により処理されている間、データの書き込み及び読み込みをするために用いられる。不揮発性メモリは、当該プログラムの実行によってデータの書き込み及び読み込みが実行されるメモリであって、ここに書き込まれたデータは、当該プログラムの実行が終了した後でも保存される。本開示においては、メモリ１１３は、特に、図５～図７の処理シーケンスで記載された各処理等を実行するプログラムを記憶する（処理の詳細は、図５～図７等において説明する。）。

【0033】

通信インターフェイス１１４は、通信処理回路及びアンテナを介して、遠隔に設置された運営者サーバ装置２００、又は他の端末装置若しくはサーバ装置との間で情報の送受信をする通信部として機能する。通信処理回路は、処理システム１において用いられるプログラムや各種情報等を処理の進行に応じて、他の端末装置または他のサーバ装置から情報を送受信するための処理をする。本開示においては、ユーザ端末装置１００は、後述する視聴要求を運営者サーバ装置２００に送信し、当該視聴要求に対する応答、動画情報、音声情報、ボイスチェンジギフト等を運営者サーバ装置２００から受信する。

【0034】

通信処理回路は、５Ｇ方式に代表されるような広帯域の無線通信方式に基づいて処理されるが、ＩＥＥＥ８０２．１１に代表されるような無線ＬＡＮやＢｌｕｅｔｏｏｔｈ（登録商標）のような狭帯域の無線通信に関する方式や非接触無線通信に関する方式に基づいて処理することも可能である。また、無線通信に代えて、又は加えて、有線通信を用いることも可能である。

【0035】

入力インターフェイス１１５は、タッチパネルやハードキー、カメラ、マイク等から構成され、本開示に係るプログラムの実行に係る指示入力や、様々な情報を登録するための操作入力等を受け付ける入力部として機能する。タッチパネルは、出力インターフェイス１１１を被覆するように配置され、出力インターフェイス１１１からディスプレイに出力される画像データに対応する位置座標の情報を、プロセッサ１１２に送信する。タッチパネル方式としては、抵抗膜方式、静電容量結合方式、超音波表面弾性波方式など、公知の方式を利用することができる。本開示においては、タッチパネルは、指示体により出力インターフェイス１１１に表示された各アイコン等に対するスワイプ操作やタップ操作を検出する。なお、本開示ではユーザ端末装置１００に備えられる入力インターフェイス１１５を用いたが、例えばマウスのような、プロセッサ１１２等を備える本体に無線又は有線で接続された入力インターフェイス１１５を用いることも可能である。入力インターフェイス１１５に含まれるカメラやマイクは、外部の映像や音を検出することが可能なデバイスである。このカメラやマイクは、ユーザ端末装置１００に内蔵されるものでもよく、無線または有線で通信可能に接続された外部デバイスであってもよい。

【0036】

４．運営者サーバ装置２００の構成
図４は、本開示の実施形態に係る運営者サーバ装置２００の構成の例を示すブロック図である。運営者サーバ装置２００は、図４に示す構成要素の全てを備える必要はなく、一部を省略した構成をとることも可能であるし、他の構成要素を加えることも可能である。また、運営者サーバ装置２００は単一の筐体に図４に図示するものを備える必要はなく、運営者サーバ装置２００の各構成要素及び処理を複数のサーバ装置やクラウドサーバ装置に分配することも可能である。

【0037】

図４によると、運営者サーバ装置２００は、ＣＰＵ等から構成されるプロセッサ２１２、ＲＡＭ、ＲＯＭ、及び不揮発性メモリ、ＳＳＤ等を含むメモリ２１３、通信インターフェイス２１４を含む。そして、これらの各構成要素が制御ライン及びデータラインを介して互いに電気的に接続される。

【0038】

プロセッサ２１２は、ＣＰＵ（マイクロコンピュータ：マイコン）から構成され、メモリ２１３に記憶された各種プログラムに基づいて、接続された他の構成要素を制御する制御部として機能する。具体的には、プロセッサ２１２は、本開示に係るアプリケーションを実行するためのプログラムやＯＳを実行するためのプログラムをメモリ２１３から読み出して実行する。本開示においては、プロセッサ２１２は、特に、図５～図７の処理シーケンスで記載された各処理等を実行する（処理の詳細は、図５～図７等において説明する。）。なお、プロセッサ２１２は、単一のＣＰＵで構成されても良いが、複数のＣＰＵやＧＰＵを組み合わせて構成しても良い。

【0039】

メモリ２１３は、ＲＯＭ、ＲＡＭ、不揮発性メモリ等の主記憶装置、ＨＤＤ、ＳＳＤ等の補助記憶装置を備え、記憶部として機能する。ＲＯＭは、本開示に係るアプリケーションやＯＳを実行するための指示命令をプログラムとして記憶する。ＲＡＭは、ＲＯＭに記憶されたプログラムがプロセッサ２１２により処理されている間、データの書き込み及び読み込みをするために用いられる。不揮発性メモリは、当該プログラムの実行によってデータの書き込み及び読み込みが実行されるメモリであって、ここに書き込まれたデータは、当該プログラムの実行が終了した後でも保存される。本開示においては、メモリ２１３は、特に、図５～図７の処理シーケンスで記載された各処理等を実行するプログラムを記憶する。

【0040】

通信インターフェイス２１４は、通信処理回路及びアンテナを介して、遠隔に設置されたユーザ端末装置１００、配信者端末装置３００、又は他の端末装置若しくはサーバ装置との間で情報の送受信をする通信部として機能する。通信処理回路は、処理システム１において用いられるプログラムや各種情報等を処理の進行に応じて、他の端末装置または他のサーバ装置から情報を送受信するための処理をする。本開示においては、特に、通信インターフェイス１１４は、後述する視聴要求をユーザ端末装置１００から受信し、当該視聴要求に対する応答、動画情報、音声情報、ボイスチェンジギフト等をユーザ端末装置１００に送信する。また、通信インターフェイス１１４は、動画情報、音声情報、ボイスチェンジギフト等を配信者端末装置３００から受信し、後述する視聴者追加通知等を配信者端末装置３００に送信する。

【0041】

【0042】

５．配信者端末装置３００の構成
図５は、本開示の実施形態に係る端末装置３００の構成の例を示すブロック図である。配信者端末装置３００は、図５に示す構成要素の全てを備える必要はなく、一部を省略した構成をとることも可能であるし、他の構成要素を加えることも可能である。

【0043】

配信者端末装置３００は、典型的には、スマートフォンに代表される無線通信可能な端末装置が挙げられるが、当然当該装置のみには限られない。例えば、端末装置としては、フィーチャーフォン、携帯情報端末、ＰＤＡ、ラップトップパソコン、デスクトップパソコン、携帯型ゲーム機、据え置き型ゲーム機など、本開示に係るプログラムを実行可能な装置であれば、いずれでも好適に適用することが可能である。また、上記のとおり、処理システム１において配信者端末装置３００は、それぞれ複数の端末装置を含むことが可能であるが、各端末装置内において同種の端末装置である必要はなく、それぞれ異なる種類の端末装置であってもよい。

【0044】

図３によると、配信者端末装置３００は、出力インターフェイス３１１、プロセッサ３１２、ＲＡＭ、ＲＯＭ、又は不揮発性メモリ（場合によっては、ＳＳＤ）等を含むメモリ３１３、通信処理回路及びアンテナを含む通信インターフェイス３１４、タッチセンサ及びハードキーを含む入力インターフェイス３１５を含む。そして、これらの各構成要素が制御ライン及びデータラインを介して互いに電気的に接続される。

【0045】

出力インターフェイス３１１は、プロセッサ３１２の指示に応じて、入力インターフェイス３１５に含まれるカメラで撮影される画像や、本開示に係るプログラムを実行することによって出力される各種表示を、ディスプレイやプリンタ等の機器に出力する出力部として機能する。なお、このようなディスプレイは、例えば液晶ディスプレイ、有機ＥＬディスプレイ又は電子ペーパー等から構成される。また、出力インターフェイス３１１は、スピーカを含んでおり、プロセッサ３１２の指示に応じて音を発することが可能である。

【0046】

プロセッサ３１２は、ＣＰＵ（マイクロコンピュータ：マイコン）から構成され、メモリ３１３に記憶された各種プログラムに基づいて、接続された他の構成要素を制御する制御部として機能する。具体的には、プロセッサ３１２は、本開示に係るアプリケーションを実行するためのプログラムやＯＳを実行するためのプログラムをメモリ３１３から読み出して実行する。本開示においては、プロセッサ３１２は、特に、図５～図７の処理シーケンスで記載された各処理等を実行する（処理の詳細は、図５～図７等において説明する。）。なお、プロセッサ３１２は、単一のＣＰＵで構成されても良いが、複数のＣＰＵやＧＰＵを組み合わせて構成しても良い。

【0047】

メモリ３１３は、ＲＯＭ、ＲＡＭ、不揮発性メモリ等の主記憶装置、ＨＤＤ、ＳＳＤ等の補助記憶装置を備え、記憶部として機能する。ＲＯＭは、本開示に係るアプリケーションやＯＳを実行するための指示命令をプログラムとして記憶する。ＲＡＭは、ＲＯＭに記憶されたプログラムがプロセッサ３１２により処理されている間、データの書き込み及び読み込みをするために用いられる。不揮発性メモリは、当該プログラムの実行によってデータの書き込み及び読み込みが実行されるメモリであって、ここに書き込まれたデータは、当該プログラムの実行が終了した後でも保存される。本開示においては、メモリ３１３は、特に、図５～図７の処理シーケンスで記載された各処理等を実行するプログラムを記憶する（処理の詳細は、図５～図７等において説明する。）。

【0048】

通信インターフェイス３１４は、通信処理回路及びアンテナを介して、遠隔に設置された運営者サーバ装置２００、又は他の端末装置若しくはサーバ装置との間で情報の送受信をする通信部として機能する。通信処理回路は、処理システム１において用いられるプログラムや各種情報等を処理の進行に応じて、他の端末装置または他のサーバ装置から情報を送受信するための処理をする。本開示においては、配信者端末装置３００は、動画情報、音声情報、ボイスチェンジギフト等を運営者サーバ装置２００に送信し、後述する視聴者追加通知等を運営者サーバ装置２００から受信する。

【0049】

【0050】

入力インターフェイス３１５は、タッチパネルやハードキー、カメラ、マイク等から構成され、本開示に係るプログラムの実行に係る指示入力や、様々な情報を登録するための操作入力等を受け付ける入力部として機能する。タッチパネルは、出力インターフェイス３１１を被覆するように配置され、出力インターフェイス３１１からディスプレイに出力される画像データに対応する位置座標の情報を、プロセッサ３１２に送信する。タッチパネル方式としては、抵抗膜方式、静電容量結合方式、超音波表面弾性波方式など、公知の方式を利用することができる。本開示においては、タッチパネルは、指示体により出力インターフェイス３１１に表示された各アイコン等に対するスワイプ操作やタップ操作を検出する。なお、本開示では配信者端末装置３００に備えられる入力インターフェイス３１５を用いたが、例えばマウスのような、プロセッサ３１２等を備える本体に無線又は有線で接続された入力インターフェイス３１５を用いることも可能である。入力インターフェイス３１５に含まれるカメラやマイクは、外部の映像や音を検出することが可能なデバイスである。このカメラやマイクは、配信者端末装置３００に内蔵されるものでもよく、無線または有線で通信可能に接続された外部デバイスであってもよい。

【0051】

６．処理システム１により実行される処理シーケンス
（Ａ）ユーザの動画の視聴に係る処理
図６は、本開示の実施形態に係るユーザ端末装置１００、運営者サーバ装置２００、及び配信者端末装置３００の間で実行される処理シーケンスを示す図である。具体的には、図６は、動画を配信する配信者が、運営者サーバ装置２００を介して動画をユーザ端末装置１００に送信する処理シーケンスを示す図である。ここでは一例として、配信者による動画の配信態様が、動画の撮影と配信とを略同時に行う、いわゆるライブ配信であることを前提に説明する。

【0052】

図６によると、ユーザ端末装置１００のプロセッサ１１２は、入力インターフェイス１１５を介して配信者の操作入力を受け付けて、ユーザが任意で選択した動画の視聴要求を運営者サーバ装置２００に送信する（Ｔ１１）。

【0053】

動画の視聴要求が運営者サーバ装置２００において通信インターフェイス２１４を介して受信されると、運営者サーバ装置２００のプロセッサ２１２は、当該動画の視聴要求等基づいて、ユーザ端末装置１００への動画配信を許可するか否かを判定する（Ｓ１１）。ユーザ端末装置１００への動画配信を許可する場合、運営者サーバ装置２００は、当該許可する旨の情報を含む要求許可をユーザ端末装置１００に送信する（Ｔ１２）。なお、ユーザ端末装置１００への動画配信を許可しない場合は、当該許可しない旨の情報を含む要求拒絶をユーザ端末装置１００に送信してもよく、当該要求に対する応答をしなくてもよい。以下、ユーザ端末装置１００への動画配信を許可して、運営者サーバ装置２００が要求許可をユーザ端末装置１００に送信（Ｔ１２）した場合について説明する。

【0054】

要求許可をユーザ端末装置１００に送信する（Ｔ１２）のと同時、またはその前後で、運営者サーバ装置２００のプロセッサ２１２は、配信者端末装置３００に、視聴者が追加された旨の情報を含む視聴者追加通知を送信する（Ｔ１３）。視聴者追加通知は、視聴者の数や増減を示すものであってもよく、視聴者のＩＤ、年齢、性別、視聴場所等の視聴者に関する情報であってもよい。

【0055】

要求許可を送信（Ｔ１２）または視聴者追加通知を送信（Ｔ１３）したあと、配信者端末装置３００のプロセッサ３１２は、入力インターフェイス３１５を介して動画情報及びボイスチェンジギフトを運営者サーバ装置２００に送信する（Ｔ１４）。具体的には、動画情報は、入力インターフェイス３１５内のカメラで撮像された時系列的に連続する画像情報及び同じく入力インターフェイス３１５内のマイクで録音された時系列的に連続する音声情報を含む。この動画情報は、所定時間（例えば０．０１秒）ごとに配信者端末装置３００のプロセッサ３１２内でデータ化されて運営者サーバ装置２００に連続的に送信される。すなわち、配信者端末装置３００のプロセッサ３１２は、所定時間ごとに時分割された動画情報及び音声情報を連続して送信することで、配信者端末装置３００の入力インターフェイス３１５による撮影時期と後述するユーザ端末装置１００でのユーザによる視聴時期とのズレを抑制することが可能である。

【0056】

ここで、音声情報は、上述したようなマイクで録音された音を単にデジタル化したもの（いわゆる生データ）でもよく、音声認識などを用いて音声データから書き起こしたテキストや、音素情報であってもよい。このテキストや音素情報は単純なテキストデータとして表現されてもよいし、なんらかのベクトル情報として表現されてもよく、これらの組み合わせであってもよい。

【0057】

また、音声情報は、音声の特徴量を抽出した情報であってもよい。音声の特徴量を抽出及び構築する手法としては、例えばＶＡＥ(Variational Auto-Encoder)のような処理方式を用いることが可能である。例えば、配信者端末装置３００のプロセッサ３１２は、ＶＡＥにおけるエンコーダを用いて音声データから特徴量を生成する。すなわち、ＶＡＥを用いた場合の特徴量は、ＶＡＥにおけるエンコーダを用いて生成されたものが音声データとなる。ＶＡＥにおけるエンコーダによって音声データから抽出された情報が特徴量である。一方、ユーザ端末装置１００のプロセッサ１１２は、当該音声の特徴量に関する情報を基に、音声情報を生成（構築）する。

【0058】

このように、音声情報を構築可能な特徴量を含む情報を用いることで、通信に係るデータ量の削減やノイズ除去、音声情報を生成する際の構築処理に係る処理労力の軽減等をすることができる。なお、上記では、特徴量を生成する処理方式としてＶＡＥを用いること及び特徴量の具体例を説明したが、音圧や音圧の変化量が比較的大きい周波数を特定して抽出するようにしてもよく、音声データから抽出した特徴量を基に音声を構築できればよく、これらの組み合わせであってもよい。

【0059】

ボイスチェンジギフトは、動画情報に含まれる音声情報の音域等を変換するための情報である、いわゆる視聴エフェクト情報を複数含む。具体的には、ボイスチェンジギフトは、男性の声を女性の声に疑似的に変換するもの、女性の声を男性の声に疑似的に変換するもの、喜怒哀楽を疑似的に表現するもの、特定の人物の声の特徴を付加して疑似的に当該特定の人物の声に似せるよう変換するもの、音声の再生速度を変換するもの等がある。このボイスチェンジギフトは、さらに、ボイスチェンジギフトを使用可能な期間である有効期間に関する情報及び当該ボイスチェンジギフトを送る宛先に関する情報を含む。

【0060】

配信者端末装置３００から動画情報及びボイスチェンジギフトを受信すると、運営者サーバ装置２００のプロセッサ２１２は、受信した動画情報及びボイスチェンジギフトを送信用の形式に変換してからユーザ端末装置１００に送信する（Ｔ１５）。具体的には、運営者サーバ装置２００のプロセッサ２１２は、動画情報の画質や音質、データ形式等を必要に応じて変換すること及びボイスチェンジギフト内の宛先に関する情報を抽出してから当該情報を削除する変更をすることで、動画情報及びボイスチェンジギフトを送信用の情報に変換する。なお、配信者端末装置３００から受信した動画情報及びボイスチェンジギフトが、すでに送信用の形式であれば、上記変換処理を実行しなくてもよい。

【0061】

送信用に変換した動画情報を送信する際、送信用に変換したボイスチェンジギフトについては、ボイスチェンジギフト内に含まれていた宛先に関する情報に基づいて、当該宛先に含まれるユーザ端末装置１００にのみ、ボイスチェンジギフトを送信する（Ｔ１５）。

【0062】

運営者サーバ装置２００から動画情報及びボイスチェンジギフトを受信したユーザ端末装置１００は、動画情報を再生する。このとき、詳しくは後述するが、ユーザがボイスチェンジギフトを選択した場合、選択されたボイスチェンジギフトに基づいて音声を変換して動画をディスプレイに表示する（Ｓ１２）。その後、運営者サーバ装置２００のプロセッサ２１２は、配信者端末装置３００から時分割された動画情報及び音声情報を連続して受信するたびにユーザ端末装置１００に送信する。

【0063】

（Ｂ）動画生成及び動画公開から紹介に係る処理
図７は、本開示の実施形態に係る動画情報及びボイスチェンジギフトを受信したユーザ端末装置１００での処理シーケンスを示す図である。

【0064】

図７によると、ステップ２１では、ユーザ端末装置１００のプロセッサ１１２は、使用可能なボイスチェンジギフトがあるか否かを判定する。ここで、使用可能かボイスチェンジギフトとは、当該判定の時点である現時点または過去に受信したボイスチェンジギフトがある場合、当該ボイスチェンジギフトの有効期間に関する情報に含まれる使用可能な期間が、現時点を包含するボイスチェンジギフトのことを示す。

【0065】

すなわち、ステップ２１では、現時点または過去にボイスチェンジギフトを受信していない場合や、受信したボイスチェンジギフトの使用可能な期間が現時点を包含しない場合は、使用可能なボイスチェンジギフトがないため、ステップ２１の判定は偽（Ｎｏ）となり、ステップＳ２１～Ｓ２４の処理をせずにステップＳ２５に移行する。一方、使用可能なボイスチェンジギフトがある場合は、ステップ２１の判定は真（Ｙｅｓ）となり、ステップ２２に移行する。

【0066】

このように、ステップ２１は、現時点または過去にボイスチェンジギフトを受信していない場合にまで音声の変換を許可することを防止することができる。また、ステップ２１は、受信したボイスチェンジギフトの使用可能な期間が現時点を包含しない場合にまで音声の変換を許可することを防止し、ひいては配信者が意図しないタイミングでの音声の変換を防止すること、換言すると、配信者が特定したタイミングでの音声の変換をユーザに提供することができる。

【0067】

ステップＳ２２では、ユーザ端末装置１００の出力インターフェイス１１１に含まれるモニタに、ボイスチェンジギフトの選択肢を表示して、ステップＳ２３に移行する。

【0068】

図８によると、ボイスチェンジギフトの選択肢が表示されたユーザ端末装置１００の出力インターフェイス１１１の一例が示されている。具体例としては、運営者サーバ装置２００を介して配信者端末装置３００から受信した複数のボイスチェンジギフトのうち、使用可能なボイスチェンジギフトが複数ある場合、ユーザ端末装置１００のプロセッサ１１２は、当該使用可能な複数のボイスチェンジギフトをモニタに一覧で表示して、ユーザが任意でボイスチェンジギフトのひとつを選択可能にする。

【0069】

具体的には、図８によると、配信者の動画情報１１１ａがディスプレイに表示され、配信者の動画情報１１１ａの下方にボイスチェンジギフトを選択するためのアイコン１１１ｂが複数表示される。一例として、ボイスチェンジギフトは、喜怒哀楽を疑似的に表現するものがある。より具体的には、図８の紙面方向で視て左右方向左側の笑った表情を表現するアイコン１１１ｂが表現された位置のタッチパネル（ディスプレイ）をタップすることで、配信者の声を喜んでいる雰囲気の音声に変換する。また、図８の紙面方向で視て左右方向中央の怒った表情を表現するアイコン１１１ｂが表現された位置のタッチパネル（ディスプレイ）をタップすることで、配信者の声を怒っている雰囲気の音声に変換する。また、図８の紙面方向で視て左右方向右側の悲しそうな表情を表現するアイコン１１１ｂが表現された位置のタッチパネル（ディスプレイ）をタップすることで、配信者の声を悲しい雰囲気の音声に変換する。

【0070】

さらなる具体例として、図９によると、図９の紙面方向で視て左右方向最も左側の男性を表現するアイコン１１１ｂが表現された位置のタッチパネル（ディスプレイ）をタップすることで、配信者の声を男性の声に疑似的に変換する。また、図９の紙面方向で視て左右方向左から２番目の女性を表現するアイコン１１１ｂが表現された位置のタッチパネル（ディスプレイ）をタップすることで、配信者の声を女性の声に疑似的に変換する。また、図９の紙面方向で視て左右方向右から２番目の子供を表現するアイコン１１１ｂが表現された位置のタッチパネル（ディスプレイ）をタップすることで、配信者の声を子供の声に疑似的に変換する。
また、図９の紙面方向で視て左右方向最も右側の星を表現するアイコン１１１ｂが表現された位置のタッチパネル（ディスプレイ）をタップすることで、配信者の声に特定の人物（著名人やアニメのキャラクタの声を担当する声優）の声の特徴を付加して疑似的に当該特定の人物の声に似せるよう変換する。

【0071】

このように、ユーザ端末装置１００の出力インターフェイス１１１にボイスチェンジギフトを選択するためのアイコン１１１ｂを表示することで、ユーザは、視覚的に任意のボイスチェンジギフトを選択することができる。

【0072】

ステップＳ２３では、モニタに一覧で表示した使用可能な複数のボイスチェンジギフトのうちのひとつをユーザが選択したか否かを判定する。ユーザがボイスチェンジギフトを選択していない場合、ステップ２３の判定は偽（Ｎｏ）となり、ステップＳ２４の処理をせずにステップＳ２５に移行する。一方、ユーザが複数のボイスチェンジギフトのうちのひとつを選択した場合、ステップ２３の判定は真（Ｙｅｓ）となり、ステップＳ２４に移行する。

【0073】

ステップＳ２４では、ユーザ端末装置１００のプロセッサ１１２が、ユーザが選択したボイスチェンジギフトで動画情報の音声情報を変換し、ステップＳ２５に移行する。ステップＳ２５では、動画情報に基づいて動画を再生し、本ルーチンを終了する。すなわち、ステップＳ２５では、ステップＳ２１またはステップＳ２３の判定が偽（Ｎｏ）であれば、音声情報を変換することなく動画情報を再生する。一方、ステップＳ２１及びステップＳ２３の判定がいずれも真（Ｙｅｓ）であれば、ステップＳ２４で、ユーザが選択したボイスチェンジギフトでの動画情報の音声情報の変換を、ユーザ端末装置１００のプロセッサ１１２が行う。

【0074】

これにより、例えば運営者サーバ装置２００のプロセッサ２１２が当該変換処理を担う場合と比較して、運営者サーバ装置２００のプロセッサ２１２に係る処理負荷を軽減することができる。このようにユーザ端末装置１００のプロセッサ１１２が変換処理を行うことは、動画を視聴するユーザが多い場合や、配信者端末装置３００がユーザ端末装置１００にいわゆるライブ配信をしているようなリアルタイム性（時間確定性）が要求されるような場合、運営者サーバ装置２００の運営者とは異なる運営者が、外付け的に音声変換処理のサービスを提供するような場合であっても、配信者から配信される音声情報を含むコンテンツの音声情報を好適に変換することができる。

【0075】

ステップＳ２５を実行して本ルーチンを終了したあと、再びステップＳ２１から本ルーチンを開始する（リターン）。

【0076】

７．運営者サーバ装置２００において実行される処理フロー
以下、図１０に記載された運営者サーバ装置２００において実行される処理フローを具体的に説明する。

【0077】

図１０は、本開示の実施形態に係る運営者サーバ装置２００において実行される処理フローを示す図である。図１０は、運営者サーバ装置２００が配信者端末装置３００から動画情報を受信した際（すなわち、動画がアップロードされた場合）に、ボイスチェンジギフトの有無及び宛先の指定の有無を判定するとともに、当該動画に関するボイスチェンジギフトを該当する宛先にのみ送信しつつ、動画情報については視聴要求を満たすすべてのユーザ端末装置に送信する処理を示す図である。

【0078】

図１０によると、ステップＳ３１では、運営者サーバ装置２００のプロセッサ２１２は、通信インターフェイス２１４を介して、配信者端末装置３００から動画を受信したか否かを判定する。ステップＳ３１の判定結果が偽（Ｎｏ）で、動画を受信していない場合は、本フローは終了する。一方、ステップＳ３１の判定結果が真（Ｙｅｓ）で、動画を受信した場合は、ステップＳ３２に移行する。

【0079】

ステップＳ３２では、動画情報を受信する際、ボイスチェンジギフトを受信したか否かを判定する。ステップＳ３２の判定結果が偽（Ｎｏ）で、ボイスチェンジギフトを受信していない場合は、ステップＳ３５に移行する。一方、ステップＳ３２の判定結果が真（Ｙｅｓ）で、ボイスチェンジギフトを受信した場合は、ステップＳ３３に移行する。ステップＳ３３では、ボイスチェンジギフト内の宛先に関する情報を抽出してから削除し、ステップＳ３４に移行する。

【0080】

ステップＳ３４では、ステップＳ３３でボイスチェンジギフトから抽出した宛先のユーザ端末装置１００に、動画情報及びステップＳ３３で宛先を削除したボイスチェンジギフトを送信する。一方、ステップＳ３５、すなわち動画情報を受信する際にボイスチェンジギフトを受信していない場合は、ボイスチェンジギフトは含ませず、動画情報のみを当該宛先に含まれないユーザ端末装置１００に送信する。このように、ステップＳ３４またはステップＳ３５を実行したあと、本ルーチンを終了し、再びステップＳ３１から本ルーチンを開始する（リターン）。

【0081】

このように、ステップＳ３３、Ｓ３４では、ステップＳ３３でボイスチェンジギフトから抽出した宛先のユーザ端末装置１００に、動画情報及びステップＳ３３で宛先を削除したボイスチェンジギフトを送信することで、配信者が特定のユーザにのみ、音声の変換を許可することができる。

【0082】

８．本開示の実施形態のまとめ
本開示の実施形態に係る運営者サーバ装置２００は、少なくとも一つのプロセッサ２１２を具備する処理装置であって、プロセッサ２１２は、配信者が使用する配信者端末装置３００から送信される動画情報に含まれる音声情報をユーザが使用するユーザ端末装置１００にて変換させるための音声変換情報であるボイスチェンジギフトを、ユーザ端末装置１００に送信する。このような構成により、ボイスチェンジギフトに基づいて、動画情報の音声情報をユーザ端末装置１００に変換させることが可能となる。換言すると、ボイスチェンジギフトに基づく動画情報の音声情報の変換処理に係る処理負荷をユーザ端末装置１００が担うため、配信者端末装置３００における情報処理の負荷を軽減することができる。

【0083】

本開示の実施形態に係る運営者サーバ装置２００のプロセッサ２１２は、ユーザ端末装置１００に複数のボイスチェンジギフトを送信し、複数のボイスチェンジギフトのうち少なくともひとつをユーザにユーザ端末装置１００で選択させるための処理を実行するように構成されてもよい。このような構成によれば、ユーザは、音声変換処理に係る複数の選択肢から任意の音声変換処理を選択することになる。特に、ボイスチェンジギフトに基づく動画情報の音声情報の変換処理に係る処理負荷をユーザ端末装置１００が担うため、音声変換処理に係る複数の選択肢から任意の音声変換処理を選択する操作と、音声変換処理とを、配信者端末装置３００で一貫することができる。

【0084】

本開示の実施形態に係る運営者サーバ装置２００のプロセッサ２１２は、配信者が選択したボイスチェンジギフトをユーザ端末装置１００に送信するための処理を実行するように構成されてもよい。このような構成により、ユーザ端末装置１００で実行されるボイスチェンジギフトに基づく音声情報の変換処理に用いられるボイスチェンジギフトを、配信者の任意で選択することが可能になる。

【0085】

本開示の実施形態に係る運営者サーバ装置２００のプロセッサ２１２は、音声情報の基となる当該音声情報の特徴量を含むコンテンツをユーザ端末装置１００に送信し、ユーザ端末装置１００に音声情報を特徴量に基づいて構築させるように構成されてもよい。これにより、音声情報のうち、本質的な情報を用いることが可能となり、通信に係るデータ量の削減やノイズ除去、音声情報を生成する際の構築処理に係る処理労力の軽減等をすることができる。特に、本開示に係る処理システムにおいては、音声情報を音声変換処理によって変換する際、音声情報の特徴量を基に変換することで、ボイスチェンジギフトの意図する音声を好適に表現することができる。

【0086】

本開示の実施形態に係る運営者サーバ装置２００のプロセッサ２１２は、テキストデータからなる音声情報を含むコンテンツをユーザ端末装置１００に送信するように構成されてもよい。このような構成により、例えばテキストデータ内の文章をユーザ端末装置１００が読み上げるようなコンテンツにおいて、ボイスチェンジギフトに基づく音声でテキストデータ内の文章をユーザ端末装置１００が読み上げるようにすることができる。

【0087】

本開示の実施形態に係る運営者サーバ装置２００のプロセッサ２１２は、配信者が撮影途中の動画を所定時間ごとに時分割したものである動画情報を受信し、当該時分割された動画の動画情報を、連続してユーザ端末装置１００に送信するための処理を実行するように構成されてもよい。このような構成により、いわゆるライブ配信においても、動画情報をユーザ端末装置１００に送信して音声変換処理をユーザ端末装置１００に実行させることができる。

【0088】

本開示の実施形態に係る運営者サーバ装置２００のプロセッサ２１２は、配信者の代わりの映像として表示される、２次元的または３次元的で静的または動的なキャラクタに音声情報を付加したものであるコンテンツをユーザ端末装置１００に送信するように構成されてもよい。このような構成により、配信者の代わりに当該キャラクタが音声を発するようなコンテンツである場合であっても、音声についてはユーザが変換することが可能になる。

【0089】

本開示の実施形態に係る運営者サーバ装置２００のプロセッサ２１２は、配信者が選択したユーザ端末装置１００に、ボイスチェンジギフトを送信するように構成されてもよく、有効期間が設定されたボイスチェンジギフトを送信するように構成されてもよい。このような構成により、配信者の意思で特定のユーザにのみボイスチェンジギフトを提供することや、ボイスチェンジギフトが使用されるタイミングを配信者の意思で決定することが可能になる。

【0090】

本開示の実施形態に係る処理プログラムは、少なくとも一つのプロセッサ２１２を具備するコンピュータにおいて少なくとも一つのプロセッサ２１２を、配信者が使用する配信者端末装置３００から送信される動画情報に含まれ、ユーザ端末装置１００に変換させるための音声変換情報であるボイスチェンジギフトをユーザが使用するユーザ端末装置１００に送信する、ように機能させる。このような構成により、ボイスチェンジギフトに基づいて、動画情報の音声情報をユーザ端末装置１００に変換させることが可能となる。換言すると、ボイスチェンジギフトに基づく動画情報の音声情報の変換処理に係る処理負荷をユーザ端末装置１００が担うため、配信者端末装置３００における情報処理の負荷を軽減することができる。なお、運営者サーバ装置２００は、ボイスチェンジギフトをユーザ端末装置１００に送信する際、中継サーバを介して送信するようにしてもよい。

【0091】

本開示の実施形態に係る処理方法は、プロセッサ２１２により実行される処理方法であって、配信者が使用する配信者端末装置３００から送信される動画情報に含まれ、ユーザ端末装置１００に変換させるための音声変換情報であるボイスチェンジギフトをユーザが使用するユーザ端末装置１００に送信する段階を含んでいる。このような構成により、ボイスチェンジギフトに基づいて、動画情報の音声情報をユーザ端末装置１００に変換させることが可能となる。換言すると、ボイスチェンジギフトに基づく動画情報の音声情報の変換処理に係る処理負荷をユーザ端末装置１００が担うため、配信者端末装置３００における情報処理の負荷を軽減することができる。

【0092】

９．変形例

【0093】

図１１は、本開示の実施形態に係る処理システム１の変形例１に係る動画配信処理の概要を概略的に示す図である。具体的には、図１１には、変形例１における、動画配信者が配信する動画情報が提供されてからエンドユーザに視聴されるまでの一連の概略的な流れが示されている。図１１によれば、変形例１では、エンドユーザは、動画配信運営者があらかじめ準備している音声変換情報を動画配信運営者から受信する。

【0094】

すなわち、本開示の実施形態に係る処理システム１の変形例１においては、動画配信者が選択、設定等をする音声変換情報ではなく、動画配信運営者があらかじめ準備した音声変換情報を用いている。これにより、動画配信者の作業量を軽減することができる。なお、音声変換情報は、当該変形例のごとく運営者サーバ装置（処理装置）にあらかじめ設定されたもののみであってもよく、配信者端末装置３００から送信されるもののみであってもよく、双方を用いるようにしてもよい。

【0095】

図１２は、本開示の実施形態に係る処理システム１の変形例２に係る動画配信処理の概要を概略的に示す図である。具体的には、図１２には、変形例２における、動画配信者が配信する動画情報が提供されてからエンドユーザに視聴されるまでの一連の概略的な流れが示されている。図１２によれば、変形例２では、エンドユーザは、動画配信運営者が配信する動画を、中継サーバを介して受信する。特に、変形例２では、中継サーバ（ユーザ端末）は、動画配信者から配信されるボイスチェンジギフトを用いて動画情報の音声を変換してエンドユーザに送信する。

【0096】

すなわち、本開示の実施形態に係る処理システム１の変形例２においては、エンドユーザの端末装置や運営者サーバ装置が音声変換処理を実行するのではなく、中継サーバが音声変換処理を実行する。これにより、変形例２では、エンドユーザの端末装置に代わり中継サーバが音声変換処理を実行して、エンドユーザの端末装置における処理労力を軽減することができる。また、変形例２では、中継サーバが音声変換負荷を実行することで、中継サーバから動画情報を受信するエンドユーザの端末が複数ある場合であっても、運営者サーバ装置による処理負荷を軽減することができる。

【0097】

上記本実施形態及び変形例においては、音声情報を含むコンテンツをユーザ端末に送信する処理装置及び音声変換情報を送信する処理装置を運営者サーバ装置２００として説明した。しかし、これに限らず、各処理を異なる処理装置で実行するようにしてもよい。すなわち、ユーザ端末に変換させるための音声変換情報をユーザ端末に送信するものであれば、本開示の処理システム１において扱うことができる。

【0098】

本明細書で説明される処理及び手順は、本開示において明示的に説明されたものによってのみならず、ソフトウェア、ハードウェア又はこれらの組み合わせによっても実現可能である。具体的には、本明細書で説明された処理及び手順は、集積回路、揮発性メモリ、不揮発性メモリ、磁気ディスク、光ストレージ等の媒体に、当該処理に相当するロジックを実装することによって実現される。また、本明細書で説明される処理及び手順は、それらの処理・手順をコンピュータプログラムとして実装し、端末装置やサーバ装置を含む各種のコンピュータに実行させることが可能である。

【0099】

本明細書中で説明される処理及び手順が単一の装置、ソフトウェア、コンポーネント、モジュールによって実行される旨が説明されたとしても、そのような処理又は手順は、複数の装置、複数のソフトウェア、複数のコンポーネント、及び／又は、複数のモジュールによって実行されるものとすることができる。また、本明細書中で説明される各種情報が単一のメモリや記憶部に格納される旨が説明されたとしても、そのような情報は、単一の装置に備えられた複数のメモリ又は複数の装置に分散して配置された複数のメモリに分散して格納されるものとすることができる。さらに、本明細書において説明されるソフトウェア及びハードウェアの要素は、それらをより少ない構成要素に統合して、又は、より多い構成要素に分解することによって実現されるものとすることができる。

【符号の説明】

【0100】

１００端末装置、ユーザ端末装置（ユーザ端末）
２００運営者サーバ装置（処理装置）
３００配信者端末装置（配信者端末）

【図1】