特開2024-107653 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 株式会社ミクシィの特許一覧

特開2024-107653情報処理装置、情報処理方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16A
16B
16C
16D
16E
17A
17B
18
19

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024107653

(43)【公開日】2024-08-09

(54)【発明の名称】情報処理装置、情報処理方法、及びプログラム

(51)【国際特許分類】

H04N 21/233 20110101AFI20240802BHJP

H04N 21/472 20110101ALI20240802BHJP

【ＦＩ】

H04N21/233

H04N21/472

【審査請求】未請求

【請求項の数】16

【出願形態】ＯＬ

(21)【出願番号】P 2023011686

(22)【出願日】2023-01-30

(71)【出願人】

【識別番号】500033117

【氏名又は名称】株式会社ＭＩＸＩ

(74)【代理人】

【識別番号】100152984

【弁理士】

【氏名又は名称】伊東秀明

(74)【代理人】

【識別番号】100149401

【弁理士】

【氏名又は名称】上西浩史

(72)【発明者】

【氏名】松本雅矩

(72)【発明者】

【氏名】栗山幸介

(72)【発明者】

【氏名】小牧信貴

(72)【発明者】

【氏名】大脇遼平

(72)【発明者】

【氏名】得地賢吾

(72)【発明者】

【氏名】惠良栞

【テーマコード（参考）】

5C164

【Ｆターム（参考）】

5C164FA06

5C164PA41

5C164SB01S

5C164SB04P

5C164SB29S

5C164UB90S

5C164UD41P

(57)【要約】

【課題】音声変更後に特徴が変えられたアバタの動画コンテンツを、視聴ユーザに違和感を与えにくくするように配信するための情報処理装置、情報処理方法、及びプログラムを提供する。
【解決手段】本発明の情報処理装置は、配信ユーザのアバタと音声を含む動画コンテンツを視聴する視聴ユーザから、音声を変更させる変更操作を受け付ける受付部と、変更操作に基づいて変更された第１の音声と、アバタの特徴のうち、変更操作時に視聴ユーザにより指定されたアバタの被指定特徴とを、互いに関連付ける関連付け部と、配信ユーザが動画コンテンツにおけるアバタの被指定特徴を変えた場合に、被指定特徴の変化後に配信される動画コンテンツに含まれる音声について、第１の音声からの変更に関する処理を実行する処理部と、を備える。
【選択図】図１５

【特許請求の範囲】

【請求項1】

配信ユーザのアバタと音声を含む動画コンテンツを視聴する視聴ユーザから、前記音声を変更させる変更操作を受け付ける受付部と、
前記変更操作に基づいて変更された第１の音声と、前記アバタの特徴のうち、前記変更操作時に前記視聴ユーザにより指定された前記アバタの被指定特徴とを、互いに関連付ける関連付け部と、
前記配信ユーザが前記動画コンテンツにおける前記アバタの前記被指定特徴を変えた場合に、前記被指定特徴の変化後に配信される前記動画コンテンツに含まれる前記音声について、前記第１の音声からの変更に関する処理を実行する処理部と、
を備える情報処理装置。

【請求項2】

前記配信ユーザが、前記動画コンテンツにおける前記アバタを構成する要素オブジェクトを変えた場合に、前記処理部が、前記要素オブジェクトの変更後に配信される前記動画コンテンツに含まれる前記音声について、前記処理を実行する、請求項１に記載の情報処理装置。

【請求項3】

前記受付部は、前記変更操作と、前記動画コンテンツにおける前記アバタを構成する複数の前記要素オブジェクトのうちの１つ以上を指定オブジェクトとして指定する指定操作と、を前記視聴ユーザから受け付け、
前記関連付け部は、前記第１の音声と、前記指定オブジェクトとを関連付け、
前記配信ユーザが、前記動画コンテンツにおける前記アバタ中の前記指定オブジェクトを変えた場合に、前記処理部が、前記指定オブジェクトの変更後に配信される前記動画コンテンツに含まれる前記音声について、前記処理を実行する、請求項２に記載の情報処理装置。

【請求項4】

前記受付部は、前記視聴ユーザが前記アバタの表示画面の中で前記指定オブジェクトを含む領域を指定する前記指定操作を受け付け、
前記関連付け部は、指定された前記領域に基づいて前記指定オブジェクトを特定する、請求項３に記載の情報処理装置。

【請求項5】

前記指定オブジェクトの変化に関する変化条件を、前記視聴ユーザの設定操作に基づいて設定する条件設定部を備え、
前記配信ユーザが前記動画コンテンツにおける前記アバタの前記指定オブジェクトを変え、且つ、前記指定オブジェクトの変化が前記変化条件を満たす場合に、前記処理部が、前記指定オブジェクトの変更後に配信される前記動画コンテンツに含まれる前記音声について、前記処理を実行する、請求項３に記載の情報処理装置。

【請求項6】

前記配信ユーザが前記動画コンテンツにおける前記アバタの前記指定オブジェクトを変え、変化前の前記指定オブジェクトと変化後の前記要素オブジェクトとが所定の関係にある場合に、前記処理部が、前記指定オブジェクトの変更後に配信される前記動画コンテンツに含まれる前記音声について、前記処理を実行する、請求項５に記載の情報処理装置。

【請求項7】

前記受付部は、前記配信ユーザから、前記動画コンテンツにおける前記アバタの前記指定オブジェクトを変えるオブジェクト変化操作を受け付け、
前記受付部が前記オブジェクト変化操作を受け付けた場合、前記指定オブジェクトと前記第１の音声との関連付けに応じた情報を、前記指定オブジェクトが変わる前の時点で前記配信ユーザに通知する通知部をさらに備える、請求項３に記載の情報処理装置。

【請求項8】

前記通知部は、前記配信ユーザにより配信される前記動画コンテンツについて、前記視聴ユーザの課金操作の有無に係る情報を前記配信ユーザに通知する、請求項７に記載の情報処理装置。

【請求項9】

前記動画コンテンツにおいて、前記配信ユーザの顔の動きに応じて設定される前記アバタの表情が変更された場合に、前記処理部は、前記表情の変更後に配信される前記動画コンテンツに含まれる前記音声について、前記処理を実行する、請求項１に記載の情報処理装置。

【請求項10】

前記受付部が、前記視聴ユーザから、前記音声を変更させる前記変更操作を受け付けた場合に、前記動画コンテンツの表示画面における第１領域には、前記動画コンテンツが表示され、前記表示画面において前記第１領域とは異なる第２領域には、前記動画コンテンツ中から抽出された前記アバタの静止画像が表示される、請求項９に記載の情報処理装置。

【請求項11】

前記表示画面には、前記動画コンテンツの開始時点からの経過時間に相当する時点を指示する指示オブジェクトが、前記視聴ユーザによって操作可能な状態で表示され、
前記視聴ユーザが前記指示オブジェクトを操作した場合、操作後の前記指示オブジェクトが指示する時点以降の前記動画コンテンツが前記第１領域に表示され、
前記第１領域に前記動画コンテンツが表示される間において、前記視聴ユーザが前記指示オブジェクトに対する指示操作を行った場合に、前記受付部が前記指示操作を受け付け、
前記第１領域に表示されていた前記動画コンテンツ中、前記指示操作が行われた時点の前記アバタの静止画が前記第２領域に表示され、
前記関連付け部は、前記第２領域に表示された静止画における前記アバタの顔の状態と、前記第１の音声とを関連付ける、請求項１０に記載の情報処理装置。

【請求項12】

前記第１の音声を含む前記動画コンテンツにおける前記アバタの前記被指定特徴が変更された場合であって、前記受付部が、前記視聴ユーザから、前記第１の音声を変更しない音声維持操作を受け付けた場合に、
前記関連付け部は、前記第１の音声を、変更後の前記被指定特徴に関連付ける、請求項１に記載の情報処理装置。

【請求項13】

前記第１の音声を含む前記動画コンテンツにおける前記アバタの前記被指定特徴が変更された際に、変更後の前記被指定特徴と第２の音声とが関連付けられている場合、前記視聴ユーザに対して、前記動画コンテンツに含まれる前記第１の音声から前記第２の音声に変更することを推奨する推奨部をさらに備える、請求項１に記載の情報処理装置。

【請求項14】

前記第１の音声を含む前記動画コンテンツにおける前記アバタの前記被指定特徴が変更された際に、変更後の前記被指定特徴が関連付けられた音声がない場合、前記視聴ユーザに対する問い合わせを実施する問い合わせ部をさらに備え、
前記問い合わせ部は、変更後の前記被指定特徴に関連付ける音声を、前記視聴ユーザにより選択された音声にするか、又は、前記配信ユーザによって設定された音声にするかについての問い合わせを実施する、請求項１３に記載の情報処理装置。

【請求項15】

プロセッサが、配信ユーザのアバタと音声を含む動画コンテンツを視聴する視聴ユーザから、前記音声を変更させる変更操作を受け付け、
プロセッサが、前記変更操作に基づいて変更された第１の音声と、前記アバタの特徴のうち、前記変更操作時に前記視聴ユーザにより指定された前記アバタの被指定特徴と、を、互いに関連付ける関連付け、
前記配信ユーザが前記動画コンテンツにおける前記アバタの前記被指定特徴を変えた場合に、プロセッサが、前記被指定特徴の変化後に配信される前記動画コンテンツに含まれる前記音声について、前記第１の音声からの変更に関する処理を実行する、情報処理方法。

【請求項16】

プロセッサに、配信ユーザのアバタと音声を含む動画コンテンツを視聴する視聴ユーザから、前記音声を変更させる変更操作を受け付けさせ、
プロセッサに、前記変更操作に基づいて変更された第１の音声と、前記アバタの特徴のうち、前記変更操作時に前記視聴ユーザにより指定された前記アバタの被指定特徴と、を、互いに関連付けさせ、
前記配信ユーザが前記動画コンテンツにおける前記アバタの前記被指定特徴を変えた場合に、プロセッサに、前記被指定特徴の変化後に配信される前記動画コンテンツに含まれる前記音声について、前記第１の音声からの変更に関する処理を実行させる、プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置、情報処理方法、及びプログラムに関する。

【背景技術】

【0002】

視聴ユーザが配信ユーザのアバタと音声を含む動画コンテンツを視聴している間に、動画コンテンツ中の音声を変更するためのデータをサーバに送信し、それ以降、視聴ユーザが選択した音声にて動画コンテンツを視聴できるようにする技術（いわゆるボイスチェンジ）は既に知られている（例えば、特許文献１参照）。

【0003】

特許文献１に記載のシステムでは、配信ユーザのアバタと音声を含む動画コンテンツが各視聴ユーザに配信され、各視聴ユーザは、その動画コンテンツの視聴中に、例えば、男性の声を女性の声に変更したり、あるいは人間の声をロボットのような電子的な音に変更したりすることができる。このように動画コンテンツの音声を変更（変換する）ことにより、動画コンテンツの視聴覚的効果、具体的には、アバタとマッチした音声にて当該アバタの映像を視聴できるという効果が得られる。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特許６５５０５４９号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

ところで、視聴ユーザによって動画コンテンツ中の音声が変更された後に、その動画コンテンツの配信ユーザが、音声が変更されたアバタの顔の各要素や表情等の特徴を変更する場合がある。この場合、特徴が変更されたアバタの動画コンテンツにおいて、それ以前に視聴ユーザによって変更された音声が引き続き再生されると、視聴ユーザは、アバタと音声とのミスマッチ等により、その音声に違和感を覚える可能性がある。そのため、アバタの特徴が変わった動画コンテンツを視聴する場合に、変更後のアバタに対して違和感のない音声の動画コンテンツを視聴ユーザに配信することが求められる。

【0006】

そこで、本発明は、音声変更後に特徴が変えられたアバタの動画コンテンツを、視聴ユーザに違和感を与えにくくするように配信するための情報処理装置、情報処理方法、及びプログラムを提供することを課題とする。

【課題を解決するための手段】

【0007】

本発明の一態様に係る情報処理装置は、配信ユーザのアバタと音声を含む動画コンテンツを視聴する視聴ユーザから、音声を変更させる変更操作を受け付ける受付部と、変更操作に基づいて変更された第１の音声と、アバタの特徴のうち、変更操作時に視聴ユーザにより指定されたアバタの被指定特徴とを、互いに関連付ける関連付け部と、配信ユーザが動画コンテンツにおけるアバタの被指定特徴を変えた場合に、被指定特徴の変化後に配信される動画コンテンツに含まれる音声について、第１の音声からの変更に関する処理を実行する処理部と、を備えることを特徴とする。

【発明の効果】

【0008】

本発明の一態様によれば、音声変更後にアバタの特徴が変更された場合に、変更後の動画コンテンツを、視聴ユーザに違和感を与えにくくするように配信することが可能となる。

【図面の簡単な説明】

【0009】

【図1】本発明の一つの実施形態に係る情報処理装置を含む動画配信システムの概念図である。

【図2】動画コンテンツの表示画面の一例を示す図である。

【図3】アバタＡの静止画像を表示した画面を示す図である。

【図4】第１の音声からの変更処理に関する問い合わせを表示した画面を示す図である。

【図5】第１の音声から推奨音声への変更処理に関する問い合わせを表示した画面を示す図である。

【図6】ユーザ端末のハードウェア構成を示す図である。

【図7】サーバのハードウェア構成を示す図である。

【図8】ユーザ情報を示す図である。

【図9】配信ユーザ情報を示す図である。

【図10】図９に示す配信ユーザ情報に含まれるアバタ情報を示す図である。

【図11】視聴ユーザ情報を示す図である。

【図12】変更後の音声と要素オブジェクトとの関連付けに係る情報を示す図である。

【図13】配信ユーザのユーザ端末の機能についての説明図である。

【図14】視聴ユーザのユーザ端末の機能についての説明図である。

【図15】本発明の一つの実施形態に係る情報処理装置（サーバ）の機能についての説明図である。

【図16A】本発明の一つの実施形態に係る情報処理フローを示す図である（その１）。

【図16B】本発明の一つの実施形態に係る情報処理フローを示す図である（その２）。

【図16C】本発明の一つの実施形態に係る情報処理フローを示す図である（その３）。

【図16D】本発明の一つの実施形態に係る情報処理フローを示す図である（その４）。

【図16E】本発明の一つの実施形態に係る情報処理フローを示す図である（その５）。

【図17A】動画コンテンツの表示画面の変形例を示す図である。

【図17B】動画コンテンツの表示画面の変形例を示す図である。

【図18】動画コンテンツの表示画面の変形例を示す図である。

【図19】情報処理装置の機能の変形例を示す図である。

【発明を実施するための形態】

【0010】

以下、本発明の情報処理装置、情報処理方法、及びプログラムについて、具体的な実施形態を挙げて、添付の図面を参照しながら説明する。
なお、以下では、説明上の便宜から、ＧＵＩ（Graphic User Interface）の観点で説明する場合がある。ただし、その内容を実現するための基礎的なデータ処理技術（通信／伝送技術、データ取得技術、データ記録技術、データ加工／解析技術、画像処理技術、及び可視化技術等）は、公知の技術であるため、それに関する説明については省略することとする。

【0011】

また、本明細書において、「ユーザ」は、本発明の情報処理装置の機能を利用する者であり、詳しくは、所定の機器を操作することで、本発明の情報処理装置の機能がもたらす恩恵（サービス）を享受することができる。所定の機器は、ユーザが所有する機器（例えば、後述のユーザ端末１２）でもよいし、店舗等に設置された機器であって、ユーザが所有していないものの店舗等に来店した際に暗証番号やパスワード等を入力したり、あるいは入金等したりすることで利用可能な端末やコンピュータであってもよい。

【0012】

＜＜本発明の概要＞＞
本発明は、動画コンテンツの配信、表示、及びこれらに付随する内容についての情報処理技術である。本発明の一つの実施形態（以下、本実施形態という）に係る情報処理装置は、サーバ１０により構成され、図１に示すように、ユーザ端末１２とともに動画配信システムＳを構築する。ユーザは、動画配信システムＳを通じて、動画コンテンツを他のユーザに配信することができ、他のユーザは、配信された動画をユーザ端末１２にて視聴することができる。
なお、図１では、図示の便宜上、ユーザ端末１２の台数が４台であるが、実際には、情報処理装置の機能を利用するユーザの人数に応じた台数のユーザ端末１２が存在する。

【0013】

以下、動画コンテンツの配信元のユーザを「配信ユーザ」と呼び、配信された動画コンテンツを視聴するユーザを「視聴ユーザ」と呼び、これらを区別しない場合には単に「ユーザ」と呼ぶこととする。ちなみに、配信ユーザは、動画コンテンツを配信する期間中、その動画コンテンツを自分のユーザ端末１２にて視聴（確認）することができる。

【0014】

動画コンテンツは、映像データ及び音声データを含むコンテンツ（詳しくは、電子データ）であり、配信ユーザの動画コンテンツである。ここで、配信ユーザの動画コンテンツとは、例えば、配信ユーザの配信操作に基づいて作成されるコンテンツである。配信操作とは、配信ユーザのユーザ端末１２にインストールされたコンテンツ配信用のプログラムを起動する等、動画コンテンツの作成及び配信に必要な一連の操作である。配信操作には、配信ユーザがユーザ端末１２に搭載されたカメラで自分を撮影する操作、及び、自分の発声音又は歌唱等をユーザ端末１２に搭載されたマイクによって収音する操作等が含まれる。撮影操作及び収音操作等については、配信ユーザの依頼に応じて他の者（例えば、配信ユーザの協力者等）が代行してもよい。

【0015】

サーバ１０は、通信ネットワークＮを介して、配信ユーザのユーザ端末１２から動画コンテンツを取得するとともに、コンテンツ配信先となる視聴ユーザを特定し、特定された視聴ユーザに上記の動画コンテンツを配信する。コンテンツ配信先として特定される視聴ユーザは、自分のユーザ端末１２にインストールされたコンテンツ視聴用のプログラムを起動し、コンテンツ配信元である配信ユーザを指定する。サーバ１０は、各視聴ユーザのユーザ端末１２に向けて、各視聴ユーザが指定した配信ユーザから取得した動画コンテンツを送信する。

【0016】

本実施形態において、サーバ１０は、配信ユーザから取得した動画コンテンツを即時に視聴ユーザに配信する。これにより、視聴ユーザは、配信された動画コンテンツを実質的にリアルタイムで視聴することができる。つまり、本実施形態における動画コンテンツの配信方式は、ライブ配信方式である。ライブ配信は、ＨＴＴＰＬｉｖｅＳｔｒｅａｍｉｎｇ、ＣｏｍｍｏｎＭｅｄｉａＡｐｐｌｉｃａｔｉｏｎＦｏｒｍａｔ、ＷｅｂＲｅａｌ－ＴｉｍｅＣｏｍｍｕｎｉｃａｔｉｏｎｓ、Ｒｅａｌ－ＴｉｍｅＭｅｓｓａｓｉｎｇＰｒｏｔｏｃｏｌ及びＭＰＥＧＤＡＳＨ等の既存のライブ配信技術を用いて実現されるとよい。

【0017】

なお、ライブ配信は、動画コンテンツ（詳しくは、動画コンテンツ中の各時点の要素画像）が配信ユーザ側から送信された際に、視聴ユーザが所定の遅延をもって当該動画コンテンツを視聴可能な配信方式を含む。遅延に関して言うと、少なくとも、配信ユーザと視聴ユーザとのやりとりが成立する程度の大きさの遅延は許容される。他方、ライブ配信は、動画コンテンツを一旦サーバ１０に保存してから任意のタイミングで視聴ユーザからの要求に応じて当該動画コンテンツをサーバ１０から視聴ユーザに配信するオンデマンド方式の配信とは区別される。ただし、本発明は、オンデマンド方式での動画コンテンツの配信にも適用可能である。

【0018】

本実施形態において、動画コンテンツは、図２に示すような、配信ユーザのアバタＡを表示する映像が、その音声と共に提供される動画コンテンツ、つまり、音声を含むアバタＡのアニメーション動画である。動画コンテンツにおいて、アバタＡとその音声が、主要な配信コンテンツであるが、アバタＡとその音声とともに、音楽、静止画等がコンテンツ中にさらに加えられてもよい。

【0019】

アバタは、例えば人又はキャラクタ等を模した仮想オブジェクトであり、配信ユーザによって作成される。アバタの作成手順については、公知であるため、詳しい説明を省略するが、例えば、アバタを構成する複数の部位（パーツ）の各々について、一つ以上のパーツ素材を含むパーツ素材候補群から一つのパーツ素材を部位毎に選定し、各部位のパーツ素材を組み合わせることでアバタを作成すればよい。

【0020】

本実施形態に係るアバタＡは、例えば人型のアバタであり、少なくとも頭、顔、首、及び肩等の部位を含む。また、動画コンテンツにおいて、アバタＡは、配信ユーザの配信操作に基づいて動き、具体的には、撮影された配信ユーザの体の動きに連動して動き、配信ユーザの表情に応じた表情を表し、配信ユーザの発声音若しくは歌唱に応じた音声（実音声）、又は配信ユーザが選定した音声を発する。

【0021】

アバタＡの特徴は、既に作成された特徴を別の特徴に変更することもできる。具体的に説明すれば、配信ユーザは、アバタＡを構成する１又は２以上の要素オブジェクトを変更することができる。要素オブジェクトは、少なくとも髪型、目、眉毛、鼻、口、耳、等のアバタを構成する複数の部位（パーツ）、及びアバタの各部位に装着される衣服や装飾品等を含む。アバタＡの要素オブジェクトの変更は、動画コンテンツの配信前に実施されてもよいし、あるいは動画コンテンツの配信中に実施されてもよい。

【0022】

動画コンテンツ中のアバタＡの音声は、視聴ユーザによって変更することができる。具体的に説明すれば、視聴ユーザは、動画コンテンツ中のアバタＡの音声の音色、音域、又は発声速度等の音声情報を変更し、設定することができる。音声の変更は、動画コンテンツの配信中に実施されてもよいし、あるいは動画コンテンツの配信後に実施されてもよい。視聴ユーザによるアバタＡの音声の変更の手順については、後述する「音声の変更」の項で説明することとする。

【0023】

なお、アバタＡの音声変更は、視聴ユーザごとに音声変更することができる。例えば、図１に示す視聴ユーザＡが音声変更操作を行ったとしても、その変更された音声は視聴ユーザＡのユーザ端末１２でのみ出力され、視聴ユーザＢや、視聴ユーザＣのユーザ端末１２で出力される音声が、視聴ユーザＡの音声変更操作に影響されることはない。
また、音声変更を行う視聴ユーザと所定の関係を有する他の視聴ユーザが存在する場合に、その音声変更を行う視聴ユーザの操作に基づいて、他の視聴ユーザの端末で出力される音声を変更してもよい。この際、他の視聴ユーザに対し、音声変更するか否かを問合せる通知を行ってもよい。例えば、視聴ユーザＡと視聴ユーザＢが所定の関係を有する場合に、視聴ユーザＡの音声変更操作に基づいて、視聴ユーザＢの端末で出力される音声について変更を行ってもよく、ここで、視聴ユーザＡが変更した音声に合わせて音声の変更を行うか否かについて、視聴ユーザＢに対し、問い合わせることもできる。
ここで、「所定関係」とは、例えば、一方の視聴ユーザからの申請に他方の視聴ユーザが承諾することで成立するフレンド関係を言う。また、「他の視聴ユーザ」とは、音声変更を行う視聴ユーザが視聴中の動画コンテンツと同じ動画コンテンツを視聴しているユーザである。

【0024】

アバタＡの音声は、課金等によって変更することができる。例えば、視聴ユーザは、所定の手続きを行ってアバタＡの音声を変更することができる。音声変更に伴う決済処理（対価の支払いに係る一連の情報処理）については、通常の課金処理と同様であり、公知であるため、説明を省略することとする。

【0025】

＜＜音声の変更＞＞
次に、視聴ユーザＡが配信ユーザのアバタＡの音声を変更する手順について説明する。
視聴ユーザＡは、例えば、ユーザ端末１２にて動画コンテンツを視聴している間にアバタの音声を変更することができる。具体的に説明すると、図２に示すように、動画コンテンツが表示された画面には、音声変更（ボイス）ボタンＢｔ１が設けられており、音声変更ボタンＢｔ１をタッチすると、視聴ユーザＡのユーザ端末１２の表示画面には、変更後の音声に関連付けるアバタＡの特徴の指定を促す案内（図示しない）が表示される。また、その案内が表示されるとともに、あるいは、その案内の表示後に、図３に示すアバタＡの静止画像が表示される。

【0026】

そして、視聴ユーザＡが、図３に示すアバタＡの静止画像の中で、変更後の音声との関連付けを希望する１又は２以上のアバタＡの特徴、すなわち、アバタＡを構成する要素オブジェクトを指定する操作（例えば、図３中のアバタＡの「眉毛１４」をタップする操作）を行うことにより、変更後の音声に関連付けられる要素オブジェクト、即ち、指定オブジェクトが決定される。

【0027】

要素オブジェクトが決定されると、変更後の音声（第１の音声）の設定を促す案内とともに、又は案内後に、音声の変更内容を指定するための音声変更画面（図示せず）が表示される。この音声変更画面には、アバタＡの音声の変更内容を特定する情報、例えば、男性の声、女性の声、及びロボットの声等のプリセットされた音声の種類や、視聴ユーザが自ら、アバタＡの音声の音色、音域、又は発声速度等の音質を加工、調整及び変換することが可能なツールを含む。視聴ユーザＡが、この音声変更画面において、アバタＡの変更後の音声（第１の音声）を指定する操作を行うことにより、視聴ユーザＡのユーザ端末１２で出力されるアバタＡの音声が、変更後の音声（第１の音声）に変更される。つまり、視聴ユーザＡは、第１の音声を含む動画コンテンツを視聴することができる。

【0028】

また、視聴ユーザＡが、アバタＡの変更後の音声（第１の音声）と、変更後の音声に関連付けられる要素オブジェクトを指定するための操作を行うと、その操作内容を示す情報が、視聴ユーザのユーザ端末１２からサーバ１０へ送られる。サーバ１０は、上記の情報を受信すると、変更操作に基づいて変更されたアバタＡの変更後の音声（第１の音声）と、指定されたアバタＡの要素オブジェクト（指定オブジェクト）とを、互いに関連付けて記憶する。

【0029】

また、本実施形態において、配信ユーザは、視聴ユーザＡがアバタＡの音声を変更した後に、アバタＡの要素オブジェクトを変更することができる。配信ユーザがアバタＡの要素オブジェクトの変更を指示する操作（例えば、図３中のアバタＡの眉毛１４を、図４に示すようにより太い眉毛に変化させることを指示する操作）を行うと、その操作内容を示す情報が、配信ユーザのユーザ端末１２からサーバ１０へ送られる。サーバ１０は、操作内容を示す情報から、アバタの要素オブジェクトを変更した動画コンテンツを作成する。また、配信ユーザが変更指示したアバタＡの要素オブジェクトを特定し、その要素オブジェクトが、視聴ユーザＡによって指定された第１の音声に関連付けられた指定オブジェクトに該当するか否かを判定する。

【0030】

サーバ１０が、配信ユーザが変更したアバタＡの要素オブジェクトが、視聴ユーザＡによって指定された要素オブジェクト（指定オブジェクト）に該当するものと判定した場合、指定オブジェクトが変更されたアバタの映像とその音声（第１の音声）を含む動画コンテンツが、視聴ユーザのユーザ端末１２で出力される。その際に、サーバ１０は、図４に示すように、視聴ユーザＡに対し、指定オブジェクトが変更されていることを知らせる通知、及びアバタＡの音声（第１の音声）の変更を行うか否かを問い合わせる内容（ＹＥＳ／ＮＯボタン）を、視聴ユーザＡのユーザ端末のディスプレイに表示する。
なお、視聴ユーザＡに対し、指定オブジェクトが変更されていることを知らせる通知は、サーバ１０が、配信ユーザのアバタＡの要素オブジェクトを変更する操作に基づいて、アバタの要素オブジェクト（指定オブジェクト）を変更した動画コンテンツを作成したタイミングで行ってもよく、アバタの要素オブジェクト（指定オブジェクト）を変更した動画コンテンツを配信したタイミングで行ってもよい。また、上記の通知は、指定オブジェクトが変更されたアバタＡの映像のみが表示される動画コンテンツを視聴ユーザＡが視聴するタイミングで行ってもよく、指定オブジェクトが変更されたアバタＡの映像を含む動画コンテンツを視聴ユーザＡが視聴するタイミングで行ってもよい。

【0031】

この問い合わせに対し、視聴ユーザＡが音声変更を希望しない操作（図４中の「ＮＯ」をタッチする操作）を行うと、その操作内容を示す情報が、視聴ユーザＡのユーザ端末１２からサーバ１０へ送られる。一方、サーバ１０は、変更後の要素オブジェクトを視聴ユーザＡによって新たに指定された要素オブジェクト（指定オブジェクト）と認定し、第１の音声と、変化前の要素オブジェクト（例えば、図３中の細い眉毛）との関連付けを、第１の音声と、変化後の要素オブジェクト（例えば、図４中の太い眉毛）との関連付けに更新して記憶する。
なお、ここで、サーバ１０は、変更後の要素オブジェクトについても、視聴ユーザＡによって新たに指定された要素オブジェクト（指定オブジェクト）と認定し、第１の音声と、変化前の要素オブジェクト（例えば、図３中の細い眉毛）との関連付けとともに、第１の音声と、変化後の要素オブジェクト（例えば、図４中の太い眉毛）との関連付けも併せて記憶する更新を行ってもよい。

【0032】

また、第１の音声と、変化後の要素オブジェクト（図４中の太い眉毛）との関連付けに更新された場合、その後、指定オブジェクト、すなわち、動画コンテンツ中のアバタＡの変更後の要素オブジェクト（図４の太い眉毛）が変更されると、サーバ１０から、視聴ユーザＡに対し、指定オブジェクトが変更されていることを知らせる通知、及びアバタＡの音声（第１の音声）の変更を行うか否かを問い合わせる内容を知らせる通知が送られる。
また、前述したように、第１の音声と、変化前の要素オブジェクト（例えば、図３中の細い眉毛）との関連付けとともに、第１の音声と、変化後の要素オブジェクト（例えば、図４中の太い眉毛）との関連付けも記憶する更新が行われてもよい。この場合も、その後、動画コンテンツ中のアバタＡの変更後の要素オブジェクト（例えば、図４の太い眉毛）が変更されると、同様に、視聴ユーザＡに対し、指定オブジェクトが変更されていることを知らせる通知、及びアバタＡの音声（第１の音声）の変更を行うか否かを問い合わせる内容を知らせる通知を送られる。他方、例えば、動画コンテンツ中のアバタＡの変更後の要素オブジェクト（例えば、図４の太い眉毛）が、変化前の要素オブジェクト（例えば、図３中の細い眉毛）に変更された場合は、サーバ１０から、視聴ユーザＡに対し、新たな指定オブジェクトが変更されていることを知らせる通知や、アバタＡの音声（第１の音声）の変更を行うか否かを問い合わせる内容を知らせる通知が送られなくてもよい。

【0033】

また、視聴ユーザＡが音声変更を希望する操作（図４中の「ＹＥＳ」をタッチする操作）を行うと、その操作内容を示す情報が、視聴ユーザＡのユーザ端末１２からサーバ１０へ送られる。サーバ１０は、第１の音声の変更後の音声（第２の音声）の設定を促す案内とともに、又は案内後に、音声の変更内容を指定するための音声変更画面（図示せず）を視聴ユーザＡのユーザ端末１２のディスプレイ画面に表示させる。この音声変更画面には、アバタＡの音声の変更内容を特定する情報、例えば、男性の声、女性の声、及びロボットの声等のプリセットされた音声の種類や、視聴ユーザが自ら、アバタＡの音声の音色、音域、又は発声速度等の音質を加工、調整及び変換することが可能なツールを含む。また、配信ユーザが設定した音声、例えば、配信ユーザの肉声、又は配信ユーザが加工、調整、変換した音声がデフォルトとして設定されている場合は、この音声変更画面にそれらの音声情報を含むこともできる。視聴ユーザが、この音声変更画面において、アバタＡの第２の音声を指定する操作を行うことにより、アバタＡの第１の音声が、変更後の音声（第２の音声）に変更される。なお、ここで、変更された音声（第２の音声）は、アバタＡのデフォルトの音声、具体的には視聴ユーザＡが第１の音声に変更する前の音声であってもよい。

【0034】

視聴ユーザＡが、アバタＡの変更後の音声（第２の音声）を指定するための操作を行うと、その操作内容を示す情報が、視聴ユーザＡのユーザ端末１２からサーバ１０へ送られる。サーバ１０は、変更後の要素オブジェクトを視聴ユーザＡによって新たに指定された要素オブジェクト（指定オブジェクト）と認定し、第１の音声と、変化前の要素オブジェクト（例えば、図３中の細い眉毛）との関連付けを、第２の音声と、変化後の要素オブジェクト（図４中の太い眉毛）との関連付けに更新して記憶する。なお、動画コンテンツ中のアバタＡの変更後の要素オブジェクト（例えば、図４の太い眉毛）が、変化前の要素オブジェクト（例えば、図３中の細い眉毛）に変更された場合は、サーバ１０から、視聴ユーザＡに対し、新たな指定オブジェクトが変更されていることを知らせる通知や、アバタＡの音声（第１の音声）の変更を行うか否かを問い合わせる内容を知らせる通知を送ることなく、変更前の音声（第１の音声）に変更したり、新たな指定オブジェクトが変更されていることを知らせる通知とともに、変更前の音声（第１の音声）への変更の問い合わせをしたりすることができるようにしてもよい。つまり、サーバ１０は、変更後の要素オブジェクトを、視聴ユーザＡによって新たに指定された要素オブジェクト（指定オブジェクト）と認定し、第１の音声と、変化前の要素オブジェクト（例えば、図３中の細い眉毛）との関連付けとともに、第２の音声と、変化後の要素オブジェクト（例えば、図４中の太い眉毛）との関連付けも記憶する更新を行ってもよい。

【0035】

また、上述した変更手順では、配信ユーザが変更したアバタＡの要素オブジェクトに、予め音声情報が設定されていない場合を説明したが、変更後の要素オブジェクトに対して予め音声情報が設定されている場合は、この予め設定されている音声を、変更後の音声（第２の音声）として推奨することもできる。具体的には、図５に示すように、指定オブジェクトが変更されていることを知らせる通知とともに、アバタＡの音声（第１の音声）から、推奨音声、即ち、変更後の要素オブジェクトに対して予め設定されている音声（第２の音声）への変更を行うか否かを問い合わせる内容（ＹＥＳ／ＮＯボタン）を、視聴ユーザＡのユーザ端末のディスプレイに表示することもできる。
ここで、視聴ユーザＡが音声変更を希望する操作（図５中の「ＹＥＳ」をタッチする操作）を行うと、アバタＡの第１の音声が、推奨音声（第２の音声）に変更される。

【0036】

また、上述した変更手順では、サーバ１０が、配信ユーザが変更したアバタＡの要素オブジェクトが、視聴ユーザＡによって指定された要素オブジェクト（指定オブジェクト）に該当するものと判定した場合、図４又は５に示すように、視聴ユーザＡに対し、指定オブジェクトが変更されていることを知らせる通知とともに、アバタＡの音声（第１の音声）の変更を行うか否かの問い合わせを行っている。ただし、これに限定されず、所定の音声変更条件を満たし、且つ、変更後の音声（第２の音声）が予め設定されている場合には、問い合わせを行うことなく、アバタＡの音声が、第１の音声から予め設定された第２の音声へ自動的に変更されてもよい。

【0037】

具体的に説明すると、指定オブジェクトが他の要素オブジェクトに変更された場合に、変更前の指定オブジェクトと、変更後の要素オブジェクトとが所定の関係を満たしていた場合には、音声変更条件を満たすことになる。ここで、所定の関係とは、変更後の要素オブジェクトが、変更前の指定オブジェクトから一定レベル以上に変更されたものであるという関係である。例えば、変更前の指定オブジェクトが細い眉毛であり（図３参照）、変更後の要素オブジェクトが太い眉毛である場合（図４参照）、両者は所定の関係にあり、音声変更条件を満たすことになる。なお、所定の関係は、変更前の指定オブジェクトに応じて予め設定されているとよい。

【0038】

そして、音声変更条件が満たされた際に、変更後の要素オブジェクトに対して第２の音声が予め設定されている場合には、視聴ユーザへの問い合わせを行うことなく、第１の音声から第２の音声への変更が自動的に実行されてもよい。例えば、音声変更を行う契機となる要素オブジェクトの変化として、アバタＡの眉毛及び上着の両方が変化することが予め設定され、その要素オブジェクトの変化時に第１の音声から変更される第２の音声として、配信ユーザの肉声（デフォルト音声）が予め設定されているとする。この場合、配信ユーザがアバタＡの眉毛及び上着の両方を変更した場合、サーバ１０は、視聴ユーザＡに対して図４又は図５に示すような問い合わせを行うことなく、第１の音声を第２の音声である配信ユーザの肉声へ変更する。

【0039】

また、上述した手順では、アバタの要素オブジェクトの変更に伴って音声変更処理が行われているが、これに限定されず、配信ユーザの顔の動きに応じて設定されるアバタの表情が変更された場合に、音声変更処理を行うこともできる。このケースについては、後の項で改めて説明することとする。

【0040】

＜＜動画配信システムの構成例＞＞
次に、動画配信システムＳの構成例について説明する。
図１に示すように、動画配信システムＳにおいて、サーバ１０とユーザ端末１２は、通信ネットワークＮを介して互いに通信可能に接続されている。通信ネットワークＮは、例えばインターネット又はモバイル通信ネットワークからなる通信回線網であり、ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）、イントラネット及びイーサネット（登録商標）等を含んでもよい。

【0041】

ユーザ端末１２は、パソコン、スマートフォン、携帯電話、タブレット端末、情報入力が可能なテレビ受像機、又はウェアラブル端末等によって構成される。また、ユーザ端末１２には、ＯＳ（Operating System）用のプログラムと、動画コンテンツ利用のアプリケーションプログラム（以下、アプリ）がインストールされている。このアプリは、動画コンテンツの配信用プログラムと、視聴用プログラムとを含んでいる。ユーザは、動画コンテンツを利用する際に、上記２つのプログラムのうち、ユーザが希望する動画コンテンツの利用形態（具体的には、動画コンテンツを配信するか、あるいは視聴するか）と対応する方のプログラムを起動させる。

【0042】

ユーザ端末１２は、図６に示すように、プロセッサ１２ａ、メモリ１２ｂ、及び通信用インタフェース１２ｃを備える。これらの機器の構成は、後述するサーバ１０が備える機器（具体的には、プロセッサ１０ａ、メモリ１０ｂ、及び通信用インタフェース１０ｃ）に準ずる。また、ユーザ端末１２は、タッチパネル、マウス及びキーボード等からなる入力機器１２ｄと、ディスプレイ及びスピーカ等からなる出力機器１２ｅとをさらに備える。なお、入力機器１２ｄには、撮影用のカメラ、及び収音用のマイク等が含まれる。

【0043】

ユーザ端末１２は、ユーザによって利用され、ユーザは、ユーザ端末１２を通じて各種の操作を行う。具体的に説明すると、配信ユーザは、動画コンテンツを配信するために、ユーザ端末１２を通じて配信操作や、アバタの特徴の変更操作を行う。また、視聴ユーザは、ユーザ端末１２にて動画コンテンツを視聴し、アバタの音声を変更するために、ユーザ端末１２を通じて上述した音声変更操作や、ギフト付与操作（購入操作を含む）を行う。ギフト付与操作は、視聴ユーザが視聴中の動画コンテンツを配信しているユーザ（配信ユーザ）に対して、動画コンテンツ中のアバタが装着可能な衣装や装飾品等をギフトとして付与する操作である。

【0044】

サーバ１０は、コンピュータの一例であり、具体的には、ＳＮＳサーバ、若しくはクラウドサービス用のサーバコンピュータによって構成される。クラウドサービス用のサーバコンピュータには、ＡＳＰ（Application Service Provider）、ＳａａＳ（Software as a Service）、ＰａａＳ（Platform as a Service）又はＩａａＳ（Infrastructure as a Service）用のサーバコンピュータ等が含まれる。また、サーバ１０は、１台のコンピュータでもよく、並列分散された複数台のコンピュータでもよい。

【0045】

サーバ１０は、動画コンテンツの利用に関する各種の情報処理を実行する。具体的には、サーバ１０は、配信ユーザのユーザ端末１２と通信することで、配信ユーザ側で作成された動画コンテンツを取得し、取得した動画コンテンツを、視聴ユーザに対して配信する。また、配信ユーザが、動画コンテンツにおけるアバタを構成する要素オブジェクトを変化させる操作（アバタの特徴の変更操作）を行った場合、サーバ１０は、当該操作を受け付け、その変化操作に基づいて、アバタの要素オブジェクトを変化させ、変化後の要素オブジェクトを有するアバタの動画コンテンツを配信する。また、視聴ユーザが、アバタの音声を変更する操作を行った場合、サーバ１０は、当該変更操作を受け付け、その操作に基づいて、アバタの音声を変更する。

【0046】

サーバ１０の構成について説明すると、サーバ１０は、ハードウェア機器として、図７に示すように、プロセッサ１０ａ、メモリ１０ｂ、通信用インタフェース１０ｃ、及びストレージ１０ｄを有する。

【0047】

プロセッサ１０ａは、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro-Processing Unit）、ＭＣＵ（Micro Controller Unit）、ＧＰＵ（Graphics Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＴＰＵ（Tensor Processing Unit）又はＡＳＩＣ（Application Specific Integrated Circuit）等によって構成されるとよい。
メモリ１０ｂは、ＲＯＭ（Read Only Memory）及びＲＡＭ（Random Access Memory）等の半導体メモリによって構成されるとよい。

【0048】

通信用インタフェース１０ｃは、例えばネットワークインターフェースカード、又は通信インタフェースボード等によって構成されるとよい。通信用インタフェース１０ｃによるデータ通信の規格については、特に限定されるものではなく、Ｗｉ－ｆｉ（登録商標）に基づく無線ＬＡＮによる通信、３Ｇ～５Ｇ若しくはそれ以降の世代の移動通信システムによる通信、又はＬＴＥ（Long Term Evolution）に基づく通信等が挙げられる。

【0049】

ストレージ１０ｄは、フラッシュメモリ、ＨＤＤ（Hard Disc Drive）、ＳＳＤ（Solid State Drive）、ＦＤ（Flexible Disc）、ＭＯディスク（Magneto-Optical disc）、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ＳＤカード（Secure Digital card）、又はＵＳＢメモリ（Universal Serial Bus memory）等によって構成されるとよい。ストレージ１０ｄは、サーバ１０内に内蔵されてもよく、外付け形式でサーバ本体に取り付けてもよいし、又はＮＡＳ（Network Attached Storage）等であってもよい。

【0050】

また、ストレージ１０ｄは、サーバ１０と通信可能に接続された第三のコンピュータ、例えば、データベースサーバやオンラインストレージ等によって構成されてもよい。この場合、サーバ１０は、ストレージ１０ｄを構成する第三のコンピュータとともに本発明の情報処理装置を構成することになる。

【0051】

ストレージ１０ｄには、各種の情報が記憶されて蓄積されている。具体的に説明すると、ストレージ１０ｄには、図８に示すユーザ情報が記憶されている。ユーザ情報は、ユーザの識別ＩＤ（ユーザＩＤ）及び名前（ユーザ名）、現時点で配信ユーザであるか否かを示すフラグ情報（配信フラグ）、現時点で視聴ユーザであるか否かを示すフラグ情報（視聴フラグ）、並びに、価値の所持量等を含む。ここで、価値とは、動画コンテンツの配信又は視聴中においてギフト購入等の有料サービスを利用する場合に用いられ、具体的には、電子マネー、サービス利用のための専用通貨、あるいは仮想通貨等である。

【0052】

また、配信ユーザについては、図９に示す配信ユーザ情報が生成されてストレージ１０ｄに記憶される。配信ユーザ情報は、配信ユーザＩＤ（ユーザＩＤ）、配信する動画コンテンツのＩＤ（コンテンツＩＤ）、当該動画コンテンツを視聴している視聴ユーザのユーザＩＤ（視聴ユーザＩＤ）、並びに、お気に入り登録をしてくれた視聴ユーザのユーザＩＤ等を含む。

【0053】

配信ユーザ情報は、図１０に示すアバタ情報をさらに含む。アバタ情報は、アバタの識別ＩＤ（アバタＩＤ）、要素オブジェクトの情報、即ち、アバタ本体を構成する各パーツの情報（パーツ情報）、並びに、現時点で各パーツに装着されている衣服や装飾品等に関する情報（装着情報）、及びアバタの音声情報を含む。

【0054】

また、視聴ユーザについては、図１１に示す視聴ユーザ情報が生成されてストレージ１０ｄに記憶される。視聴ユーザ情報は、視聴ユーザＩＤ（ユーザＩＤ）、現時点で視聴している動画コンテンツのコンテンツＩＤ、及びお気に入り登録している配信ユーザのユーザＩＤを含む。

【0055】

ストレージ１０ｄには、また、図１２に示すアバタの音声と指定オブジェクトとの関連付けに係る情報（以下、関連付け情報）が記憶されている。関連付け情報は、視聴ユーザの音声変更操作に基づいて変更されたアバタの音声情報と、その変更後の音声に関連付けられたアバタの指定オブジェクトとに関する情報であり、具体的には、変更又は指定操作を行った視聴ユーザのユーザＩＤ、動画コンテンツのＩＤ（コンテンツＩＤ）、アバタの識別ＩＤ（アバタＩＤ）、変更後の音声情報（音声情報）、及び、変更後の音声に関連付けられている指定オブジェクト（各情報を含む）を示す。

【0056】

また、サーバ１０には、ソフトウェアとして、オペレーティングシステム（ＯＳ）用のプログラム、及び、動画コンテンツに関する各種の処理プログラムがインストールされている。これらのプログラムは、本発明の「プログラム」に相当する。サーバ１０のプロセッサ１０ａが上記のプログラムに従って動作することで、サーバ１０は、本発明の情報処理装置として機能し、動画コンテンツの配信等を含め、動画コンテンツに関する一連のデータ処理を実行する。
なお、上記のプログラムは、サーバ１０が読み取り可能な記録媒体（メディア）から読み込むことで取得してもよいし、あるいは、インターネット又はイントラネット等のネットワークを介して受信（ダウンロード）することで取得してもよい。

【0057】

次に、サーバ１０及びユーザ端末１２の各々の構成について、機能面から説明することとする。また、ユーザ端末１２については、配信ユーザ側の機能と、視聴ユーザ側の機能とに分けて説明することとする。

【0058】

（配信ユーザのユーザ端末に備わる機能）
配信ユーザのユーザ端末１２は、図１３に示すように、入力部２１、コンテンツ作成部２２、コンテンツ表示部２３、コンテンツ送信部２４、第１操作データ送信部２５、及び第１案内表示部２６を有する。これらの機能部は、配信ユーザのユーザ端末１２が有するハードウェア機器と、そのユーザ端末１２にインストールされたソフトウェア（具体的には、アプリに含まれる動画コンテンツ配信用のプログラム）との協働によって実現される。

【0059】

入力部２１は、動画コンテンツの作成及び配信に必要な情報（入力情報）の入力を受け付けて、入力情報を取得する。入力情報には、配信ユーザが自分を撮影することで得られる配信ユーザ自身の映像情報、配信ユーザの音声を収音することで得られる音声情報、及び、配信ユーザがユーザ端末１２を操作することで得られる操作情報等が含まれる。また、操作情報には、動画コンテンツの配信要求に関する情報、アバタの要素オブジェクト変更に関する情報、アバタの音声設定に関する情報、並びに、配信ユーザがユーザ端末１２を通じて行う選択及び指定に関する情報等が含まれる。

【0060】

コンテンツ作成部２２は、入力部２１が取得した入力情報に基づいて、動画コンテンツを作成する。具体的に説明すると、コンテンツ作成部２２は、配信ユーザの映像情報及び音声情報に基づき、配信ユーザの映像に応じて動いたり配信ユーザの音声に応じて発話したりするアバタＡの動画コンテンツを作成する。また、配信ユーザが、現時点におけるアバタの要素オブジェクトを指定し、指定された要素オブジェクトの情報を変更した場合、コンテンツ作成部２２は、その変更された情報と対応する要素オブジェクトを有するアバタの動画コンテンツを作成する。また、配信ユーザが、自らの音声を加工したり調整したりした音声情報を設定した場合、コンテンツ作成部２２は、その設定された音声情報を含むアバタの動画コンテンツを作成する。

【0061】

コンテンツ表示部２３は、コンテンツ作成部２２によって作成された動画コンテンツを、配信ユーザのユーザ端末１２に備えられたディスプレイに表示させる。配信ユーザは、ディスプレイに表示された動画コンテンツを見て、配信される動画コンテンツを確認することができる。
コンテンツ送信部２４は、コンテンツ作成部２２によって作成された動画コンテンツを、サーバ１０に向けて送信する。

【0062】

第１操作データ送信部２５は、入力部２１が取得した入力情報のうち、配信ユーザが行った操作に関する操作情報をデータ化し、得られた操作データをサーバ１０に向けて送信する。
第１案内表示部２６は、サーバ１０から受信した案内の情報を、ユーザ端末１２のディスプレイに表示する。具体的には、配信ユーザが動画コンテンツにおけるアバタの指定オブジェクトを変えるオブジェクト変化操作を行った際に、当該指定オブジェクトと現時点の音声との関連付けに関連する案内情報や、動画コンテンツに対する視聴ユーザの課金操作の有無に関連する案内情報を、配信ユーザのユーザ端末１２のディスプレイに表示する。指定オブジェクトと現時点の音声との関連付けに応じた案内情報としては、後述する指定オブジェクトと第１の音声との関連付けに応じた情報が該当する。動画コンテンツに対する視聴ユーザの課金操作の有無に関連する案内情報としては、後述する視聴ユーザの課金操作の有無に係る情報が該当する。

【0063】

（視聴ユーザのユーザ端末に備わる機能）
視聴ユーザのユーザ端末１２は、図１４に示すように、コンテンツ出力部３１、操作入力部３２、第２操作データ送信部３３、及び第２案内表示部３４を有する。これらの機能部は、視聴ユーザのユーザ端末１２が有するハードウェア機器と、そのユーザ端末１２にインストールされたソフトウェア（具体的には、アプリに含まれる動画コンテンツ視聴用のプログラム）との協働によって実現される。

【0064】

コンテンツ出力部３１は、サーバ１０から通信ネットワークＮを通じて動画コンテンツを受信し、受信した動画コンテンツを出力する。これにより、動画コンテンツとしてのアバタＡの映像が、視聴ユーザのユーザ端末１２のディスプレイに表示され、同コンテンツ中に含まれる音声が、視聴ユーザのユーザ端末１２のスピーカから発せられる。

【0065】

操作入力部３２は、動画コンテンツの視聴中に視聴ユーザがユーザ端末１２を通じて行う操作の入力を受け付けて、入力操作情報を取得する。入力操作情報には、音声変更操作に関する情報、変更後の音声に関連付ける要素オブジェクトを指定（選択）する操作に関する情報、問い合わせに応答する操作に関する情報、並びに、視聴ユーザがユーザ端末１２を通じて行う選択及び指定に関する情報等が含まれる。

【0066】

第２操作データ送信部３３は、操作入力部３２が取得した入力操作情報をデータ化し、得られた操作データをサーバ１０に向けて送信する。
第２案内表示部３４は、アバタの音声変更に関する問い合わせや通知を、サーバ１０から受信してユーザ端末１２のディスプレイに表示する。第２案内表示部３４により表示される案内や通知には、アバタの音声の変更を行うか否かを問い合わせる内容、及び変更後の音声の情報を指定するための音声変更画面が含まれる。

【0067】

（サーバに備わる機能）
サーバ１０は、図１５に示すように、操作受付部４１、配信部４２、関連付け部４３、要素オブジェクト変更部４４、音声変更部４５、判定部４６、通知部４７、推奨部４８及び処理部４９を有する。これらの機能部は、サーバ１０が有するハードウェア機器と、サーバ１０にインストールされたソフトウェア（プログラム）との協働によって実現される。

【0068】

操作受付部４１は、受付部に相当し、動画コンテンツの利用に関して配信ユーザ及び視聴ユーザの各々が行う操作を受け付け、具体的には、第１操作データ送信部２５及び第２操作データ送信部３３から送信される操作情報のデータを受信することで、各ユーザの操作を受け付ける。操作受付部４１が受け付ける操作には、動画コンテンツの利用に関する各種の操作が含まれ、具体的には、選択、指定、指示、要求、命令、許可又は拒否、登録、予約及びその他の入力操作等が含まれる。例えば、操作受付部４１は、視聴ユーザがアバタの音声を変更させる変更操作を受け付ける。また、操作受付部４１は、視聴ユーザが動画コンテンツにおけるアバタを構成する複数の要素オブジェクトのうちの１つ以上を指定オブジェクトとして指定する指定操作を受け付ける。また、操作受付部４１は、配信ユーザから、動画コンテンツにおけるアバタの要素オブジェクトを変化させる操作（オブジェクト変化操作）を受け付ける。

【0069】

配信部４２は、配信ユーザのユーザ端末１２（詳しくは、コンテンツ送信部２４）から送信された動画コンテンツを受信する。また、配信部４２は、受信した動画コンテンツの視聴を要求するユーザ（視聴ユーザ）を特定し、特定された視聴ユーザに向けて上記の動画コンテンツを配信する。また、配信部４２が配信する動画コンテンツには、要素オブジェクト変更部４４によってアバタ中の一部の要素オブジェクトが変更された動画コンテンツ、及び、音声変更処理部４５によってアバタの音声が変更された動画コンテンツが含まれる。

【0070】

関連付け部４３は、視聴ユーザがアバタの音声を変更させる変更操作を行った場合に、その変更操作に基づいて変更された変更後の音声（第１の音声）と、視聴ユーザにより指定されたアバタの要素オブジェクト（被指定特徴、詳しくは指定オブジェクト）とを互いに関連付ける。音声と要素オブジェクトとを関連付けるとは、音声の設定情報（音声情報）と要素オブジェクトとを互いに紐付けて記憶することであり、具体的には、図１２に示す関連付け情報を生成して記憶することである。
また、視聴ユーザが、さらに、アバタの音声（第１の音声）をさらに変更させる変更操作、すなわち、第１の音声を第２の音声に変更させる操作を行った場合、関連付け部４３は、第１の音声を第２の音声に更新し、第２の音声と、アバタ中の一部の要素オブジェクト（被指定特徴）とを互いに関連付ける。

【0071】

要素オブジェクト変更部４４は、配信ユーザから受信した、アバタの要素オブジェクトを変化させる操作（要素オブジェクト変化操作）に基づいて、アバタの要素オブジェクト、具体的には指定オブジェクトを変化させる。要素オブジェクト変更部４４によって指定オブジェクが変更された後には、変更後のオブジェクトを有するアバタの動画コンテンツが配信される。

【0072】

音声変更処理部４５は、視聴ユーザのアバタの音声を変更させる音声変更操作に基づいて、アバタの音声を変更する。音声変更処理部４５は、例えば、音声を変更させる操作を行った視聴ユーザのユーザ端末１２上で出力される動画コンテンツにおけるアバタの音声を変更する。

【0073】

判定部４６は、動画コンテンツにおいて、配信ユーザが変化させるアバタの要素オブジェクトが、その変化操作が行われる前の時点のアバタの音声（第１の音声）に関連付けられた指定オブジェクトに該当するか否かを判定する。

【0074】

通知部４７は、操作受付部４１が、配信ユーザから、動画コンテンツにおけるアバタの要素オブジェクトを変化させる操作を受け付け、判定部４６が、配信ユーザが変化させるアバタの要素オブジェクトが、その変化操作が前の時点のアバタの音声（第１の音声）に関連付けられた指定オブジェクトに該当すると判定した場合に、その指定オブジェクトと第１の音声との関連付けに応じた情報を、その指定オブジェクトが変わる前の時点で配信ユーザに通知する。指定オブジェクトと第１の音声との関連付けに応じた情報とは、例えば、視聴ユーザによって指定オブジェクトが指定されたアバタＡを含む動画コンテンツについて、当該指定オブジェクトと第１の音声とが互いに関連付けられていることを知らせるための情報である。

【0075】

また、通知部４７は、配信ユーザにより配信される動画コンテンツについて、視聴ユーザの課金操作の有無に係る情報を配信ユーザに通知することもできる。視聴ユーザの課金操作の有無に係る情報とは、例えば、視聴ユーザが視聴中の動画コンテンツの音声を変更するために課金を行ったか否かを知らせるための情報である。
より詳しく説明すると、判定部４６が、配信ユーザが変更したアバタの要素オブジェクトが、その変化前のアバタの音声（第１の音声）に関連付けられた指定オブジェクトに該当すると判定した場合、判定部４６は、さらに、視聴ユーザにより課金操作が行われているか否かを判定する。そして、課金操作が行われている場合、通知部４７は、指定オブジェクトが変わる前の時点で配信ユーザにその旨を通知する。これにより、配信ユーザは、視聴ユーザの課金状況を踏まえて、アバタ中の要素オブジェクト（指定オブジェクト）の変更を行うことができる。

【0076】

推奨部４８は、第１の音声を含む動画コンテンツにおけるアバタの要素オブジェクト、詳しくは第１の音声と関連付けられた要素オブジェクトが変更された際に、変更後の要素オブジェクトと第２の音声とが関連付けられている場合、視聴ユーザに対して、動画コンテンツに含まれる第１の音声から第２の音声に変更することを推奨する。具体的には、例えば、第１の音声から第２の音声への変更を推奨するメッセージ等を視聴ユーザのユーザ端末１２に表示させる。

【0077】

処理部４９は、アバタの指定オブジェクトが変化した場合に、その指定オブジェクトを指定した視聴ユーザ（以下、対象視聴ユーザ）に対し、動画コンテンツに含まれるアバタの音声について、第１の音声からの変更に関する処理を実行する。ここで、第1の音声からの変更に関する処理とは、動画コンテンツに含まれるアバタの音声の変更を行うか否かを問い合わせる処理であり、具体的には、指定オブジェクトの変化後に配信される動画コンテンツに含まれる音声について、対象視聴ユーザが変更した音声（すなわち、第１の音声）から変更するか否かを問い合わせる処理である。

【0078】

＜＜本発明の一つの実施形態に係る情報処理方法について＞＞
次に、動画コンテンツの利用に関する情報処理フローについて説明する。本実施形態に係る情報処理フローは、本発明の情報処理方法を採用しており、図１６Ａ～１６Ｅに示す流れに従って進行する。換言すると、情報処理フロー中の各ステップ（具体的には、図１６Ａ～１６Ｅに示す各ステップ）は、本発明の情報処理方法の構成要素に該当する。なお、以下に説明する情報処理フローは、あくまでも一例であり、本発明の趣旨を逸脱しない範囲において不要なステップを削除したり、新たなステップを追加したり、ステップの実施順序を入れ替えてもよい。

【0079】

情報処理フローでは、サーバ１０、配信ユーザのユーザ端末１２、及び視聴ユーザのユーザ端末１２のそれぞれのプロセッサ１０ａ、１２ａが、対応する処理を実行し、また、機器間でのデータ通信が行われる。具体的に説明すると、配信ユーザがユーザ端末１２にて配信操作を行うと、配信ユーザのユーザ端末１２が配信ユーザの動画コンテンツを作成し、サーバ１０に向けて送信する（Ｓ００１）。具体的には、配信ユーザのアバタの映像とその音声を含む動画コンテンツが作成され、サーバ１０に向けて送信される。

【0080】

サーバ１０は、上記の動画コンテンツを受信した後、上記の動画コンテンツの視聴を要求するユーザ（視聴ユーザ）を特定し、特定された視聴ユーザに対して上記の動画コンテンツを配信する（Ｓ００２）。視聴ユーザ側では、配信された動画コンテンツがユーザ端末１２によって受信され、同コンテンツがユーザ端末１２のディスプレイに表示される。つまり、アバタの動画コンテンツが、視聴ユーザのユーザ端末１２の画面に表示される（Ｓ００３）。

【0081】

視聴ユーザは、ユーザ端末１２を通じて上記の動画コンテンツを視聴し、また、動画コンテンツの視聴中、その動画コンテンツのアバタの音声を変更することができる。具体的には、視聴ユーザ（詳しくは、対象視聴ユーザ）がアバタの音声を変更させる操作を行った場合（Ｓ００４）、サーバ１０は、その変更操作を当該視聴ユーザから受け付け、変更後の音声（第１の音声）に関連付けるアバタの要素オブジェクトの指定を促す案内を通知する（Ｓ００５）。

【0082】

対象視聴ユーザのユーザ端末１２では、変更後の音声（第１の音声）に関連付けるアバタの要素オブジェクトの指定を促す案内が表示される（Ｓ００６）。具体的には、第１の音声に関連付けるアバタＡの特徴の指定を促す案内（図示しない）とともに、又はその案内の通知後に、例えば、図３に示すアバタＡの静止画像が、対象視聴ユーザのユーザ端末１２に表示される。対象視聴ユーザは、上記アバタＡの静止画像が表示された状態において、変更後の音声との関連付けを希望する１又は２以上のアバタの特徴、すなわち、アバタを構成する要素オブジェクトを指定する操作を行う（Ｓ００７）。例えば、アバタ中の「眉毛」を指定する場合には、図３中のアバタＡの「眉毛１４」をタップする操作を行う。

【0083】

サーバ１０は、対象視聴ユーザからアバタを構成する要素オブジェクトを指定する操作を受け付けると、音声の変更を促す案内を通知する（Ｓ００８）。
対象視聴ユーザのユーザ端末では、音声の変更を促す案内とともに、又は案内の通知後に、変更後の音声（第１の音声）を設定するための音声変更画面（図示せず）が表示される（Ｓ００９）。対象視聴ユーザは、この音声変更画面において、アバタの変更後の音声（第１の音声）を設定する操作を行う（Ｓ０１０）。

【0084】

サーバ１０は、変更後の音声（第１の音声）を設定する操作を受け付けると、この変更後の音声（第１の音声）と、対象視聴ユーザが先の操作（Ｓ００５）で指定した要素オブジェクト（被指定特徴であり、詳しくは指定オブジェクト）とを、互いに関連付けて記憶する（Ｓ０１１）。そして、対象視聴ユーザのユーザ端末において出力されるアバタの音声を、対象視聴ユーザによって設定された第１の音声に変更する（Ｓ０１２）。
対象視聴ユーザのユーザ端末１２では、対象視聴ユーザが設定した変更後の音声（第1の音声）を含む動画コンテンツが受信され、同コンテンツが出力される（Ｓ０１３）。

【0085】

配信ユーザは、ユーザ端末１２を通じて、アバタの要素オブジェクトの変更指示をサーバ１０へ送信する（Ｓ０１４）。具体的には、対象視聴ユーザによって、アバタの音声が第１の音声に変更された後に、配信ユーザが、アバタの要素オブジェクトの変更を指示する操作（例えば、図３中のアバタの眉毛１４を細い眉毛から太い眉毛に変化させる操作）をサーバ１０へ送信することができる。この操作に基づいて、サーバ１０の要素オブジェクト変更部４４は、アバタの要素オブジェクトを変更した動画コンテンツを作成する（Ｓ０１５）。具体的には、要素オブジェクトが変更されたアバタの映像とその音声（第１の音声）を含む動画コンテンツが作成される。

【0086】

サーバ１０は、要素オブジェクトが変更された動画コンテンツを上記の対象視聴ユーザが視聴する場合、配信ユーザが変更指示したアバタの要素オブジェクトが、対象視聴ユーザによって指定された指定オブジェクト、すなわち第１の音声に関連付けられた要素オブジェクト（被指定特徴）に該当するか否かを判定する（Ｓ０１６）。

【0087】

配信ユーザが変更したアバタＡの要素オブジェクトが、対象視聴ユーザによって指定された指定オブジェクトに該当しない場合（Ｓ０１６でＮＯ）、サーバ１０は、対象視聴ユーザに対して、要素オブジェクトが変更されたアバタの映像とその音声（第１の音声）を含む動画コンテンツを配信する（Ｓ０１７）。視聴ユーザ側では、配信された動画コンテンツがユーザ端末１２によって受信され、同コンテンツがユーザ端末１２のディスプレイに表示される。つまり、要素オブジェクトが変更されたアバタの映像とその音声（第１の音声）を含む動画コンテンツが、視聴ユーザのユーザ端末１２の画面に表示される（Ｓ０１８）。

【0088】

他方、配信ユーザが変更したアバタの要素オブジェクトが、対象視聴ユーザによって指定された指定オブジェクトに該当する場合、サーバ１０は、対象視聴ユーザに対し、要素オブジェクトが変更されたアバタの映像とその音声（第１の音声）を含む動画コンテンツを配信するとともに、指定オブジェクトが変更されていることの通知、及び、アバタの音声（第１の音声）の変更を行うか否かの問い合わせを通知する（Ｓ０１９）。

【0089】

対象視聴ユーザ側では、配信された動画コンテンツがユーザ端末１２によって受信され、同コンテンツがユーザ端末１２のディスプレイに表示される。つまり、要素オブジェクトが変更されたアバタの映像とその音声（第１の音声）を含む動画コンテンツが、視聴ユーザのユーザ端末１２で出力されるとともに、図４に示すように、指定オブジェクトが変更されていることを知らせる通知、及びアバタＡの音声（第１の音声）の変更を行うか否かを問い合わせる内容（ＹＥＳ／ＮＯボタン）が、そのディスプレイに表示される（Ｓ０２０）。対象視聴ユーザがアバタの音声（第１の音声）の変更を希望する操作（図４中の「ＹＥＳ」をタッチする操作）を行った場合（Ｓ０２１でＹｅｓ）、サーバ１０は、その操作を視聴ユーザから受け付け、変更後の音声（第２の音声）の設定を促す案内を通知する（Ｓ０２２）。

【0090】

対象視聴ユーザのユーザ端末では、変更後の音声（第２の音声）の設定を促す案内とともに、又は案内後に、音声の変更内容を指定するための音声変更画面（図示せず）が表示される（Ｓ０２３）。対象視聴ユーザは、この音声変更画面において、アバタＡの変更後の音声（第２の音声）を設定する操作を行う（Ｓ０２４）。

【0091】

サーバ１０は、変更後の音声（第２の音声）を設定する操作を受け付けると、先に関連付けられた（Ｓ０１１）、第１の音声と、変化前の要素オブジェクト（例えば、図３中の細い眉毛）との関連付けを、第２の音声と、変化後の要素オブジェクト（図４及び図５中の太い眉毛）との関連付けに更新して記憶する（Ｓ０２５）。そして、対象視聴ユーザのユーザ端末において出力されるアバタの音声を、変更後の音声（第２の音声）に変更する（Ｓ０２６）。対象視聴ユーザのユーザ端末では、対象視聴ユーザが設定した変更後の音声（第２の音声）を含む動画コンテンツが受信されて出力される（Ｓ０２７）。

【0092】

他方、対象視聴ユーザがアバタの音声の変更を希望しない操作、すなわち第１の音声を維持する音声維持操作（具体的には、図４中の「ＮＯ」をタッチする操作）を行った場合（Ｓ０２１で「ＮＯ」の場合）、サーバ１０は、第１の音声と、変化前の要素オブジェクト（図３中の細い眉毛）との関連付けを、第１の音声と、変化後の要素オブジェクト（図４中の太い眉毛）との関連付けに更新して記憶するとともに（Ｓ０２８）、対象視聴ユーザに対して、要素オブジェクトが変更されたアバタの映像とその音声（第１の音声）を含む動画コンテンツを配信する（Ｓ０１７）。

【0093】

以上までに説明してきた一連のステップは、配信ユーザが動画コンテンツの配信を終了するまで繰り返し実行される（Ｓ０２９）。そして、配信ユーザが動画コンテンツの配信を終了した時点で、情報処理フローが終了する。

【0094】

＜＜その他の実施形態＞＞
以上までに本発明の具体的な実施形態を説明したが、上記の実施形態は、本発明の理解を容易にするために挙げた一例にすぎず、本発明を限定するものではない。すなわち、本発明は、その趣旨を逸脱しない限りにおいて、上記の実施形態から変更又は改良され得る。また、本発明には、その等価物が含まれる。

【0095】

また、上記の実施形態についての説明において参照された図面が示す画面例も一例に過ぎず、画面の構成例、表示される情報の内容、及びＧＵＩ（Graphical User Interface）等は、システム設計の仕様及びユーザの好み等に応じて自由に設計することができ、また適宜変更し得るものである。

【0096】

また、上記の実施形態における各種情報の通知・連絡・提示の手段は、特に限定されず、例えば、メールによる通知・連絡・提示であってもよく、ユーザ端末１２にメッセージを表示したり、音／音声を再生したりしてもよい。また、ＳＮＳ（Social Networking Service）用のアカウントを有するユーザに対して情報を通知・連絡・提示する場合には、ＳＮＳでの投稿やメッセージ交換等を活用してもよい。また、メッセージ等を表示させる画面は、動画コンテンツの視聴中に表示される画面（コンテンツ視聴画面）でもよく、あるいは、ユーザ端末１２の初期画面（具体的には、待ち受け画面）でもよい。

【0097】

また、上記の実施形態において、ユーザ端末１２に表示させる態様には、端末自体に備わった表示器（ディスプレイ）に表示させる態様、及び、端末に有線又は無線形式で接続された表示器に表示する態様が含まれる。なお、ユーザ端末１２に接続された表示器には、一般的な据え置き型のディスプレイの他に、ＶＲゴーグル等のＨＭＤ（Head Mounted Display）が含まれ得る。

【0098】

また、本発明に関しては、上記の実施形態とは異なる他の実施形態（変形例）が複数考えられ得る。以下、それぞれの変形例について説明する。なお、以下では、上記の実施形態と相違する点を主として説明し、共通する点については説明を省略することとする。

【0099】

（情報処理装置の構成に関する変形例）
本発明の情報処理装置は、サーバ１０によって構成される場合に限定されず、本発明の情報処理装置が備える機能のうちの一部が、ユーザ端末１２に備わってもよい。その場合には、サーバ１０とユーザ端末１２との協働によって本発明の情報処理装置が構成されることになる。

【0100】

（動画コンテンツの作成主体の変形例）
上記の実施形態では、動画コンテンツが配信ユーザのユーザ端末１２により作成され、サーバ１０が、ユーザ端末１２から送信される動画コンテンツを取得し、取得した動画コンテンツを視聴ユーザに配信することとした。ただし、これに限定されず、動画コンテンツは、配信ユーザのユーザ端末１２ではなく、サーバ１０によって作成されてもよい。この場合、サーバ１０は、撮影操作及び収音操作を含む配信ユーザの配信操作を、配信ユーザのユーザ端末１２を通じて受け付け、受け付けた操作に基づいて動画コンテンツを作成すればよい。

【0101】

（アバタの指定オブジェクトの決定方法の変形例）
上記の実施形態において、サーバ１０の操作受付部４１は、視聴ユーザが、図３に示すようなアバタの静止画像の中で、変更後の音声との関連付けを希望する１又は２以上のアバタの特徴、すなわち、アバタＡを構成する要素オブジェクト（指定オブジェクト）をそれぞれ指定する操作を受け付け、関連付け部４３は、この操作により指定された指定オブジェクトを変更後の音声に関連付けた。ただし、これに限定されず、操作受付部４１は、視聴ユーザがアバタの表示画面の中で指定オブジェクトを含む領域を指定する指定操作を受け付け、関連付け部４３は、その指定された領域に基づいて指定オブジェクトを特定してもよい。なお、ここで、指定される領域は、アバタ全体を含む領域であってもよい。

【0102】

具体的には、図１７Ａに示すように、視聴ユーザが、アバタＡの静止画像の中で、所定の領域を指定する操作（例えば、画面中の所定の領域の外縁を指でなぞった後、同画面に設けられたオブジェクト指定ボタンＢｔ２をタッチする操作）を行う。操作受付部４１がこの操作を受け付けると、関連付け部４３は、視聴ユーザの操作により指定された領域（指定領域ＤＲ）内に含まれる１又は２以上の要素オブジェクトを指定オブジェクトとして特定してもよい。そして、関連付け部４３は、特定された指定オブジェクトを変更後の音声に関連付けてもよい。

【0103】

また、視聴ユーザが、アバタＡの静止画像の中で、所定の領域を指定する操作を行った後、図１７Ｂに示すように、視聴ユーザのユーザ端末１２の表示画面に、指定領域ＤＲ内に含まれる１又は２以上の要素オブジェクトを並べて表示してもよい。そして、視聴ユーザが、表示された要素オブジェクトを１以上選択する操作を行うことにより指定オブジェクトを決定し、決定された指定オブジェクトを変更後の音声と関連付けてもよい。

【0104】

（音声の変更処理に係る変形例１）
以上までに説明してきた実施形態では、アバタの被指定特徴としての指定オブジェクトが配信ユーザによって変更された場合に、その変更後に配信される動画コンテンツに含まれる音声について、処理部４９が、第1の音声からの変更に関する処理を実行することとした。ただし、これに限定されるものではなく、アバタの被指定特徴がアバタの表情であり、動画コンテンツにおいて、配信ユーザの顔の動きに応じて設定されるアバタの表情が変更された場合に、処理部４９が、表情の変更後に配信される動画コンテンツに含まれる音声について、第１の音声からの変更に関する処理を実行してもよい。つまり、アバタの顔についての所定の表情（例えば、笑顔）を第１の音声と関連付けておき、配信ユーザの顔の動きに合わせてアバタの顔の表情が所定の表情から別の表情（例えば、怒った顔）に変化した場合には、第１の音声からの変更の有無を問い合わせたり、自動的に音声を変更したりしてもよい。

【0105】

（アバタの要素オブジェクトの指定時における表示画面の変形例）
上記の実施形態では、視聴ユーザから、音声を変更させる変更操作を受け付けた場合に、視聴ユーザのユーザ端末１２には、動画コンテンツ中から抽出されたアバタの静止画像のみが表示されたが、これに限定されず、図１８に示すように、動画コンテンツの表示画面における第１領域ＳＡ１には、動画コンテンツが表示され、表示画面において第１領域とは異なる第２領域ＳＡ２には、動画コンテンツ中から抽出されたアバタの静止画像が表示されてもよい。

【0106】

また、第１領域ＳＡ１には、タイムバー等の指示オブジェクトＯＴが表示される。この指示オブジェクトＯＴを通じて、視聴ユーザは、動画コンテンツの開始時点からの経過時間に相当する時点を指示する指示操作を行うことができる。例えば、第１領域ＳＡ１に動画コンテンツが表示される間において、視聴ユーザが指示オブジェクトＯＴを操作して所定の時点を指示する指示操作を行った場合、操作受付部４１がこの指示操作を受け付け、この指定操作が行われた時点のアバタＡの静止画像を第２領域ＳＡ２に表示させる。この場合、関連付け部４３は、第２領域ＳＡ２に表示された静止画におけるアバタの顔の状態と、視聴ユーザが変更した音声である第１の音声とを関連付けてもよい。

【0107】

（音声の変更処理に係る変形例２）
上記の実施形態において、第１の音声を含む動画コンテンツにおけるアバタの指定オブジェクトが変更された際に、変更後の要素オブジェクトに関連付けられた音声がなくてもよい。この場合、視聴ユーザに対して、第１の音声からの変更に関する問い合わせは行われないが、これに限定されるものではない。例えば、図１９に示すように、情報処理装置を構成するサーバ１０が、問い合わせ部５１を備えており、変更後の要素オブジェクトに関連付けられた音声がない場合に、この問い合わせ部５１が、視聴ユーザに対して、変更後の要素オブジェクトに関連付ける音声に関する問い合わせを行ってもよい。具体的には、変更後の要素オブジェクトに関連付ける音声を、視聴ユーザにより選択された音声にするか、又は、配信ユーザによって設定された音声にするかを問い合わせてもよい。

【0108】

以上までに説明してきた複数の実施形態（各実施形態の変形例を含む）については、それぞれの実施形態の要素及び特徴を適宜組み合わせてもよい。すなわち、上述した複数の実施形態のうち、いずれかの実施形態における構成は、それ以外の実施形態でも適用可能であり、その構成がもたらす効果が同様に奏されてもよい。

【0109】

［まとめ］
本発明の目的の一つは、配信ユーザのアバタ及び音声を含む動画コンテンツを、視聴ユーザに対して適切に配信することである。
より具体的には、以下に示す［付記１］～［付記１６］に対応する課題を解決することを目的とする。

【0110】

［付記１］
本発明の目的の一つは、付記１に対応する課題を解決することであり、具体的には、動画コンテンツ中の音声が視聴ユーザにより第１の音声に変更された後に、その配信ユーザがアバタの特徴を変更した場合に、変更後のアバタに対する違和感を視聴ユーザに与えにくくするように動画配信コンテンツを配信することである。
本発明の情報処理装置は、上記の課題を解決するために、付記１の構成として、配信ユーザのアバタと音声を含む動画コンテンツを視聴する視聴ユーザから、音声を変更させる変更操作を受け付ける受付部と、変更操作に基づいて変更された第1の音声と、アバタの特徴のうち、変更操作時に視聴ユーザにより指定されたアバタの被指定特徴とを、互いに関連付ける関連付け部と、配信ユーザが動画コンテンツにおけるアバタの被指定特徴を変えた場合に、被指定特徴の変化後に配信される動画コンテンツに含まれる音声について、第１の音声からの変更に関する処理を実行する処理部と、を備えることを特徴とする。
上記の構成によれば、第１の音声に関連付けられたアバタの被指定特徴が変更された際に、第1の音声からの変更に関する処理が実行される。これにより、変更後の被指定特徴に応じて音声が変更され、この結果、変更後のアバタに対する音声の違和感を視聴ユーザに与えにくくなるように動画コンテンツを配信することができる。

【0111】

［付記２］
本発明の目的の一つは、付記２に対応する課題を解決することであり、具体的には、アバタを構成する要素オブジェクトが変更された場合に、変更後のアバタに対する違和感を視聴ユーザに与えにくくするように動画コンテンツを配信することである。
上記の課題を解決するために、本発明の情報処理装置では、付記２の構成として、配信ユーザが、動画コンテンツにおけるアバタを構成する要素オブジェクトを変えた場合に、処理部が、要素オブジェクトの変更後に配信される動画コンテンツに含まれる音声について、上記の処理を実行してもよい。
上記の構成によれば、アバタの見た目の印象と音声との適合度（マッチング具合い）に大きな影響を与える要素オブジェクトが変更された際に、第１の音声からの変更に関する処理が実行される。これにより、変更後の要素オブジェクトに応じて音声が変更され、この結果、変更後のアバタに対する音声の違和感を視聴ユーザに与えにくくなるように動画コンテンツを配信することができる。

【0112】

［付記３］
本発明の目的の一つは、付記３に対応する課題を解決することであり、具体的には、アバタの要素オブジェクトのうち、視聴ユーザにより指定された要素オブジェクトが変更された場合に、変更後のアバタに対する違和感を視聴ユーザに与えにくくなるように動画コンテンツを配信することである。
上記の課題を解決するために、本発明の情報処理装置では、付記３の構成として、受付部は、変更操作と、動画コンテンツにおけるアバタを構成する複数の要素オブジェクトのうちの１つ以上を指定オブジェクトとして指定する指定操作と、を視聴ユーザから受け付け、関連付け部は、第１の音声と、指定オブジェクトとを関連付け、配信ユーザが、動画コンテンツにおけるアバタ中の指定オブジェクトを変えた場合に、処理部が、指定オブジェクトの変更後に配信される動画コンテンツに含まれる音声について、上記の処理を実行してもよい。
上記の構成によれば、視聴ユーザが指定した要素オブジェクト（指定オブジェクト）と第１の音声との間で関連付けが行われ、関連付けが行われた指定オブジェクトの変更に応じて、第１の音声からの変更に関する処理が実行される。指定オブジェクトは、動画コンテンツ中のアバタの印象と音声との適合度に大きな影響を及ぼし得る。上記の構成によれば、その点を踏まえつつ、指定オブジェクトが変更された後のアバタに対する音声の違和感を視聴ユーザに与えにくくするように動画コンテンツを配信することができる。

【0113】

［付記４］
本発明の目的の一つは、付記４に対応する課題を解決することであり、具体的には、視聴ユーザ側で指定オブジェクトを適切に特定できるようにすることである。
上記の課題を解決するために、本発明の情報処理装置では、付記４の構成として、受付部は、視聴ユーザがアバタの表示画面の中で指定オブジェクトを含む領域を指定する指定操作を受け付け、関連付け部は、指定された領域に基づいて指定オブジェクトを特定してもよい。
上記の構成によれば、視聴ユーザは、アバタの表示画面の中で指定オブジェクトを含む領域を指定することにより、その指定オブジェクトを適切に特定することができる。

【0114】

［付記５］
本発明の目的の一つは、付記５に対応する課題を解決することであり、具体的には、アバタの要素オブジェクトが変更された場合に、その変更度合いに応じて、音声の変更に関する処理を適切に実行することである。
上記の課題を解決するために、本発明の情報処理装置では、付記５の構成として、指定オブジェクトの変化に関する変化条件を、視聴ユーザの設定操作に基づいて設定する条件設定部を備え、配信ユーザが動画コンテンツにおけるアバタの指定オブジェクトを変え、且つ、指定オブジェクトの変化が変化条件を満たす場合に、処理部が、指定オブジェクトの変更後に配信される動画コンテンツに含まれる音声について、上記の処理を実行してもよい。
上記の構成によれば、視聴ユーザが指定した要素オブジェクト（指定オブジェクト）が変化し、且つ、指定オブジェクトの変化が変化条件を満たす場合に限り、第１の音声からの変更に関する処理が実行される。これにより、例えば、指定オブジェクトが大きく変わって、変更後の指定オブジェクトと第１の音声とがマッチしない場合には、上記の処理を実行する一方で、指定オブジェクト変化が小さい場合には、上記の処理を省略することができる。これにより、指定オブジェクトの変更度合いに応じて、上記の処理を適切に（合理的に）実行することができる。

【0115】

［付記６］
本発明の目的の一つは、付記６に対応する課題を解決することであり、具体的には、指定オブジェクトが変更された場合に、音声の変更に関する処理の実行の要否を適切に判定することである。
上記の課題を解決するために、本発明の情報処理装置では、付記６の構成として、配信ユーザが動画コンテンツにおけるアバタの指定オブジェクトを変え、変化前の指定オブジェクトと変化後の要素オブジェクトとが所定の関係にある場合に、処理部が、指定オブジェクトの変更後に配信される動画コンテンツに含まれる音声について、上記の処理を実行してもよい。
上記の構成によれば、変化前の指定オブジェクトと変化後の要素オブジェクトとが所定の関係にある場合に限り、第１の音声からの変更に関する処理が実行される。すなわち、指定オブジェクトが変更された場合に、変化前後の指定オブジェクトの関係に基づき、音声の変更に関する処理の実行の要否を適切に判定することができる。

【0116】

［付記７］
本発明の目的の一つは、付記７に対応する課題を解決することであり、具体的には、配信ユーザがアバタ中の要素オブジェクトを変更する場合に、その要素オブジェクトが、視聴ユーザにより変更された音声と関連付けられていることを配信ユーザに知らせることである。
上記の課題を解決するために、本発明の情報処理装置では、付記７の構成として、受付部は、配信ユーザから、動画コンテンツにおけるアバタの指定オブジェクトを変えるオブジェクト変化操作を受け付け、受付部がオブジェクト変化操作を受け付けた場合、指定オブジェクトと第１の音声との関連付けに応じた情報を、指定オブジェクトが変わる前の時点で配信ユーザに通知する通知部をさらに備えていてもよい。
上記の構成によれば、配信ユーザが変更しようとする指定オブジェクトと、視聴ユーザにより変更された第１の音声と、の関連付けに応じた情報を配信ユーザに通知することができる。これにより、配信ユーザは、視聴ユーザにより変更された音声との関連付けを踏まえて、指定オブジェクトの変更を実際に進めてもよいか否かを決めることができる。

【0117】

［付記８］
本発明の目的の一つは、付記８に対応する課題を解決することであり、具体的には、アバタ中のオブジェクトを変更するにあたり、動画コンテンツの配信に対する視聴ユーザの課金の有無を、配信ユーザに知らせることである。
上記の課題を解決するために、本発明の情報処理装置では、付記８の構成として、通知部は、配信ユーザにより配信される動画コンテンツについて、視聴ユーザの課金操作の有無に係る情報を配信ユーザに通知してもよい。
上記の構成によれば、動画コンテンツの配信に対する視聴ユーザの課金操作の有無に係る情報を配信ユーザに通知することができる。これにより、配信ユーザは、視聴ユーザの課金状況を踏まえて、アバタ中の要素オブジェクトの変更を行うことができ、例えば、課金を行ってくれた視聴ユーザが音声を変更した場合に、その音声と適合（マッチ）しない要素オブジェクトへの変更を控えるようになる。

【0118】

［付記９］
本発明の目的の一つは、付記９に対応する課題を解決することであり、具体的には、アバタの表情が変更された場合に、変更後のアバタに対する違和感を視聴ユーザに与えにくくするように動画コンテンツを配信することである。
上記の課題を解決するために、本発明の情報処理装置は、付記９の構成として、動画コンテンツにおいて、配信ユーザの顔の動きに応じて設定されるアバタの表情が変更された場合に、処理部は、表情の変更後に配信される動画コンテンツに含まれる音声について、上記の処理を実行してもよい。
上記の構成によれば、アバタの表情が変わった際に、第１の音声からの変更に関する処理が実行される。アバタの表情は、アバタの見た目の印象と音声との適合度（マッチング度相）に大きな影響を及ぼし得る。上記の構成によれば、その点を踏まえつつ、表情が変わった後のアバタに対する音声に違和感を視聴ユーザに与えにくくするように動画コンテンツを配信することができる。

【0119】

［付記１０］
本発明の目的の一つは、付記１０に対応する課題を解決することであり、具体的には、視聴ユーザが音声を変更する場合に、視聴ユーザが変更後の音声と関連付けられるアバタの特徴を特定するのを支援することである。
上記の課題を解決するために、本発明の情報処理装置では、付記１０の構成として、受付部が、視聴ユーザから、音声を変更させる変更操作を受け付けた場合に、動画コンテンツの表示画面における第１領域には、動画コンテンツが表示され、表示画面において第１領域とは異なる第２領域には、動画コンテンツ中から抽出されたアバタの静止画像が表示されてもよい。
上記の構成によれば、視聴ユーザが音声を変更する際に、表示画面の第１領域には、動画コンテンツが表示され、第２領域には、動画コンテンツ中から抽出されたアバタの静止画像が表示される。これにより、視聴ユーザは、音声を変更する時点でのアバタの特徴、すなわち変更後の音声に関連付けられる特徴を、第２領域に表示されたアバタの静止画像を見て確認することができる。

【0120】

［付記１１］
本発明の目的の一つは、付記１１に対応する課題を解決することであり、具体的には、視聴ユーザが音声を変更する場合に、視聴ユーザが変更後の音声と関連付けられるアバタの特徴を特定するのを、より効果的に支援することである。
上記の課題を解決するために、本発明の情報処理装置は、付記１１の構成として、前記表示画面には、動画コンテンツの開始時点からの経過時間に相当する時点を指示する指示オブジェクトが、視聴ユーザによって操作可能な状態で表示され、視聴ユーザが指示オブジェクトを操作した場合、操作後の指示オブジェクトが指示する時点以降の動画コンテンツが第１領域に表示され、第１領域に動画コンテンツが表示される間において、視聴ユーザが指示オブジェクトに対する指示操作を行った場合に、受付部が指示操作を受け付け、第１領域に表示されていた動画コンテンツ中、指定操作が行われた時点のアバタの静止画が第２領域に表示され、関連付け部は、第２領域に表示された静止画におけるアバタの顔の状態と、第１の音声とを関連付けてもよい。
上記の構成によれば、視聴ユーザが指示オブジェクトを通じて指示した時点以降の動画コンテンツが第１領域に表示され、第１領域に表示されていた動画コンテンツ中、視聴ユーザにより指定された時点のアバタの静止画が第２領域に表示される。これにより、視聴ユーザは、音声を変更する時点でのアバタの特徴、すなわち変更後の音声に関連付けられる特徴を、第２領域に表示されたアバタの静止画像を見て確認することができる。また、第２領域に表示されるアバタの静止画像は、指示オブジェクトの操作を通じて容易に調整できるため、視聴ユーザは、変更後の音声と関連付けられるアバタの特徴を、より容易に決めることができる。

【0121】

［付記１２］
本発明の目的の一つは、付記１２に対応する課題を解決することであり、具体的には、視聴ユーザの意向を踏まえて、音声変更に関する処理の実行の有無を決めることである。
上記の課題を解決するために、本発明の情報処理装置では、付記１２の構成として、第１の音質の音声を含む動画コンテンツにおけるアバタの被指定特徴が変更された場合であって、受付部が、視聴ユーザから、第１の音声を変更しない音声維持操作を受け付けた場合に、関連付け部は、第１の音声を、変更後の被指定特徴に関連付けてもよい。
上記の構成によれば、視聴ユーザから、第１の音声を変更しない音声維持操作を受け付けた場合に、第１の音声を変更後の被指定特徴に関連付ける。これにより、被指定特徴が変更された後の動画コンテンツについても、引き続き第１の音声で視聴することができる。

【0122】

［付記１３］
本発明の目的の一つは、付記１３に対応する課題を解決することであり、具体的には、アバタ中の被指定特徴が変更された場合に、視聴ユーザに対して適切な音声を推奨することである。
上記の課題を解決するために、本発明の情報処理装置では、付記１３の構成として、第１の音声を含む動画コンテンツにおけるアバタの被指定特徴が変更された際に、変更後の被指定特徴と第２の音声とが関連付けられている場合、視聴ユーザに対して、動画コンテンツに含まれる第１の音声から第２の音声に変更することを推奨する推奨部をさらに備えていてもよい。
上記の構成によれば、視聴ユーザによりアバタ中の被指定特徴が変更された際に、変更後の被指定特徴と第２の音声とが予め関連付けられている場合には、視聴ユーザに対して、第２の音声を推奨する。これにより、視聴ユーザは、変更後の被指定特徴に適合（マッチ）する音声を効率よく決めることができ、具体的には、推奨された第２の音声を利用して、音声変更をよりスムーズに行うことができる。

【0123】

［付記１４］
本発明の目的の一つは、付記１４に対応する課題を解決することであり、具体的には、アバタ中の被指定特徴が変更された場合に、変更後の被指定特徴と関連付ける音声に関して、視聴ユーザの意向を適切に確認することである。
上記の課題を解決するために、本発明の情報処理装置は、付記１４の構成として、第１の音声を含む動画コンテンツにおけるアバタの被指定特徴が変更された際に、変更後の被指定特徴が関連付けられた音声がない場合、視聴ユーザに対する問い合わせを実施する問い合わせ部をさらに備え、問い合わせ部は、変更後の被指定特徴に関連付ける音声を、視聴ユーザにより選択された音声にするか、又は、配信ユーザによって設定された音声にするかについての問い合わせを実施してもよい。
上記の構成によれば、視聴ユーザによりアバタ中の被指定特徴が変更された際に、変更後の被指定特徴と関連付けられた音声がない場合に、その音声の候補の中からいずれかの一つを選択させるか、あるいは、配信ユーザによって設定された音声を採用するのかを、視聴ユーザに問い合わせる。これにより、変更後の被指定特徴と関連付けられた音声がない場合にも、視聴ユーザは、変更後の被指定特徴に適合（マッチ）する音声を効率よく決めることができる。

【0124】

［付記１５］
本発明の目的の一つは、付記１５に対応する課題を解決することであり、具体的には、動画コンテンツ中の音声が視聴ユーザにより第１の音声に変更された後に、その配信ユーザがアバタの特徴を変更した場合に、変更後のアバタに対する違和感を視聴ユーザに与えにくくするように動画配信コンテンツを配信することができる情報処理方法を実現することである。
上記の課題を解決するために、本発明の情報処理方法では、付記１５の構成として、プロセッサが、配信ユーザのアバタと音声を含む動画コンテンツを視聴する視聴ユーザから、音声を変更させる変更操作を受け付け、プロセッサが、変更操作に基づいて変更された第１の音声と、アバタの特徴のうち、変更操作時に視聴ユーザにより指定されたアバタの被指定特徴と、を、互いに関連付ける関連付け、配信ユーザが動画コンテンツにおけるアバタの被指定特徴を変えた場合に、プロセッサが、被指定特徴の変化後に配信される動画コンテンツに含まれる音声について、第１の音声からの変更に関する処理を実行する。
上記の方法によれば、第１の音声に関連付けられたアバタの被指定特徴が変更された場合に、変更後のアバタに対して音声の違和感を視聴ユーザに与えにくくなるように動画コンテンツを配信することができる。

【0125】

［付記１６］
本発明の目的の一つは、付記１６に対応する課題を解決することであり、具体的には、動画コンテンツ中の音声が視聴ユーザにより第１の音声に変更された後に、その配信ユーザがアバタの特徴を変更した場合に、変更後のアバタに対する違和感を視聴ユーザに与えにくくするように動画配信コンテンツを配信するプログラムを実現することである。
上記の課題を解決するために、本発明のプログラムは、付記１６の構成として、プロセッサに、配信ユーザのアバタと音声を含む動画コンテンツを視聴する視聴ユーザから、音声を変更させる変更操作を受け付けさせ、プロセッサに、変更操作に基づいて変更された第１の音声と、アバタの特徴のうち、変更操作時に視聴ユーザにより指定されたアバタの被指定特徴と、を、互いに関連付けさせ、配信ユーザが動画コンテンツにおけるアバタの被指定特徴を変えた場合に、プロセッサに、被指定特徴の変化後に配信される動画コンテンツに含まれる音声について、第１の音声からの変更に関する処理を実行させるためのプログラムである。
上記のプログラムがプロセッサに実行されることにより、第１の音声に関連付けられたアバタの被指定特徴が変更された場合に、変更後のアバタに対して音声の違和感を視聴ユーザに与えにくくなるように動画コンテンツを配信することができる。

【符号の説明】

【0126】

１０サーバ（情報処理装置）
１０ａプロセッサ
１０ｂメモリ
１０ｃ通信用インタフェース
１０ｄストレージ
１２ユーザ端末
１２ａプロセッサ
１２ｂメモリ
１２ｃ通信用インタフェース
１２ｄ入力機器
１２ｅ出力機器
２１入力部
２２コンテンツ作成部
２３コンテンツ表示部
２４コンテンツ送信部
２５第１操作データ送信部
２６第１案内表示部
３１コンテンツ出力部
３２操作入力部
３３第２操作データ送信部
３４第２案内表示部
４１操作受付部（受付部）
４２配信部
４３関連付け部
４４要素オブジェクト変更部
４５音声変更部
４６判定部
４７通知部
４８推奨部
４９処理部
５０問い合わせ部
Ａアバタ
Ｎ通信ネットワーク
Ｓ動画配信システム
ＳＡ１第１領域
ＳＡ２第２領域
ＯＴ指示オブジェクト
ＤＲ指定領域

【図1】