(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0010】
以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。
【0011】
<第一実施形態に係る動画配信システム1>
図1は第一実施形態に係るタイミング補正システム100の機能ブロック図を、
図2はその処理フローを示す。
【0012】
動画配信システム1は、1台以上の視聴者端末91と、タイミング補正システム100と、対象映像信号を視聴者端末91に配信する動画配信サーバ92とを含む。各視聴者端末91、タイミング補正システム100及び動画配信サーバ92は、通信回線を介して通信可能とされている。なお、動画配信システム1に含まれる各視聴者端末91、タイミング補正システム100、動画配信サーバ92は、NTP(Network Time Protocol)等により、時刻を同期しておくことが望ましい。
【0013】
<視聴者端末91>
視聴者端末91は、対象映像信号(例えば、動画)を見るもの(例えば、動画の視聴者)によって操作され、入力部(キーボード、マウス、タッチパネル等)と、表示部(ディスプレイ、タッチパネル等)とを含み、例えば、パーソナルコンピュータ、スマートホン、タブレット等からなる。視聴者は、視聴者端末91の入力部を介して、動画配信サーバ92に対して対象映像の再生を要求することができる。また、視聴者端末91の表示部を介して、対象映像信号を視聴することができる。さらに、視聴者は、入力部を介して、対象映像信号に重畳して表示されるテキスト情報(例えば、コメント)を入力することができる。視聴者端末91は、テキスト情報が入力されると、例えばシステム時刻に基づき入力時刻を取得して、メタデータとしてテキスト情報と一緒に送信する。
【0014】
<動画配信サーバ92>
動画配信サーバ92は、動画データベース及びビデオカメラから動画を受け取り、視聴者端末91の要求に応じて、動画データベース内に格納されている動画、または、ビデオカメラで収録した動画をリアルタイムで配信する。また、ビデオカメラで収録された動画に限らず、リアルタイムで合成・編集されたCGやモーションキャプチャ等から合成されたCGをリアルタイム配信することもある。なお、本実施形態において、動画とは、時間軸に同期させた音響信号と共に提供される映像信号を意味する。動画データベースには、動画と共に動画に付加されたテキスト情報が記憶される。さらに、テキスト情報にはメタデータが付加されている。メタデータとしては、テキスト情報の入力時刻、テキスト情報の大きさ、その色、その出現方法、その移動速度や、移動位置等がある。例えば、大きさ、色、出現方法、移動速度、移動位置等は、テキスト情報の入力者が選択できるものとしてもよく、視聴者端末91がメタデータとしてテキスト情報と一緒に送信し、動画データベースに動画と共に記憶される。
【0015】
<タイミング補正システム100>
タイミング補正システム100は、テキスト情報txt
in(p)とそのそのテキスト情報の入力時刻t
in(p)を示すメタデータ及びテキスト情報付の対象映像信号が入力され、テキスト情報txt
in(p)とそのテキスト情報を表示部(例えばディスプレイ)に表示するためのタイミングt
in(p)またはt
out(p)を含むメタデータとを出力する。なお、pは入力されるテキスト情報全てに付与されるインデックスを示す。なお、テキスト情報txt
in(p)は、対象映像信号を見るものによって入力され、その対象映像信号に重畳して表示されるものある。
【0016】
タイミング補正システム100は、キー入力検出部110と、タイミング検出部120と、補正部130とを含む。
【0017】
<キー入力検出部110>
キー入力検出部110は、テキスト情報txt
in(p)とそのテキスト情報の入力時刻t
in(p)とを受け取り、所定の行為を意味するテキスト情報txt
in(q)及びそのテキスト情報の入力時刻t
in(q)を含むメタデータを検出し(S110)、出力する。なお、qは所定の行為を意味するテキスト情報全てに付与されるインデックスを示す。入力される全てのテキスト情報の個数をPとし、入力されるテキスト情報の内、所定の行為を意味するテキスト情報の個数をQとすると、P≧Qであり、p=1,2,…,P、q=1,2,…,Qである。
【0018】
例えば、キー入力検出部110は図示しない記憶部を備え、記憶部には所定の行為とその所定の行為を意味するテキスト情報とが対応付けて記憶される(
図3参照)。キー入力検出部110は、受け取ったテキスト情報txt
in(p)と記憶部に記憶されるテキスト情報とが一致するか否かを判定し、一致する場合には、対応するテキスト情報txt
in(q)と所定の行為(または、所定の行為を示すインデックス)と入力時刻t
in(q)とを、補正部130に出力する。一方、一致しない場合には、対応するテキスト情報txt
in(r)と入力時刻t
in(r)とを、動画配信サーバ92に出力する。なお、rは所定の行為を意味するテキスト情報以外の全てのテキスト情報に付与されるインデックスを示す。入力されるテキスト情報の内、所定の行為を意味するテキスト情報以外のテキストの個数をRとすると、P=Q+Rであり、r=1,2,…,Rである。
【0019】
<タイミング検出部120>
タイミング検出部120は、動画配信サーバ92から(i)対象映像信号、(ii)対象映像信号に対応する対象音響信号、並びに、(iii)対象映像信号に重畳して表示される既に入力済みの他のテキスト情報及びそのメタデータの少なくとも何れかを受け取る。例えば、テキスト情報付きの動画には(i)〜(iii)の全てが含まれる。
【0020】
タイミング検出部120は、(i)〜(iii)の少なくとも何れかから、キー入力検出部110で検出されたテキスト情報の意味する行為の基準となるタイミングである基準タイミングt
out(s)を検出し(S120)、出力する。なお、sは(i)〜(iii)の少なくとも何れかに含まれる所定の行為に出現番号を表すインデックスを示し、s=1,2,…,Sであり、Sは(i)〜(iii)の少なくとも何れかに含まれる所定の行為の出現回数である。
【0021】
基準タイミングt
out(s)を検出する方法としては、テキスト情報の意味する行為に応じて様々な方法が考えられる。
【0022】
例えば、テキスト情報の意味する行為が「拍手」の場合に基準タイミングを検出する方法を、用いるデータに応じて例示する。テキスト情報の意味する行為が「拍手」の場合、さらに、テキスト情報の意味する行為として、一定のテンポに合わせて行う「手拍子(clap)」と、一定のテンポを持たず行う「拍手(applause)」とが考えられる。なお、以下、単に「拍手」といった場合、一定のテンポを持たず行う「拍手(applause)」を意味するものとする。「手拍子」と「拍手」とは、手を叩く時間的間隔や音量的差異が異なるため(参考文献1)、例えば、(ii)対象映像信号に対応する対象音響信号等に基づいて、テキスト情報が何れの行為を意味するのかを判別することができる。
(参考文献1)鎌本優,河原一彦,尾本章,守谷健弘,「音楽鑑賞時に励起される拍手音・手拍子音の低遅延伝送に向けた基礎的検討」、日本音響学会 2014年秋季研究発表会, 1-Q-17、2014年.
この実施形態では、テキスト情報の意味する行為が「手拍子」の場合の、基準タイミングの検出方法について説明する。
【0023】
(i)行為が「手拍手」であり、データが対象映像信号の場合
対象映像信号に一定のテンポがある場合には、そのテンポに合わせて拍手すると仮定し、テンポを基準タイミングとして検出する(参考文献2参照)。
(参考文献2)三上弾、松本鮎美、門田浩二、川村春美、小島明、「動作学習のための遅延同期ビデオフィードバックシステム」、情報処理学会、情報処理学会論文誌 コンシューマ・デバイス&システム、2014年、vol.4、No.1、pp22-31.
(ii)行為が「手拍手」であり、データが対象音響信号の場合
対象音響信号に一定のテンポがある場合には、そのテンポに合わせて拍手すると仮定し、テンポを基準タイミングとして検出する(参考文献2〜参考文献5参照)。
(参考文献3)角尾衣未留,宮本賢一,小野順貴,嵯峨山茂樹,“調波音・打楽器音分離手法を用いた音楽音響信号からのリズム特徴量の抽出”,日本音響学会春季研究発表会講演集,Mar.2008,pp.905-906.
(参考文献4)角尾衣未留,小野順貴,嵯峨山茂樹,“リズムマップ:音楽音響信号からの単位リズムパターンの抽出と楽曲構造の解析”,情報処理学会研究報告,Aug.2008,vol.2008-MUS-76,no.25,pp.149-154.
(参考文献5)角尾衣未留,小野順貴,嵯峨山茂樹,“和声境界を考慮した単位リズムパターンの抽出に基づく音楽音響信号の小節境界推定”,日本音響学会秋季研究発表会講演集,Sep.2009,no.3-5-10,pp.897-898.
(iii)行為が「手拍手」であり、データが対象映像信号に重畳して表示される既に入力済みの他のテキスト情報及びそのメタデータの場合
例えば、タイミング検出部120は、入力済みの他のテキスト情報の中から、キー入力検出部110で検出されたテキスト情報の意味する行為と同じ行為を意味する他のテキスト情報を抽出する。例えば、図示しない記憶部(
図3参照)を参照して、タイミング検出部120は、受け取った入力済みの他のテキスト情報と、記憶部に記憶され、キー入力検出部110で検出されたテキスト情報の意味する行為に対応するテキスト情報とが一致するか否かを判定し、一致する場合には、その表示時刻とを、抽出する。
【0024】
タイミング検出部120は、抽出した表示時刻の統計量に基づいて基準タイミングを求める。例えば、抽出した表示時刻を用いて、所定の時間区間(例えば、動画がミュージックビデオであり、曲のテンポが148BPM(Beats per Minutes)の場合、一拍の間隔は405ms程度なので、所定の時間区間を405msとする)毎に、時間区間毎の代表値(平均値、最頻値、最小値及び最大値等の複数の表示時刻を代表する何らかの値)を求め、基準タイミングとして検出する。例えば、抽出した表示時刻を用いて、ヒストグラムを作成し、多数決により基準タイミングを求める。つまり、最頻値を基準タイミングとする。
【0025】
(タイミングに揺らぎを与える方法)
拍手のタイミングにゆらぎを与えてもよい(参考文献1参照)。
【0026】
例えば、(iii)の場合、抽出した表示時刻を用いて、所定の時間区間毎に、表示時刻の平均値と分散とを求め、その平均値と分散とを持つガウス分布に従う乱数を基準タイミングとしてもよい。この方法により、拍手のタイミングにゆらぎを与えることができ、より自然なタイミングで所定の行動に対応するテキスト情報を表示することができる。
【0027】
なお、同様の方法により、分散を求め、(i),(ii)の方法と組合せてもよい。例えば、(i),(ii)の方法で基準タイミングを求め、その基準タイミングを中心として、求めた分散を持つガウス分布に従う乱数を新たな(最終的に用いる)基準タイミングとする。このような方法により、より自然なタイミングで所定の行動に対応するテキスト情報を表示することができる。
【0028】
また、予め手拍子を行う際に一般的に生じる分散の値を求めておき、その分散に基づき、基準タイミングを求めてもよい。例えば、(i),(ii),(iii)の方法で基準タイミングを求め、その基準タイミングを中心として、手拍子を行う際に一般的に生じる分散を持つガウス分布に従う乱数を新たな(最終的に用いる)基準タイミングとする。
【0029】
(行為が「手拍子」以外の場合について)
なお、データが(iii)対象映像信号に重畳して表示される既に入力済みの他のテキスト情報及びそのメタデータの場合には、行為が「手拍子」以外の行為であっても容易に適用することができる。例えば、行為が「拍手」または「笑い」の場合、所定の時間区間を一連の行為「拍手」または「笑い」が、継続しうる最大の時間に設定する。例えば、何らかの事象に対して、「拍手」を送るのは、長くとも30秒程度であろうと想定される場合、最初に、「拍手」を意味する他のテキスト情報が表示されてから1分以内に表示される「拍手」を意味する他のテキスト情報から代表値を求め、基準タイミングとして検出する。前述の方法により「拍手」や「笑い」のタイミングにゆらぎを与えてもよい。
【0030】
ただし、初めて対象映像信号を配信する場合(対象映像信号にテキスト情報が付加されていない場合)、または、ビデオカメラで収録した動画をリアルタイムで配信する場合は、対象映像信号に既に入力済みの他のテキスト情報がないので、(iii)を用いることはできない。
【0031】
(i)対象映像信号、または、(ii)対象音響信号から「手拍子」以外の行為の基準タイミングを検出する方法としては、例えば、予め所定の行為(例えば「拍手」「笑い」)を撮影した映像信号または音響信号から特徴量を抽出し、図示しない記憶部に記憶しておく。さらに、動画配信サーバ92から受け取った(i)対象映像信号、または、(ii)対象音響信号から特徴量を取り出し、記憶部に記憶されている特徴量との類似度を求め、類似度が閾値以上となる場合に、所定の行為が行われていると判断し、代表値を求め、基準タイミングとして検出する。例えば、既存の顔認証技術を応用し、(i)対象映像信号から笑顔を検出し、検出した時刻から「笑い」の基準タイミングを求めてもよい。また、例えば、動画圧縮用の特徴量である動き補償ベクトル(参考文献6参照)を利用してもよい。
(参考文献6)村上篤道、浅井光太郎、関口俊一、「高効率映像符号化技術 HEVC/H.265とその応用」、オーム社、2013年、p.20-28,125-132
予め「拍手」を撮影した映像信号を圧縮符号化して動き補償ベクトルの時系列を取得し、図示しない記憶部に記憶しておく。さらに、動画配信サーバ92から受け取った(i)対象映像信号を圧縮符号化して動き補償ベクトルの時系列を取得し(そもそも(i)対象映像信号が圧縮符号化されているものであれば動き補償ベクトルが含まれるため、それをそのまま利用すればよい)、記憶部に記憶されている動き補償ベクトルの時系列との類似度を求めればよい。
【0032】
<補正部130>
補正部130は、所定の行為を意味するテキスト情報txt
in(q)及びそのテキスト情報の入力時刻t
in(q)を含むメタデータと、基準タイミングt
out(s)とを受け取り、キー入力検出部110で検出されたテキスト情報を表示部に表示するためのタイミングを、基準タイミングt
out(s)に基づき補正し(S130)、テキスト情報txt
in(q)とそのテキスト情報を表示するためのタイミングt
out(q)を含むメタデータとを動画配信サーバ92に出力する。例えば、S個のt
out(s)の中から最もt
in(q)に近いt
out(s)を、テキスト情報txt
in(q)を表示するためのタイミングt
out(q)とする(t
out(q)←t
out(s))。例えば、テキスト情報txt
in(q)が「8」の場合の例を
図4に示す。
【0033】
なお、動画配信サーバ92は、対象映像信号にテキスト情報を重畳して出力する。動画配信サーバ92は、テキスト情報txt
in(q)またはtxt
in(r)を、それぞれタイミングt
out(q)または入力時刻t
in(r)で視聴者端末91の表示部に表示されるように、対象映像信号とともに配信する。例えば、テキスト情報txt
in(p)がタイミングt
out(q)または入力時刻t
in(r)に表示部の右端から表示され、左端に向かって、移動し、左端から消えていく場合、補正されていない場合(入力時刻t
in(r)に表示)の例を
図5に示し、補正されている場合(タイミングt
out(q)に表示)の例を
図6に示す。
【0034】
<タイミングt
out(q)の適用時期について>
なお、動画配信サーバ92は、テキスト情報txt
in(q)をタイミングt
out(q)で視聴者端末91の表示部に表示されるように、対象映像信号とともに配信するタイミングとして二つのタイミング考えられる。
【0035】
(1)視聴者がテキスト情報txt
in(q)を入力した際、その再生時においては、テキスト情報txt
in(q)を入力時刻t
in(q)で視聴者端末91の表示部に表示されるように、対象映像信号とともに配信する。そして、動画配信サーバ92は、動画データベース内に、対象映像信号とともにテキスト情報txt
in(q)と(入力時刻t
in(q)ではなく)タイミングt
out(q)とを格納しておき、次の再生時には、テキスト情報txt
in(q)をタイミングt
out(q)で視聴者端末91の表示部に表示されるように、対象映像信号とともに配信する。
【0036】
(2)視聴者がテキスト情報txt
in(q)を入力した際、その再生時において、テキスト情報txt
in(q)をタイミングt
out(q)で視聴者端末91の表示部に表示されるように、対象映像信号とともに配信する。この場合、タイミングt
out(q)と入力時刻t
in(q)との大小関係に応じて配信方法が異なる。
【0037】
(2-A)タイミングt
out(q)が入力時刻t
in(q)よりも遅い場合には、テキスト情報txt
in(q)をタイミングt
out(q)で表示部に表示されるように、表示のタイミングを遅らせて、対象映像信号とともに配信すればよい。
【0038】
(2-B)タイミングt
out(q)が入力時刻t
in(q)よりも早い場合には、以下の方法により、配信する。
【0039】
(2-B-1)例えば、
図5及び
図6のように、テキスト情報txt
in(q)の表示方法が時間の経過を表す場合には、その時間の経過を利用し、テキスト情報txt
in(q)がまるでタイミングt
out(q)で表示されたように、対象映像信号とともに配信する。例えば、
図6の場合、タイミングt
out(q)が入力時刻t
in(q)よりも早いので、t=t
out(q)のとき(
図6の一番の上の図)、動画配信サーバ92は、テキスト情報txt
in(q)を受け取っていないため、テキスト情報txt
in(q)を表示されるように、配信することができない。テキスト情報txt
in(q)を受け取ったタイミング(入力時刻t=t
in(q))で、仮に、タイミングt
out(q)で視聴者端末91の表示部に表示されていた場合、t=t
in(q)においてテキスト情報txt
in(q)が表示される位置にテキスト情報txt
in(q)を表示する。つまり、
図6の一番の上の図から
図6の真ん中の図までのテキスト情報txt
in(q)の移動(遷移)を表示せずに、t=t
in(q)において、突然、テキスト情報txt
in(q)を
図6の真ん中の図のように表示し、
図6の一番の下の図までテキスト情報txt
in(q)の移動させる。なお、この場合、動画配信サーバ92は、動画データベース内に、対象映像信号とともにテキスト情報txt
in(q)とタイミングt
out(q)とを格納しておき、次の再生時には、テキスト情報txt
in(q)をタイミングt
out(q)で視聴者端末91の表示部に表示されるように、対象映像信号とともに配信する。
【0040】
(2-B-2)また、テキスト情報が示す所定の行為が、手拍子などの周期的な行為の場合には、取得したテキスト情報txt
in(q)を次の周期で表示する。つまり、テキスト情報txt
in(q)をタイミングt
out(q+1)で視聴者端末91の表示部に表示されるように、対象映像信号とともに配信する。なお、この場合、動画配信サーバ92は、動画データベース内に、対象映像信号とともにテキスト情報txt
in(q)とタイミングt
out(q)とを格納してもよいし、テキスト情報txt
in(q)とタイミングt
out(q+1)とを格納してもよい。次の再生時には、テキスト情報txt
in(q)をタイミングt
out(q)またはタイミングt
out(q+1)で視聴者端末91の表示部に表示されるように、対象映像信号とともに配信する。
【0041】
<効果>
このような構成により、テキスト情報を映像に重畳して表示する際のタイミングを、映像に合わせて補正することができる。例えば、楽曲のテンポに合わせる場合には、テキスト情報の表示のタイミングを合わせることで、視聴者の一体感を向上させることができる。
【0042】
<変形例>
本実施形態では、タイミング補正システム100を視聴者端末91または動画配信サーバ92とは別装置として構成したが、視聴者端末91または動画配信サーバ92に組み込まれる構成としてもよい。また、タイミング補正システム100は、キー入力検出部110と、タイミング検出部120と、補正部130とを含み、独立した装置として説明したが、各部が視聴者端末91または動画配信サーバ92に組み込まれる構成としてもよい。例えば、キー入力検出部110を視聴者端末91に組み込み、タイミング検出部120と補正部130とを動画配信サーバ92に組み込む構成としてもよい。
【0043】
また、動画配信サーバ92は、テキスト情報を付加せずに動画のみを配信するサーバであってもよい。その場合には、タイミング補正システム100においてテキスト情報用のデータベースを備え、テキスト情報を付加すればよい。
【0044】
本実施形態では、視聴者によって入力され、対象映像信号に重畳して表示される情報としてテキスト情報の例を示したが、他の視覚情報であってもよい。ここで、「視覚情報」とは、表示部を介して視覚的に認識可能な情報であって、例えば、文字、図形若しくは記号若しくはこれらの結合又はこれらと色彩との結合である。また、静止画に限らず、動く画像であってもよい。例えば、(1)本実施形態のように、「笑い」や「拍手」等の所定の行為を意味するテキスト情報(例えば「w」や「8」等)、(2)テキスト情報以外の「笑い」や「拍手」等の所定の行為を意味し、識別するためのコンピュータ上のビット情報、(3)顔文字、絵文字等、通常のテキスト情報で無いもの。例えば、キャリアの異なる携帯電話間で共通絵文字(参考文献7参照)、(4)アスキーアート等,全体としてはテキスト情報とテキスト情報の配置情報を用いた絵のようになっているもの(参考文献8参照)、(5)上述の(1)〜(4)に対応するネットスラング。例えば、「笑い」を意味するテキスト情報「wwwww…」に対して「草生えた」等のネットスラングがある。
(参考文献7)「docomo/au共通絵文字」、株式会社NTTドコモ、[online]、[平成27年2月9日検索]、インターネット<URL: https://www.nttdocomo.co.jp/service/developer/smart_phone/make_contents/pictograph/>
(参考文献8)「アスキーアート」、[online]、2015年2月2日、ウィキペディア、[平成27年2月9日検索]、インターネット<URL: http://ja.wikipedia.org/wiki/%E3%82%A2%E3%82%B9%E3%82%AD%E3%83%BC%E3%82%A2%E3%83%BC%E3%83%88>
【0045】
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
【0046】
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
【0047】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
【0048】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
【0049】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0050】
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。