(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-11-11
(45)【発行日】2022-11-21
(54)【発明の名称】再生制御装置、プログラムおよび再生制御方法
(51)【国際特許分類】
G10L 19/00 20130101AFI20221114BHJP
【FI】
G10L19/00 312E
G10L19/00 312F
(21)【出願番号】P 2021513034
(86)(22)【出願日】2019-04-08
(86)【国際出願番号】 JP2019015253
(87)【国際公開番号】W WO2020208668
(87)【国際公開日】2020-10-15
【審査請求日】2021-10-04
(73)【特許権者】
【識別番号】315017409
【氏名又は名称】AlphaTheta株式会社
(74)【代理人】
【識別番号】110000637
【氏名又は名称】特許業務法人樹之下知的財産事務所
(72)【発明者】
【氏名】石井 祐多
(72)【発明者】
【氏名】香田 貫太
(72)【発明者】
【氏名】長谷川 明秀
(72)【発明者】
【氏名】渡辺 実
(72)【発明者】
【氏名】宮田 英輝
【審査官】山下 剛史
(56)【参考文献】
【文献】特開平3-239290(JP,A)
【文献】特開2016-80908(JP,A)
【文献】特開2013-218406(JP,A)
【文献】特開2001-154665(JP,A)
【文献】特開平6-242788(JP,A)
【文献】国際公開第99/12153(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00
G10H 1/00
G10G 1/00
G10K 15/04
(57)【特許請求の範囲】
【請求項1】
楽曲内の再生位置情報に対応付けられた音声データ、および前記再生位置情報に対応付けられたテキスト関連データを取得するデータ取得部と、
前記楽曲の制御に対する操作を示す操作信号を取得する操作信号取得部と、
前記操作信号に応じて、前記再生位置情報によって特定される前記楽曲内の区間に対応付けられた前記音声データを加工する音声データ加工部と、
前記テキスト関連データに基づいて文字画像を含む画像データを生成し、前記再生位置情報および前記操作信号に基づいて前記区間の歌詞を表示する前記文字画像を加工する画像データ生成部と、
前記加工された音声データと前記画像データとを出力するデータ出力部と
を備える再生制御装置。
【請求項2】
前記操作は、前記区間の繰り返し再生を含み、
前記画像データ生成部は、前記繰り返しの回数に応じて前記文字画像を複製する、請求項1に記載の再生制御装置。
【請求項3】
前記複製された文字画像はそれぞれ異なる態様で表示される、請求項2に記載の再生制御装置。
【請求項4】
前記操作は、前記区間の音声に所定の周波数帯域のフィルタをかけることを含み、
前記画像データ生成部は、前記文字画像の高さ方向の領域のうち前記所定の周波数帯域に対応する領域を加工する、請求項1から請求項3のいずれか1項に記載の再生制御装置。
【請求項5】
前記操作は、前記区間の音声に所定の遅延時間で残響音を付加することを含み、
前記画像データ生成部は、前記文字画像の加工の程度は前記残響音のレベルまたは前記遅延時間の長さに応じて決定する、請求項1から請求項4のいずれか1項に記載の再生制御装置。
【請求項6】
請求項1から請求項5のいずれか1項に記載の再生制御装置としてコンピュータを機能させるように構成されたプログラム。
【請求項7】
楽曲内の再生位置情報に対応付けられた音声データ、および前記再生位置情報に対応付けられたテキスト関連データを取得するステップと、
前記楽曲の制御に対する操作を示す操作信号を取得するステップと、
前記操作信号に応じて、前記再生位置情報によって特定される前記楽曲内の区間に対応付けられた前記音声データを加工するステップと、
前記テキスト関連データに基づいて文字画像を含む画像データを生成し、前記再生位置情報および前記操作信号に基づいて前記区間の歌詞を表示する前記文字画像を加工するステップと、
前記加工された音声データと前記画像データとを出力するステップと
を含む再生制御方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、再生制御装置、プログラムおよび再生制御方法に関する。
【背景技術】
【0002】
例えば、音楽プレーヤーや、各種の携帯端末を用いて楽曲を再生するときに、再生に同期して当該楽曲の歌詞を表示することは一般的に行われている。例えば、特許文献1には、オーディオファイルの再生時にテキストを同期化させて出力できるようにするための同期信号をオーディオファイルに埋め込むことによって、そのような表示を可能にする技術が記載されている。また、特許文献2には、クライアントが既に音楽ファイルを所有している場合に音楽データの取得費用が重複して発生することのない同期歌詞配信システムが記載されている。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2004-318162号公報
【文献】特開2008-112158号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
例えば上記のような技術を用いて楽曲に同期したテキストを表示するにあたり、例えば楽曲の進行に合わせて歌詞を表示するテキストの色を変えたり、テキストの色や透過性、画面内での表示位置を予め設定したり、楽曲内の再生位置が変更されたときに変更後の再生位置に対応するテキストに表示を変更したり、といった形で演出効果を加えることは従来行われてきた。
【0005】
しかしながら、これらの演出は楽曲が順方向に通常の速度で再生されることを前提にしたものであるため、例えばDJ(Disc Jockey)やVJ(Visual Jockey)のプレイで楽曲の再生とともに画像を表示する場合には、例えばプレイのリアルタイム感を表現するのに必ずしも十分とはいえなかった。
【0006】
そこで、本発明は、楽曲の再生とともに画像を表示する場合に、プレイのリアルタイム感を表現する演出効果を加えることが可能な再生制御装置、プログラムおよび再生制御方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明のある観点によれば、楽曲内の再生位置情報に対応付けられた音声データ、および再生位置情報に対応付けられたテキスト関連データを取得するデータ取得部と、楽曲の制御に対する操作を示す操作信号を取得する操作信号取得部と、操作信号に応じて、再生位置情報によって特定される楽曲内の区間に対応付けられた音声データを加工する音声データ加工部と、テキスト関連データに基づいて文字画像を含む画像データを生成し、再生位置情報および操作信号に基づいて区間の歌詞を表示する文字画像を加工する画像データ生成部と、加工された音声データと画像データとを出力するデータ出力部とを備える再生制御装置が提供される。
【0008】
本発明の別の観点によれば、上記の再生制御装置としてコンピュータを機能させるように構成されたプログラムが提供される。
【0009】
本発明のさらに別の観点によれば、楽曲内の再生位置情報に対応付けられた音声データ、および再生位置情報に対応付けられたテキスト関連データを取得するステップと、楽曲の制御に対する操作を示す操作信号を取得するステップと、操作信号に応じて、再生位置情報によって特定される楽曲内の区間に対応付けられた音声データを加工するステップと、テキスト関連データに基づいて文字画像を含む画像データを生成し、再生位置情報および操作信号に基づいて区間の歌詞を表示する文字画像を加工するステップと、加工された音声データと画像データとを出力するステップとを含む再生制御方法が提供される。
【図面の簡単な説明】
【0010】
【
図1】本発明の一実施形態に係る再生制御装置の概略的な機能構成を示すブロック図である。
【
図2】本発明の一実施形態に係る再生制御方法を示すフローチャートである。
【
図3】本発明の一実施形態で表示される画像の第1の例を示す図である。
【
図4】本発明の一実施形態で表示される画像の第2の例を示す図である。
【
図5】本発明の一実施形態で表示される画像の第3の例を示す図である。
【発明を実施するための形態】
【0011】
以下に添付図面を参照しながら、本発明の好適な実施形態について詳細に説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
【0012】
図1は、本発明の一実施形態に係る再生制御装置の概略的な機能構成を示すブロック図である。
図1に示されるように、再生制御装置100は、データ取得部110と、操作信号取得部120と、音声データ加工部130と、画像データ生成部140と、データ出力部150とを含む。上記の各部の機能は、例えばコンピュータのハードウェア構成を備える再生制御装置において、プロセッサがプログラムに従って動作することによって実現される。以下、各部の機能についてさらに説明する。
【0013】
データ取得部110は、楽曲の音声データ111、および楽曲の歌詞テキストを表示するためのテキスト関連データ112を取得する。より具体的には、データ取得部110は、記憶装置113から音声データ111およびテキスト関連データ112を読み込む。記憶装置113は再生制御装置100とは異なる装置に備えられていてもよく、その場合データ取得部110は有線または無線の通信によって音声データ111およびテキスト関連データ112を受信する。なお、音声データ111とテキスト関連データ112とは、必ずしも同一の記憶装置113に格納されていなくてもよく、それぞれ異なる記憶装置に格納されていてもよい。例えば、データ取得部110は、再生制御装置100が備える記憶装置に格納された音声データ111を読み込む一方で、テキスト関連データ112を外部装置から受信してもよい。
【0014】
本実施形態において、音声データ111およびテキスト関連データ112は、楽曲内の再生位置情報であるタイムスタンプ111Tに対応付けられる。音声データ111およびテキスト関連データ112が共通のタイムスタンプ111Tに対応付けられていることによって、後述するように画像データ生成部140が楽曲内の特定の区間に対応するテキスト関連データ112を特定し、当該区間における楽曲の歌詞を表示する文字画像を含む画像データを生成することができる。テキスト関連データ112は、例えばテキストデータ、またはテキストの画像データを含む。テキスト関連データ112は、例えばフレーズ単位、または単語単位で楽曲のタイムスタンプ111Tに対応付けられている。
【0015】
操作信号取得部120は、楽曲の制御に対する操作を示す操作信号121を取得する。操作信号121は、例えば、データ出力部150が音声データ111および画像データ141を出力することによって楽曲および画像が再生されている間に、ユーザが操作部122のボタン、パッド、スイッチ、ノブまたはジョグダイヤルなどを操作することによって生成される。操作部122は再生制御装置100とは異なる装置に備えられていてもよく、その場合操作信号取得部120は有線または無線の通信によって操作信号121を受信する。本実施形態において、楽曲の制御に対する操作は、例えばジョグダイヤルのスクラッチ操作やCueポイントへのジャンプなどによる楽曲内の特定の区間の繰り返し再生、楽曲内の特定の区間の音声にハイパスフィルタやローパスフィルタのような所定の周波数帯域のフィルタをかけること、および楽曲内の特定の区間の音声にディレイやリバーブのように所定の遅延時間で残響音を付加することを含む。
【0016】
音声データ加工部130は、操作信号取得部120が取得した操作信号121に応じて、楽曲内の区間に対応付けられた音声データ111を加工する。ここで、加工が実行される区間は、音声データ111のタイムスタンプ111Tによって特定される。例えばスクラッチ操作による繰り返し再生の場合、スクラッチが開始された時点のタイムスタンプ111Tが区間の終点になり、終点からスクラッチの操作量に対応する時間だけ戻った時点のタイムスタンプ111Tが区間の始点になる。Cueポイントへのジャンプによる繰り返し再生の場合、予め指定されているCueポイントが区間の始点になり、操作部122への操作によってジャンプが指示された時点のタイムスタンプ111Tが区間の終点になる。これらの場合において、音声データ加工部130は、上記の始点から終点までの区間が繰り返し再生されるように音声データ111を加工する。また、例えばフィルタや残響音の場合、操作部122においてフィルタや残響音をONにする操作が取得された時点が区間の始点になり、OFFにする操作が取得された時点が区間の終点になる。音声データ加工部130は、上記の始点から終点までの区間で音声データ111にフィルタをかけたり、残響音を付加したりする。音声データ加工部130は、例えばプログラムに従って、また操作部122のノブやスイッチなどによって予め設定されているパラメータに従って、上記のような音声データ111の加工を実行する。
【0017】
画像データ生成部140は、データ取得部110が取得したテキスト関連データ112に基づいて、楽曲の歌詞を表示する文字画像を含む画像データ141を生成する。ここで、画像データ141は、時系列で表示される複数の画像、すなわち映像を表示するためのデータであってもよい。より具体的には、例えば、画像データ生成部140は、テキスト関連データ112に含まれるテキストデータに基づいて文字画像を生成し、楽曲の進行に合わせて変化する文字画像と背景画像とを合成した画像データ141を生成する。あるいは、画像データ生成部140は、テキスト関連データ112に含まれるテキストの画像データを文字画像として利用してもよい。なお、背景画像、すなわち楽曲の歌詞を表示する文字画像以外の画像の要素を表示するための画像データは、例えばテキスト関連データ112と同様に楽曲のタイムスタンプ111Tに関連付けられていてもよいし、楽曲のタイムスタンプ111Tに関連付けられていなくてもよい。画像における文字画像の位置、大きさ、および色は、例えばテキスト関連データ112によって予め指定されていてもよいし、操作部122のノブやスイッチなどによって設定されているパラメータに従って決定されてもよい。以下で説明するように、画像データ生成部140は、音声データ加工部130によって音声データ111の加工が実行された区間の歌詞を表示する文字画像の位置、大きさ、および色などを、加工の種類や程度に応じて予め決定されたものから変更してもよい。
【0018】
本実施形態において、画像データ生成部140は、画像データ141に含まれる文字画像を、テキスト関連データ112が対応付けられている楽曲のタイムスタンプ111Tと、操作信号取得部120が取得した操作信号121とに基づいて加工する。具体的には、画像データ生成部140は、音声データ加工部130によって音声データ111が加工された楽曲内の区間の歌詞を表示する文字画像を加工する。例えば、画像データ生成部140は、楽曲内の特定の区間の繰り返し再生を示す操作信号121が取得された場合に、繰り返し再生される区間において繰り返しの回数に応じて文字画像を複製する。この場合、複製された文字画像は、それぞれ異なる態様で表示されてもよい。また、例えば、画像データ生成部140は、楽曲内の特定の区間の音声に所定の周波数帯域のフィルタをかけることを示す操作信号121が取得された場合に、文字画像の高さ方向の領域のうち、フィルタがかけられる周波数帯域に対応する領域を加工してもよい。さらに、例えば、画像データ生成部140は、楽曲内の特定の区間の音声に残響音を付加することを示す操作信号121が取得された場合に、残響音のレベルまたは遅延時間に応じて文字画像を加工してもよい。なお、文字画像の加工のさらなる例については後述する。
【0019】
データ出力部150は、音声データ加工部130によって加工された音声データ111Aと、画像データ生成部140によって生成された画像データ141を出力する。データ出力部150が、再生制御装置100に直接的または間接的に接続されたスピーカーやヘッドフォンなどの音声出力部151に音声データ111Aを出力することによって、楽曲が再生される。また、データ出力部150が、再生制御装置100に直接的または間接的に接続されたディスプレイやプロジェクタなどの表示部152に画像データ141を出力することによって、画像が表示される。なお、操作信号取得部120が楽曲の制御に対する操作を示す操作信号を取得していない間、音声データ加工部130は音声データ111を加工せず、画像データ生成部140は文字画像を加工しない。この場合、データ出力部150は、データ取得部110が取得した音声データ111と、画像データ生成部140が生成した加工されていない文字画像を含む画像データ141とを出力する。
【0020】
ここで、画像データ141について、画像データ生成部140は、音声データ111による楽曲の再生に同期して画像データ141を生成してもよい。この場合、操作信号取得部120が楽曲の制御に対する操作を示す操作信号を取得すると、画像データ生成部140は、テキスト関連データ112に基づいて、最初から加工された文字画像を含む画像データ141を生成する。あるいは、画像データ生成部140は、テキスト関連データ112に基づいて、楽曲のタイムスタンプ111Tに対応付けられた画像データ141を予め生成してもよい。この場合、画像データ141が作成された時点では文字画像は加工されておらず、操作信号取得部120が楽曲の制御に対する操作を示す操作信号を取得した時点で、画像データ生成部140が画像データ141に含まれる対象の区間の文字画像を加工する。
【0021】
図2は、本発明の一実施形態に係る再生制御方法を示すフローチャートである。
図2に示された例では、まず、データ取得部110が音声データ111およびテキスト関連データ112を取得する(ステップS101)。より具体的には、例えば、データ取得部110は、操作部122への操作によって再生する楽曲が決定されたときに、楽曲の音声データ111およびテキスト関連データ112を読み込み、または受信する。データ取得部110は、楽曲全体の音声データ111およびテキスト関連データ112を一括して取得してもよいし、楽曲の再生に合わせて音声データ111およびテキスト関連データ112を部分的に順次取得してもよい。
【0022】
楽曲の再生が開始されると(ステップS103)、操作信号取得部120が、楽曲の制御に対する操作を示す操作信号121を待ち受ける。操作信号121が取得されると(ステップS105のYES)、音声データ加工部130が操作信号121に応じて楽曲内の区間の音声データ111を加工する(ステップS107)。さらに、画像データ生成部140が、音声データ111が加工される区間の歌詞を表示する文字画像を加工し(ステップS109)、文字画像を含む画像データ141を生成する(ステップS111)。なお、音声データ111の加工(ステップS107)と、文字画像を含む画像データ141の生成(ステップS109,S111)とは、時間的に並行して実行されてもよい。
【0023】
楽曲の再生中において、データ出力部150は、音声データ111(加工された音声データ111A)および文字画像を含む画像データ141を出力する(ステップS113)。なお、楽曲の制御に対する操作を示す操作信号121が取得されなかった場合(ステップS105のNO)、ステップS113において、データ出力部150は、加工されていない音声データ111と、加工されていない文字画像を含む画像データ141とを出力する。以上の処理を、所定の時間間隔で、楽曲の再生が終了するまで繰り返す(ステップS115)。
【0024】
以上で説明したような本発明の一実施形態によれば、楽曲の再生中の操作部122に対するユーザの操作によって、音声データ加工部130が音声データ111を加工するだけではなく、画像データ生成部140によって生成される画像において、音声データ111が加工される区間の歌詞を表示する文字画像が加工される。このような加工によって、楽曲とともに再生される画像に、例えばDJ(Disc Jockey)やVJ(Visual Jockey)のプレイのリアルタイム感を十分に表現した演出効果を加えることができる。
【0025】
(文字画像の加工の具体的な例)
図3は、本発明の一実施形態で表示される画像の第1の例を示す図である。図示された例では、楽曲のタイムスタンプ「00’10”01」の時点で操作信号取得部120が取得したスクラッチやCueポイントへのジャンプの操作によって、タイムスタンプ「00’09”29」まで再生位置が戻されている。この場合、音声データ加工部130は、既に1回再生されたタイムスタンプ「00’09”29」から「00’10”01」までの区間が繰り返して再生されるように(2回目の再生)、音声データ111を加工する。ここで、テキスト関連データ112では、タイムスタンプ「00’09”35」に「Now the sun is shining」という歌詞が対応付けられ、タイムスタンプ「00’09”45」に「and the sky is blue.」という歌詞が対応付けられている。画像データ生成部140は、既に1回目の再生時に上記の歌詞を表示する文字画像を含む画像データ141を生成しているが、2回目の再生時には1回目の再生時に表示された文字画像を残したまま、新たに上記の歌詞を表示する文字画像を含む画像データ141を生成する。
【0026】
ここで、
図3に示された例では、画像500が、1回目の再生時に表示された文字画像501と、2回目の再生時に表示された文字画像502A,502Bとを含む。この例において、画像データ生成部140は、1回の繰り返し再生ごとに2組の文字画像を複製するように設定されている。さらなるスクラッチやCueポイントへのジャンプの操作によって同じ区間で3回目の再生が実行される場合、さらに2組の文字画像が複製されてもよいし、3回目以降は1回の繰り返し再生ごとに1組の文字画像が複製されてもよい。図示されているように、複製された文字画像502A,502Bは、元の文字画像501とは位置をずらして表示される。また、複製された文字画像502A,502Bは、元の文字画像501とは異なる大きさや色で表示されてもよい。
【0027】
図4は、本発明の一実施形態で表示される画像の第2の例を示す図である。図示された例では、楽曲のタイムスタンプ「00’09”29」の時点で操作信号取得部120がハイパスフィルタをONにする操作信号121を取得し、タイムスタンプ「00’10”01」の時点でハイパスフィルタをOFFにする操作信号121を取得している。この場合、音声データ加工部130は、タイムスタンプ「00’09”29」から「00’10”01」までの区間において、楽曲の音声にハイパスフィルタをかける。テキスト関連データ112においてタイムスタンプに対応付けられた歌詞は、
図3の例と同様である。画像データ生成部140は、ハイパスフィルタによって音声データ111が加工される上記の区間に含まれる歌詞、「Now the sun is shining」および「and the sky is blue.」について、
図4に示された例の画像600のように、文字画像601の上側の領域601Aを濃い色で、下側の領域601Bを薄い色で表示する。
【0028】
他の例において、画像データ生成部140は、文字画像601に上側で濃く、下側で薄くなるようなグラデーションを付けてもよい。画像データ生成部140は、下側の領域601Bを透明(非表示)にしてもよい。あるいは、画像データ生成部140は、色の変化とともに、または色の変化の代わりに、文字画像601の上側の領域601Aと下側の領域601Bとの間で大きさを変化させ、上側の領域601Aをより大きく、下側の領域601Bをより小さく表示してもよい。これらの場合において、画像データ生成部140は、文字画像601の高さ方向の領域のうちフィルタの周波数帯域に対応する領域、具体的にはハイパスフィルタによって通過させられる高周波数帯域に対応する上側の領域601A、またはハイパスフィルタによってカットされる低周波数帯域に対応する下側の領域601Bを加工している。
【0029】
図5は、本発明の一実施形態で表示される画像の第3の例を示す図である。図示された例では、楽曲のタイムスタンプ「00’09”47」の時点で操作信号取得部120がディレイをONにする操作信号121を取得し、タイムスタンプ「00’09”50」の時点でディレイをOFFにする操作信号121を取得している。あるいは、音声データ加工部130はディレイの持続時間を3秒間にするように設定されており、楽曲のタイムスタンプ「00’09”47」の時点で操作信号取得部120がディレイを実行する操作信号121を取得する。これらの場合、音声データ加工部130は、タイムスタンプ「00’09”47」から「00’09”50」までの区間において、楽曲の音声に所定の持続時間で残響音を付加する。ここで、テキスト関連データ112では上記の
図3および
図4の例とは異なり歌詞が単語単位でタイムスタンプに対応付けられており、タイムスタンプ「00’09”47」から「00’09”50」までの区間に対応付けられているのは「sky」「is」「blue」の各単語である。画像データ生成部140は、歌詞の中のこれらの単語について、
図5に示された例の画像700のように、文字画像701の輪郭をぼかす加工を実行する。
【0030】
さらに、図示された例では、ディレイをONにする操作の後、さらにディレイの残響音のレベルを上げる操作(例えば、操作部122のノブを回す操作)が実行されており、音声データ加工部130がこれらの操作による操作信号121に従って残響音のレベルを徐々に大きくした結果、残響音のレベルは歌詞「sky」の時点で最も小さく、「is」の時点でやや大きく、「blue」の時点でさらに大きくなっている。これに対応して、画像データ生成部140は、文字画像701のうち、歌詞「sky」を表示する文字画像701Aの輪郭をわずかにぼかし、「is」を表示する文字画像701Bの輪郭を中程度にぼかし、「blue」を表示する文字画像701Cの輪郭を大きくぼかす。このように、画像データ生成部140は、文字画像の加工の程度を、ディレイやリバーブの残響音のレベルまたは遅延時間の長さに応じて決定してもよい。同様に、音声データ111の他の種類の加工の場合も、画像データ生成部140は、音声データ111の加工の程度に応じて文字画像の加工の程度を決定してもよい。
【0031】
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範囲内において、各種の変形例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
【符号の説明】
【0032】
100…再生制御装置、110…データ取得部、111…音声データ、111A…音声データ、111T…タイムスタンプ、112…テキスト関連データ、113…記憶装置、120…操作信号取得部、121…操作信号、122…操作部、130…音声データ加工部、140…画像データ生成部、141…画像データ、150…データ出力部、151…音声出力部、152…表示部、500,600,700…画像、501,502A,502B,601,701,701A,701B,701C…文字画像。