(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024175437
(43)【公開日】2024-12-18
(54)【発明の名称】情報処理方法および情報処理装置
(51)【国際特許分類】
G10H 1/00 20060101AFI20241211BHJP
G06F 3/01 20060101ALI20241211BHJP
G06T 7/20 20170101ALI20241211BHJP
G06V 40/20 20220101ALI20241211BHJP
【FI】
G10H1/00 Z
G06F3/01 570
G06T7/20 300A
G06V40/20
【審査請求】未請求
【請求項の数】20
【出願形態】OL
(21)【出願番号】P 2023093228
(22)【出願日】2023-06-06
(71)【出願人】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】110000970
【氏名又は名称】弁理士法人 楓国際特許事務所
(72)【発明者】
【氏名】甲斐 繁
(72)【発明者】
【氏名】中村 吉就
(72)【発明者】
【氏名】大谷 明央
(72)【発明者】
【氏名】井芹 大智
(72)【発明者】
【氏名】藤島 琢哉
(72)【発明者】
【氏名】松田 遼
(72)【発明者】
【氏名】山川 颯人
(72)【発明者】
【氏名】須山 明彦
(72)【発明者】
【氏名】密岡 稜大
(72)【発明者】
【氏名】原 貴洋
(72)【発明者】
【氏名】鈴木 裕和
(72)【発明者】
【氏名】鈴木 俊太朗
【テーマコード(参考)】
5D478
5E555
5L096
【Fターム(参考)】
5D478CC22
5D478FF06
5D478FF07
5D478FF08
5D478FF24
5D478FF27
5D478HH12
5E555AA11
5E555AA61
5E555BA02
5E555BB02
5E555BC04
5E555BD06
5E555BE10
5E555CA02
5E555CA12
5E555CA18
5E555CA42
5E555CA47
5E555CB66
5E555DA21
5E555EA19
5E555FA00
5L096CA04
5L096HA04
5L096HA11
5L096JA11
5L096KA04
(57)【要約】
【課題】演奏等のパフォーマンスを阻害せずに遠隔地の演者間で高度なコミュニケーションを取ることができる情報処理方法を提供する。
【解決手段】情報処理方法は、第1演者の特定のジェスチャーを検出し、検出した前記特定のジェスチャーに基づいて、前記第1演者または第2演者のパフォーマンスに関連する関連情報を生成し、前記関連情報を前記第1演者の利用する第1端末から前記第2演者の利用する第2端末に送信する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
第1演者の特定のジェスチャーを検出し、
検出した前記特定のジェスチャーに基づいて、前記第1演者または第2演者のパフォーマンスに関連する関連情報を生成し、
前記関連情報を前記第1演者の利用する第1端末から前記第2演者の利用する第2端末に送信する、
情報処理方法。
【請求項2】
前記第1端末は、前記第1演者のパフォーマンスに係る第1信号を前記第2端末に送信し、
前記関連情報を前記第1信号よりも優先して前記第2端末に送信する、
請求項1に記載の情報処理方法。
【請求項3】
前記第1端末は、前記第1演者のパフォーマンスに係る第1信号を前記第2端末に送信し、
第3演者の利用する第3端末から前記第3演者のパフォーマンスに係る第3信号を前記第2端末に送信し、
前記第2端末において、前記関連情報に基づいて前記第1信号を優先して処理する、
請求項1に記載の情報処理方法。
【請求項4】
前記関連情報は、前記パフォーマンスのテンポに係るテンポ情報を含み、
前記テンポ情報を前記第1端末および前記第2端末で共有する、
請求項1に記載の情報処理方法。
【請求項5】
前記第1端末は、前記第1演者のパフォーマンスに係る第1信号を前記第2端末に送信し、
前記第2端末が、前記第1演者のジェスチャーを検出して前記関連情報を生成する、
請求項1に記載の情報処理方法。
【請求項6】
前記第1端末は、前記第1演者のパフォーマンスに係る第1信号を前記第2端末に送信し、
前記関連情報は、前記第2端末における前記第1信号の処理に関わる情報を含み、
前記第2端末は、前記関連情報に基づいて、前記第1信号を処理する、
請求項1に記載の情報処理方法。
【請求項7】
前記第1端末は、前記第1演者のパフォーマンスに係る第1信号を前記第2端末に送信し、
前記第2端末は、前記第2演者のパフォーマンスに係る第2信号を前記第1端末に送信し、
前記関連情報は、前記第1端末における前記第2信号の処理に関わる情報、および第2端末における前記第1信号の処理に関わる情報を含み、
前記第1端末は、前記関連情報に基づいて、前記第2信号を処理し、
前記第2端末は、前記関連情報に基づいて、前記第1信号を処理する、
請求項1に記載の情報処理方法。
【請求項8】
前記特定のジェスチャーは、前記第1演者の視線を含む、
請求項1乃至請求項7のいずれか1項に記載の情報処理方法。
【請求項9】
前記第1演者を撮影した画像を受け付けて、
前記画像から前記特定のジェスチャーを検出する、
請求項1乃至請求項7のいずれか1項に記載の情報処理方法。
【請求項10】
前記関連情報は、前記パフォーマンスの開始、停止、再開、または他の演者に対するアクションを含む、
請求項1乃至請求項7のいずれか1項に記載の情報処理方法。
【請求項11】
前記他の演者に対するアクションの案内情報を出力する、
請求項10に記載の情報処理方法。
【請求項12】
前記パフォーマンスに係る映像または音をデータとして記録し、
前記関連情報は、記録した前記データの時間情報を含む、
請求項1乃至請求項7のいずれか1項に記載の情報処理方法。
【請求項13】
前記第1端末または前記第2端末は、楽器である、
請求項1乃至請求項7のいずれか1項に記載の情報処理方法。
【請求項14】
第1演者の特定のジェスチャーを検出し、
検出した前記特定のジェスチャーに基づいて、前記第1演者のパフォーマンスに関連する関連情報を生成し、
前記関連情報を前記第1演者の利用する第1端末から第2演者の利用する第2端末に送信する、
プロセッサを備えた情報処理装置。
【請求項15】
前記プロセッサは、前記第1演者のパフォーマンスに係る第1信号を前記第2端末に送信し、
前記関連情報を前記第1信号よりも優先して前記第2端末に送信する、
請求項14に記載の情報処理装置。
【請求項16】
前記プロセッサは、前記第1演者のパフォーマンスに係る第1信号を前記第2端末に送信し、
第3演者の利用する第3端末のプロセッサは、前記第3演者のパフォーマンスに係る第3信号を前記第2端末に送信し、
前記第2端末のプロセッサは、前記関連情報に基づいて前記第1信号を優先して処理する、
請求項14に記載の情報処理装置。
【請求項17】
前記関連情報は、前記パフォーマンスのテンポに係るテンポ情報を含み、
前記テンポ情報を前記第1端末および前記第2端末で共有する、
請求項14に記載の情報処理装置。
【請求項18】
前記プロセッサは、前記第1演者のパフォーマンスに係る第1信号を前記第2端末に送信し、
前記第2端末のプロセッサは、前記第1演者のジェスチャーを検出して前記関連情報を生成する、
請求項14に記載の情報処理装置。
【請求項19】
前記プロセッサは、前記第1演者のパフォーマンスに係る第1信号を前記第2端末に送信し、
前記関連情報は、前記第2端末における前記第1信号の処理に関わる情報を含み、
前記第2端末のプロセッサは、前記関連情報に基づいて、前記第1信号を処理する、
請求項14に記載の情報処理装置。
【請求項20】
前記プロセッサは、前記第1演者のパフォーマンスに係る第1信号を前記第2端末に送信し、
前記第2端末のプロセッサは、前記第2演者のパフォーマンスに係る第2信号を前記第1端末に送信し、
前記関連情報は、前記第1端末における前記第2信号の処理に関わる情報、および第2端末における前記第1信号の処理に関わる情報を含み、
前記第1端末のプロセッサは、前記関連情報に基づいて、前記第2信号を処理し、
前記第2端末のプロセッサは、前記関連情報に基づいて、前記第1信号を処理する、
請求項14に記載の情報処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
この発明の一実施形態は、情報処理方法および情報処理装置に関する。
【背景技術】
【0002】
特許文献1には、第1パフォーマンスにおける、演者の身体の動きを検出し、演者に関連付けられるアバターオブジェクトを仮想空間に配置し、検出した演者の身体の動きに応じて、アバターオブジェクトに、第2パフォーマンスを実行させることが記載されている。
【0003】
特許文献2には、不特定多数のユーザがプロジェクタ等を用いて共通情報を表示する時に、ユーザジェスチャーを検知して、表示された共有情報に関連し、ユーザごとに異なる情報を表示することが記載されている。
【0004】
特許文献3には、楽譜データを表示し、楽譜データの任意の小節領域上で右方向へのタッチ位置の移動を検出したら演奏開始シーケンス小節、楽譜データの任意の小節領域上で左方向へのタッチ位置の移動を検出したら演奏終了シーケンス小節に決定することが記載されている。
【0005】
特許文献4には、ユーザのジェスチャーまたは演奏情報を入力し、入力した動作情報を解釈した結果に基づいて制御情報及びフィードバック情報を生成する。そして、制御情報により電子音楽装置を制御し、フィードバック情報により、ユーザに対して聴覚的、視覚的乃至物理的なフィードバックを行うことが記載されている。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2020-4388
【特許文献2】特開2016-201050
【特許文献3】特開2015-184420
【特許文献4】特開2007-4071
【発明の概要】
【発明が解決しようとする課題】
【0007】
演奏等のパフォーマンスでは、パフォーマンスに集中していて、手や口が離せないことがあり、コミュニケーションを取ることが難しい。
【0008】
演者が同じ空間に居る場合、目線、表情、ボディランゲージ等を用いて演奏者間でコミュニケーションを取る場合がある。しかし、遠隔地の演者間のセッションでは目線、表情、ボディランゲージ等を伝えるのは難しい。
本開示のひとつの態様は、演奏等のパフォーマンスを阻害せずに遠隔地の演者間で高度なコミュニケーションを取ることができる情報処理方法を提供することを目的とする。
【課題を解決するための手段】
【0009】
本発明の一実施形態に係る情報処理方法は、第1演者の特定のジェスチャーを検出し、検出した前記特定のジェスチャーに基づいて、前記第1演者または第2演者のパフォーマンスに関連する関連情報を生成し、前記関連情報を前記第1演者の利用する第1端末から前記第2演者の利用する第2端末に送信する。
【発明の効果】
【0010】
本発明の一実施形態によれば、演奏等のパフォーマンスを阻害せずに遠隔地の演者間で高度なコミュニケーションを取ることができる。
【図面の簡単な説明】
【0011】
【
図1】情報処理システムの構成を示すブロック図である。
【
図3】情報処理方法の動作を示すフローチャートである。
【
図4】変形例9に係る情報処理システムの構成図である。
【発明を実施するための形態】
【0012】
図1は、本実施形態に係る情報処理システムの構成図である。情報処理システムは、第1地点10に設置されたPC(パーソナルコンピュータ)1A、第2地点20に設置されたPC1B、および第3地点30に設置されたPC1Cを備える。
【0013】
第1地点10の第1演者3は、PC1Aに楽器4を接続する。第2地点20の第2演者5は、PC1Bに楽器6を接続する。第3地点30の第3演者7は、PC1Cにマイク8を接続する。
【0014】
本実施形態では一例として、楽器4はエレキギターであり、楽器6はエレキベースである。なお、本実施形態において、「演奏」とは楽器の演奏に限るものではなく、マイクを用いた歌唱も含む。
【0015】
図2は、PC1Aの構成を示すブロック図である。PC1Aは、汎用の情報処理装置である。PC1A、PC1B、およびPC1Cの主要構成は同じである。
図2では代表してPC1Aの構成を示す。本実施形態において、PC1Aは第1端末の一例であり、PC1BおよびPC1Cは第2端末の一例として説明する。
【0016】
PC1Aは、表示器31、ユーザI/F32、フラッシュメモリ33、プロセッサ34、RAM35、通信I/F36、スピーカ(SP)37、オーディオI/F38、およびカメラ50を備えている。
【0017】
表示器31は、例えばLED、LCDまたはOLED等からなり、種々の情報を表示する。ユーザI/F32は、表示器31のLCDまたはOLEDに積層されるタッチパネルである。あるいは、ユーザI/F32は、キーボードまたはマウス等であってもよい。ユーザI/F32がタッチパネルである場合、該ユーザI/F32は、表示器31とともに、GUI(Graphical User Interface)を構成する。
【0018】
通信I/F36は、ネットワークインタフェースを含み、ルータ(不図示)を介してインターネット等のネットワークに接続される。
【0019】
オーディオI/F38は、アナログオーディオ端子を有する。オーディオI/F38は、オーディオケーブルを介して楽器またはマイク等の音響機器に接続され、アナログ音信号を受け付ける。本実施形態では、PC1AのオーディオI/F38は、楽器4に接続され、楽器4から演奏音に係るアナログ音信号を受け付ける。PC1BのオーディオI/F38は、楽器6に接続され、楽器6から演奏音に係るアナログ音信号を受け付ける。PC1CのオーディオI/F38は、マイク8に接続され、マイク8から歌唱音に係るアナログ音信号を受け付ける。オーディオI/F38は、受け付けたアナログ音信号をデジタル音信号に変換する。また、オーディオI/F38は、デジタル音信号をアナログ音信号に変換する。SP37は、当該アナログ音信号に基づく音を再生する。
【0020】
カメラ50は、演者のパフォーマンスに係る映像信号を取得する。
【0021】
プロセッサ34は、CPU,DSP、あるいはSoC(System-on-a-Chip)等からなり、記憶媒体であるフラッシュメモリ33に記憶されているプログラムをRAM35に読み出して、PC1Aの各構成を制御する。フラッシュメモリ33は、本実施形態のプログラムを記憶している。
【0022】
プロセッサ34は、オーディオI/F38から受け付けたデジタル音信号を、オーディオパケットにエンコードして通信I/F36を介して他装置に送信する。また、プロセッサ34は、カメラ50から受け付けた映像信号を映像パケットにエンコードして通信I/F36を介して他装置に送信する。
【0023】
また、プロセッサ34は、通信I/F36を介して他装置から受信したオーディオパケットをデコードし、デコードしたデジタル音信号をオーディオI/F38に出力する。また、プロセッサ34は、通信I/F36を介して他装置から受信した映像パケットをデコードし、デコードした映像信号を表示器31に出力する。
【0024】
例えば、PC1Aのプロセッサ34は、楽器4の音信号をPC1BおよびPC1Cに送信する。PC1Aのプロセッサ34は、カメラ50で撮影した第1演者3に係る映像信号をPC1BおよびPC1Cに送信する。
【0025】
PC1Bのプロセッサ34は、楽器6の音信号をPC1AおよびPC1Cに送信する。PC1Bのプロセッサ34は、カメラ50で撮影した第2演者5に係る映像信号をPC1AおよびPC1Cに送信する。
【0026】
PC1Cのプロセッサ34は、マイク8の音信号をPC1AおよびPC1Bに送信する。PC1Cのプロセッサ34は、カメラ50で撮影した第3演者7の映像信号をPC1AおよびPC1Bに送信する。
【0027】
PC1Aのプロセッサ34は、PC1Bから楽器6の音信号を受信し、PC1Cからマイク8の音信号を受信する。PC1Aのプロセッサ34は、PC1Bから第2演者5に係る映像信号を受信し、PC1Cから第3演者7に係る映像信号を受信する。
【0028】
PC1Bのプロセッサ34は、PC1Aから楽器4の音信号を受信し、PC1Cからマイク8の音信号を受信する。PC1Bのプロセッサ34は、PC1Aから第1演者3に係る映像信号を受信し、PC1Cから第3演者7に係る映像信号を受信する。
【0029】
PC1Cのプロセッサ34は、PC1Aから楽器4の音信号を受信し、PC1Bから楽器6の音信号を受信する。PC1Cのプロセッサ34は、PC1Aから第1演者3に係る映像信号を受信し、PC1Bから第2演者5に係る映像信号を受信する。
【0030】
PC1AのSP37は、楽器6およびマイク8の音を再生する。PC1Aの表示器31は、第2演者5および第3演者7に係る映像を表示する。
【0031】
PC1BのSP37は、楽器4およびマイク8の音を再生する。PC1Bの表示器31は、第1演者3および第3演者7に係る映像を表示する。
【0032】
PC1CのSP37は、楽器4および楽器6の音を再生する。PC1Cの表示器31は、第1演者3および第2演者5に係る映像を表示する。
【0033】
また、PC1A、PC1B、およびPC1Cは、パフォーマンスの基準となる基準情報を送受信する。パフォーマンスの基準となる基準情報とは、例えばメトロノームの音である。あるいは、基準情報は、ドラム音等の、楽曲におけるリズムを担当する楽器(リズム楽器)の音である。メトロノームの音やリズム楽器の音は、演奏のタイミングに関係する音である。これらの音は、一例として、PC1A、PC1B、およびPC1Cのフラッシュメモリ33に記憶されている。PC1A、PC1B、およびPC1Cは、メトロノームの音やリズム楽器の音を再生する。セッションでは、各演者はメトロノームの音やリズム楽器の音にタイミングを合わせて演奏を行う。第1演者3、第2演者5および第3演者7は、メトロノームの音やリズム楽器の音に合わせて演奏のパフォーマンスを行う。
【0034】
これにより、本実施形態の信号処理方法は、遠隔セッションを実現する。
図3は、本実施形態の信号処理方法の動作を示すフローチャートである。
図3では代表してPC1Aのプロセッサ34の動作について説明する。
【0035】
プロセッサ34は、第1演者の特定のジェスチャーを検出する(S11)。ここで言う「第1演者」とは、各端末の利用者を意味する。PC1Aの利用者は第1演者3であるため、PC1Aのプロセッサ34の動作における「第1演者」とは、第1演者3を意味する。PC1Bの利用者は第2演者5であるため、PC1Bのプロセッサ34の動作における「第1演者」とは、第2演者5を意味する。PCCBの利用者は第3演者7であるため、PC1Cのプロセッサ34の動作における「第1演者」とは、第3演者7を意味する。
【0036】
特定のジェスチャーとは、例えば頭部または腕等の身体を上方に動かした後に下方に移動させる動きである。あるいは、例えばエレキギターの演者が楽器の一部(ネック部分)を上方に動かした後に下方に移動させる動きである。プロセッサ34は、例えばカメラ50で撮影した演者に係る映像信号に基づいて特定のジェスチャーを検出する。
【0037】
プロセッサ34は、演者の画像を検出し、特定のジェスチャーに係る動きを含むか否かを判定する。プロセッサ34は、例えば受け付けた映像信号の画像特徴量に基づいて、特定のジェスチャーに係る動きを含むか否かを判定する。画像特徴量とは、例えばSIFT(Scale-Invariant Feature Transform)、SURF(Speeded-Up Robust Features)、HoG(Histograms of Oriented Gradients)等の視覚特徴と時間軸方向の動き特徴とを含む多次元ベクトルである。プロセッサ34は、例えば、特定のジェスチャーに係る動きの画像特徴量を蓄積したデータベースに、受け付けた映像信号の画像特徴量を入力して、対応する情報があるか否かを検索する。プロセッサ34は、対応する情報がある場合に、受け付けた映像信号に特定のジェスチャーに係る動きを含むと判定する。あるいは、プロセッサ34は、画像特徴量と特定のジェスチャーに係る動きを含むことを示す情報との対応関係を訓練した訓練済モデルを用いて、受け付けた映像信号に特定のジェスチャーに係る動きを含むか否かを判定してもよい。
【0038】
プロセッサ34は、検出した特定のジェスチャーに基づいて、第1演者または第2演者のパフォーマンスに関連する関連情報を生成する(S12)。パフォーマンスに関連する関連情報とは、例えば演奏の開始または演奏の停止指示を示す情報である。より具体的には、関連情報とは、例えば上記のメトロノームの音やドラムの音等の基準情報の再生を開始する、あるいは基準情報の再生を停止する、等の指示を示す情報である。プロセッサ34は、演者の頭部、腕、または楽器等を上方に動かした後に下方に移動させる動作を検出したタイミングで関連情報を生成する。
【0039】
プロセッサ34は、ジェスチャーと、関連情報と、の関係をDNN(Deep Neural Network)で訓練した訓練済モデル(trained model)に基づいて関連情報を生成する。プロセッサ34は、訓練段階として、ジェスチャーと、該ジェスチャーに対応する関連情報と、を含むデータセット(訓練用データ)を多数取得する。プロセッサ34は、所定のモデルに、所定のアルゴリズムを用いてジェスチャーと、関連情報と、の関係を訓練させる。本実施形態において、モデルを訓練させるためのアルゴリズムは限定されず、CNN(Convolutional Neural Network)やRNN(Recurrent Neural Network)等の任意の機械訓練アルゴリズムを用いることができる。機械訓練アルゴリズムは、教師あり訓練、教師なし訓練、半教師訓練、強化訓練、逆強化訓練、能動訓練、あるいは転移訓練等であってもよい。また、推定部53は、HMM(Hidden Markov Model:隠れマルコフモデル)やSVM(Support Vector Machine)等の機械訓練モデルを用いてモデルを訓練させてもよい。
【0040】
ある特定のジェスチャーを行った時の関連情報は一意に決まる。例えば演者は、楽器を上方に動かした後に下方に移動させる動作で演奏の停止を表す。この場合、楽器を上方に動かした後に下方に移動させる動作と、演奏の停止と、は、相関関係を有する。したがって、プロセッサ34は、所定のモデルに、ジェスチャーと、関連情報と、の関係を訓練させ、訓練済モデルを生成する。プロセッサ34は、実行段階として、当該訓練済モデルにより、特定のジェスチャーに係る動きの情報を入力し、関連情報を生成する。
【0041】
プロセッサ34は、関連情報を第1演者の利用する第1端末から第2演者の利用する第2端末に送信する(S13)。例えば、PC1Aの利用者である第1演者3が楽器4を上方に動かした後に下方に移動させる動作を行うと、PC1AはPC1BおよびPC1Cに関連情報としてメトロノームの音の再生開始指示を送信する。
【0042】
これにより、第1演者3は、特定のジェスチャーを行うことで、遠隔セッションを開始させることができる。具体的には、第1演者3は、エレキギター(楽器4)の演奏姿勢を維持したまま、頭や楽器を上下に振るだけで、遠隔セッションの開始を指示することができる。あるいは、第1演者3は、エレキギター(楽器4)の演奏姿勢を維持したまま、頭や楽器を上下に振るだけで、遠隔セッションの停止、終了、フェルマータ等を指示することができる。例えば、第1演者3は、ゆっくりとエレキギター(楽器4)のヘッドを上方向に上げることでフェルマータを指示することができる。PC1Aのプロセッサ34は、ゆっくりとエレキギター(楽器4)のヘッドを上方向に上げるジェスチャーを検出した場合に、メトロノーム音のテンポを下げる指示を送信する。あるいは、PC1Aのプロセッサ34は、表示器31にフェルマータ記号を表示する指示を送信してもよい。第1演者3は、エレキギター(楽器4)のヘッドを上げた後に勢いよく下げることで、遠隔セッションの終了を指示することができる。PC1Aのプロセッサ34は、エレキギター(楽器4)のヘッドを下方向に下げるジェスチャーを検出した場合に、メトロノーム音の停止指示を送信する。この様なメトロノーム音のテンポ変更、停止、遠隔セッションの停止、終了、およびフェルマータの指示等は、第1演者および第2演者の両方のパフォーマンスに関連する関連情報に対応する。
【0043】
この様に、本実施形態の情報処理方法は、演奏等のパフォーマンスを阻害せず、演者が同じ空間に居る場合と同じ様に、目線、表情、ボディランゲージ等を用いて演奏者間でコミュニケーションを取ることができ、遠隔地の演者間で高度なコミュニケーションを取ることができる。したがって、利用者は、従来では得られなかった快適な遠隔セッションができるという顧客体験を得ることができる。
【0044】
(変形例1)
変形例1の第1端末は、第1演者のパフォーマンスに係る第1信号を第2端末に送信し、関連情報を第1信号よりも優先して第2端末に送信する。この変形例に係る第1端末は、PC1Aであり、第2端末はPC1BおよびPC1Cである。
【0045】
具体的には、PC1Aのプロセッサ34は、楽器4の音信号をPC1BおよびPC1Cに送信する。PC1Aのプロセッサ34は、カメラ50で撮影した第1演者3に係る映像信号をPC1BおよびPC1Cに送信する。PC1Aのプロセッサ34は、PC1BおよびPC1Cに対して、メトロノームの音の再生開始指示を優先的に送信する。優先的に送信するとは、例えば、音信号および映像信号に係るパケットデータよりも、関連情報のパケットデータを優先して送信することを意味する。
【0046】
このようにして、変形例1の情報処理方法は、セッションにおいて基準となる基準情報(例えばメトロノーム音)を優先的に処理する。そのため、基準情報は、どの地点においても大きなずれが無く、遠隔セッション時に遅延によるパフォーマンスへの影響を最小限に抑えることができる。これにより、変形例1の信号処理方法の利用者は、従来では得られなかった快適な遠隔セッションができるという顧客体験を得ることができる。
【0047】
(変形例2)
変形例2の第1端末は、第1演者のパフォーマンスに係る第1信号を第2端末に送信し、第3演者の利用する第3端末から第3演者のパフォーマンスに係る第3信号を第2端末に送信し、第2端末において、関連情報に基づいて第1信号を優先して処理する。この変形例に係る第1端末はPC1Aであり、第2端末はPC1Bであり、第3端末はPC1Cである。
【0048】
具体的には、PC1Aのプロセッサ34は、楽器4のデジタル音信号をPC1BおよびPC1Cに送信する。PC1Bのプロセッサ34は、PC1Aから楽器4に係る音信号を受信し、PC1Cからマイク8に係る音信号を受信する。PC1Bのプロセッサ34は、楽器4およびマイク8の音を再生する。
【0049】
PC1Aのプロセッサ34は、第1演者3のジェスチャーを検出して、PC1BおよびPC1Cに対して、メトロノームの音の再生開始指示を送信する。PC1Bのプロセッサ34は、PC1Aから受信する楽器4の音信号を優先的に処理する。優先的に処理するとは、例えばPC1Aから受信するオーディオパケットに優先度を付与し、PC1AのオーディオパケットをPC1Cのオーディオパケットよりも先にデコードすることを意味する。
【0050】
同様に、PC1Cのプロセッサ34は、PC1Aから受信するオーディオパケットに優先度を付与し、PC1AのオーディオパケットをPC1Bのオーディオパケットよりも先にデコードすることを意味する。
【0051】
このようにして、変形例2の情報処理方法は、セッションを仕切る利用者(例えば第1演者3)のパフォーマンスに係る情報を優先的に処理する。そのため、セッションを仕切る第1演者3の楽器4の音は、どの地点においても大きなずれが無く、遠隔セッション時に遅延によるパフォーマンスへの影響を最小限に抑えることができる。これにより、変形例2の信号処理方法の利用者は、従来では得られなかった快適な遠隔セッションができるという顧客体験を得ることができる。
【0052】
(変形例3)
変形例3の関連情報は、パフォーマンスのテンポに係るテンポ情報を含み、テンポ情報を第1端末および第2端末で共有する。
【0053】
上述の実施形態では、関連情報はメトロノームの音やドラムの音等の基準情報の再生を開始する、あるいは基準情報の再生を停止する、等の情報であった。しかし、関連情報は、演奏テンポを指定するテンポ情報であってもよい。より具体的にはテンポ情報は、メトロノームの音やドラムの音の拍数(BPM)を示す情報である。
【0054】
PC1Aのプロセッサ34は、例えば受け付けた映像信号の画像特徴量に基づいて、テンポ情報を求める。PC1Aのプロセッサ34は、第1演者3が楽器4を上げ下げする動作の速度に応じて、テンポ情報を求める。あるいは、PC1Aのプロセッサ34は、第1演者3が膝から下を上げ下げする動作の速度に応じて、テンポ情報を求めてもよい。
【0055】
PC1Aのプロセッサ34は、求めたテンポ情報をPC1BおよびPC1Cに送信する。PC1A、PC1B、およびPC1Cは、テンポ情報に基づいて、メトロノームの音やリズム楽器の音の拍数を変更する。あるいは、PC1A、PC1B、およびPC1Cは、テンポ情報に基づいて、拍数の情報を表示器31に表示し、ドラム音等のリズム楽器を演奏する演者が、表示された拍数の情報に合わせて演奏を行う。これにより、第1演者3は、セッション中に演奏をしながらテンポ変更を指示することができ、従来では得られなかった快適な遠隔セッションができるという顧客体験を得ることができる。
【0056】
(変形例4)
変形例4では、第1端末は、第1演者のパフォーマンスに係る第1信号を第2端末に送信し、第2端末が、第1演者のジェスチャーを検出して関連情報を生成する。
【0057】
すなわち、上述の実施形態では、PC1Aがカメラ50で撮影した第1演者3に係る映像信号に基づいて特定のジェスチャーを検出したが、PC1BおよびPC1Cが受信した第1演者3に係る映像信号に基づいて特定のジェスチャーを検出してもよい。
【0058】
また、不図示のサーバが、PC1Aから第1演者3に係る映像信号を受信し、特定のジェスチャーを検出してもよい。この場合、不図示のサーバは、検出した第1演者のジェスチャーに基づいて関連情報を生成し、PC1BおよびPC1Cに該関連情報を送信する。
【0059】
(変形例5)
変形例5では、第1端末は、第1演者のパフォーマンスに係る第1信号を第2端末に送信し、関連情報は、第2端末における第1信号の処理に関わる情報を含み、第2端末は、関連情報に基づいて、第1信号を処理する。
【0060】
具体的には、PC1Aのプロセッサ34は、楽器4の音信号をPC1BおよびPC1Cに送信する。PC1Bのプロセッサ34は、PC1Aから楽器4に係る音信号を受信し、PC1Cからマイク8に係る音信号を受信する。PC1Bのプロセッサ34は、楽器4およびマイク8の音を再生する。
【0061】
PC1Aのプロセッサ34は、第1演者3のジェスチャーを検出して、関連情報として楽器4に係る音信号の処理(例えば信号処理パラメータ)を生成する。例えば、PC1Aのプロセッサ34は、第1演者3が顔を右方向に向けるジェスチャーを検出した場合、関連情報として楽器4に係る音信号の音量を大きくする信号処理パラメータを生成する。PC1Cのプロセッサ34は、PC1BおよびPC1Cに対して、当該信号処理パラメータを送信する。PC1Bのプロセッサ34は、PC1Aから受信する楽器4に係る音信号の音量を大きくする信号処理を行う。同様に、PC1Cのプロセッサ34は、PC1Aから受信する楽器4に係る音信号の音量を大きくする信号処理を行う。この様な第1演者3の楽器4に係る音信号の音量変更は、第1演者3のみのパフォーマンスに関連する関連情報に対応する。
【0062】
これにより、第1演者3は、演奏をしながら音量の変更等の信号処理パラメータの変更を指示することができ、従来では得られなかった快適な遠隔セッションができるという顧客体験を得ることができる。
【0063】
(変形例6)
変形例6では、第1端末は、第1演者のパフォーマンスに係る第1信号を第2端末に送信し、第2端末は、第2演者のパフォーマンスに係る第2信号を第1端末に送信し、関連情報は、第1端末における第2信号の処理に関わる情報、および第2端末における第1信号の処理に関わる情報を含み、第1端末は、関連情報に基づいて、第2信号を処理し、第2端末は、関連情報に基づいて、第1信号を処理する。
【0064】
具体的には、PC1Aのプロセッサ34は、楽器4の音信号をPC1BおよびPC1Cに送信する。PC1Bのプロセッサ34は、楽器6の音信号をPC1AおよびPC1Cに送信する。
【0065】
PC1Aのプロセッサ34は、第1演者3のジェスチャーを検出して、関連情報として楽器4に係る音信号の処理(例えば信号処理パラメータ)を生成する。例えば、PC1Aのプロセッサ34は、第1演者3が顔を右方向に向けるジェスチャーを検出した場合、関連情報として楽器4に係る音信号の音量を大きくする信号処理パラメータを生成する。PC1Aのプロセッサ34は、PC1BおよびPC1Cに対して、当該信号処理パラメータを送信する。
【0066】
PC2Aのプロセッサ34は、第2演者5のジェスチャーを検出して、関連情報として楽器6に係る音信号の処理(例えば信号処理パラメータ)を生成する。例えば、PC1Bのプロセッサ34は、第2演者5が顔を左方向に向けるジェスチャーを検出した場合、関連情報として楽器6に係る音信号の音量を小さくする信号処理パラメータを生成する。PC1Bのプロセッサ34は、PC1AおよびPC1Bに対して、当該信号処理パラメータを送信する。
【0067】
PC1Aのプロセッサ34は、PC1Bから受信する楽器6に係る音信号の音量を小さくする信号処理を行う。PC1Bのプロセッサ34は、PC1Aから受信する楽器4に係る音信号の音量を大きくする信号処理を行う。PC1Cのプロセッサ34は、PC1Aから受信する楽器4に係る音信号の音量を大きくし、PC1Bから受信する楽器6に係る音信号の音量を小さくする信号処理を行う。
【0068】
これにより、第1演者3および第2演者5は、それぞれ演奏をしながら音量の変更等の信号処理パラメータの変更を指示することができ、従来では得られなかった快適な遠隔セッションができるという顧客体験を得ることができる。
【0069】
(変形例7)
変形例7では、特定のジェスチャーは、演者の視線を含む。PC1Aのプロセッサ34は、例えば受け付けた映像信号の画像特徴量に基づいて、視線情報を求める。例えば、PC1Aのプロセッサ34は、第1演者3が視線を右方向に向けるジェスチャーを検出した場合、関連情報として楽器4に係る音信号の音量を大きくする信号処理パラメータを生成する。PC1Cのプロセッサ34は、PC1BおよびPC1Cに対して、当該信号処理パラメータを送信する。PC1Bのプロセッサ34は、PC1Aから受信する楽器4に係る音信号の音量を大きくする信号処理を行う。同様に、PC1Cのプロセッサ34は、PC1Aから受信する楽器4に係る音信号の音量を大きくする信号処理を行う。
【0070】
これにより、第1演者3は、演奏をしながら視線を変更するだけで、音量の変更等の信号処理パラメータの変更を指示することができ、従来では得られなかった快適な遠隔セッションができるという顧客体験を得ることができる。
【0071】
(変形例8)
変形例8では、関連情報は、他の演者に対するアクションを含む。第1演者3の他の演者とは、例えば第2演者5または第3演者7を意味する。第2演者5の他の演者とは、例えば第1演者3または第3演者7を意味する。第3演者7の他の演者とは、例えば第1演者3または第2演者5を意味する。例えば、PC1Aのプロセッサ34は、表示器31に表示されている演者の画像と、変形例7の様に求めた視線情報に基づいて、第1演者3がどの他の演者に対するアクションを求めているか検出する。PC1Aのプロセッサ34は、例えば表示器31の右側に第2演者5の画像が表示され、第1演者3の視線が右を向いていると判断した場合、第1演者3が第2演者5を注視していると判断する。そして、PC1Aのプロセッサ34は、第2演者5に対するアクションを求める。例えば、PC1Aのプロセッサ34は、第1演者3が顔を左方向に向けるジェスチャーを検出した場合、関連情報として楽器6に係る音信号の音量を小さくする信号処理パラメータを生成する。PC1Aのプロセッサ34は、PC1Bに対して、当該信号処理パラメータを送信する。すなわち、PC1Aのプロセッサ34は、第1演者3の特定のジェスチャーを検出し、検出した特定のジェスチャーに基づいて、第2演者5のパフォーマンスに関連する関連情報を生成し、関連情報を第1演者3の利用するPC1Aから第2演者5の利用するPC1Bに送信する。PC1Bのプロセッサ34は、PC1AおよびPC1Cに送信する楽器6に係る音信号の音量を小さくする信号処理を行う。この様な第2演者5の楽器6に係る音信号の音量変更は、第2演者5のみのパフォーマンスに関連する関連情報に対応する。
【0072】
これにより、第1演者3は、演奏をしながら他の演者にアクションを行うことができ、従来では得られなかった快適な遠隔セッションができるという顧客体験を得ることができる。
【0073】
(変形例9)
変形例9では、パフォーマンスに係る映像または音をデータとして記録し、関連情報は、記録したデータの時間情報を含む。
図4は、変形例9に係る情報処理システムの構成図である。
図1と共通する構成については同一の符号を付し、説明を省略する。変形例9に係る情報処理システムは、さらにサーバ100を有する。
【0074】
サーバ100は、PC1A、PC1BおよびPC1Cから受信した音信号および映像信号を映像データおよび音データとして記録している。また、サーバ100は、記録した映像データおよび音データを配信する。
【0075】
PC1Aの第1演者3、PC1Bの第2演者5、またはPC1Cの第3演者7が特定のジェスチャーに係る動きを行うと、サーバ100には映像データおよび音データに係る時間情報が記録される。
【0076】
例えば、変形例9では、PC1Cが第1端末に対応し、サーバ100が第2端末に対応する。PC1Cは、第3演者7の特定のジェスチャー(例えば右手を上に上げる動作)を検出すると、関連情報として時間情報(時刻またはセッション開始からの経過時間)を生成する。PC1Cは、当該時間情報をサーバ100に送信する。サーバ100は、映像データおよび音データに対応して、PC1Cから受信した時間情報を記録する。
【0077】
そして、PC1Cのプロセッサ34は、第3演者7の特定のジェスチャー(例えば右手を左に移動させる動作)を検出すると、関連情報としてプレイバック情報を生成する。PC1Cのプロセッサ34は、当該プレイバック情報をサーバ100に送信する。サーバ100は、受信したプレイバック情報に対応して、直前に記録した時間情報から像データおよび音データを配信する。
【0078】
これにより、第3演者7は、歌唱を行いながら時間情報を記録することができ、直前の演奏を確認することもでき、従来では得られなかった快適な遠隔セッションができるという顧客体験を得ることができる。
【0079】
(その他の例)
PC1A、PC1B、またはPC1Cは、関連情報に基づいて、パフォーマンスの開始、停止、再開、あるいはテンポ変更等の他の演者に対するアクションについて、表示器31に案内情報を表示する、あるいはSP37から案内音声を出力してもよい。例えば、関連情報がテンポの変更(例えばテンポ120に変更する旨)を示す情報であれば、PC1A、PC1B、またはPC1Cは、「テンポ120に変更してください」等の案内情報を表示器31に表示する、あるいは、SP37から「テンポ120に変更してください」等の案内音声を出力する。この場合も、各演者は、従来では得られなかった快適な遠隔セッションができるという顧客体験を得ることができる。
【0080】
上述の例では、本発明の端末の例として、PC1A、PC1BおよびPC1Cを示した。しかし、本発明の端末は、上述のPC1A、PC1BおよびPC1Cに限らない。例えば、上述のユーザI/F32、フラッシュメモリ33、プロセッサ34、RAM35、通信I/F36、スピーカ(SP)37、オーディオI/F38、およびカメラ50等の機能を備えた電子楽器も本発明の端末を構成することができる。電子楽器とは、例えば電子ピアノ、電子ドラム、電子バイオリン、電子管楽器、電子オルガン、シンセサイザー等は無論、エレキギターやエレキベース等も含む。
【0081】
ジェスチャーは、カメラ50による画像式のセンサで検出したが、光学式または慣性式等の他のセンサを用いてもよい。例えば、慣性式のセンサを内蔵したギターの電子楽器が、当該慣性式のセンサの信号に基づいて特定の動きの検出し、ジェスチャーとして認識してもよい。
【0082】
本実施形態の説明は、すべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲は、特許請求の範囲と均等の範囲を含む。
【符号の説明】
【0083】
3 :第1演者
4 :楽器
5 :第2演者
6 :楽器
7 :第3演者
8 :マイク
10 :第1地点
20 :第2地点
30 :第3地点
31 :表示器
32 :ユーザI/F
33 :フラッシュメモリ
34 :プロセッサ
35 :RAM
36 :通信I/F
38 :オーディオI/F
50 :カメラ
100 :サーバ