特許7432124 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ ヤマハ株式会社の特許一覧

特許7432124情報処理方法、情報処理装置およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-02-07

(45)【発行日】2024-02-16

(54)【発明の名称】情報処理方法、情報処理装置およびプログラム

(51)【国際特許分類】

G06T 13/20 20110101AFI20240208BHJP

G10G 1/00 20060101ALI20240208BHJP

G10H 1/00 20060101ALI20240208BHJP

【ＦＩ】

G06T13/20 500

G10G1/00

G10H1/00 102Z

【請求項の数】 7

(21)【出願番号】P 2022075889

(22)【出願日】2022-05-02

(62)【分割の表示】P 2018019140の分割

【原出願日】2018-02-06

(65)【公開番号】P2022115956

(43)【公開日】2022-08-09

【審査請求日】2022-05-02

(73)【特許権者】

【識別番号】000004075

【氏名又は名称】ヤマハ株式会社

(74)【代理人】

【識別番号】110003177

【氏名又は名称】弁理士法人旺知国際特許事務所

(72)【発明者】

【氏名】前澤陽

【審査官】岡本俊威

(56)【参考文献】

【文献】特開２０１６－０４１１４２（ＪＰ，Ａ）

【文献】特開２０１６－０５０９９４（ＪＰ，Ａ）

【文献】釘本望美他，モーションキャプチャを用いたピアノ演奏動作のＣＧ表現と音楽演奏インタフェースへの応用，情報処理学会研究報告２００７－ＭＵＳ－７２，日本，社団法人情報処理学会，2007年10月11日，第2007巻第102号，p.79～84

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ１３／００－１３／８０

Ｇ１０Ｇ１／００

Ｇ１０Ｈ１／００

(57)【特許請求の範囲】

【請求項1】

楽曲のうち時間軸上の可変の時点における音符の発音を表す演奏データを順次に取得し、複数の単位期間の各々について、当該単位期間を含む解析期間内の音符の時系列を表す解析データを、前記演奏データの取得に並行して順次に生成し、
前記楽曲を演奏する演奏者を表すオブジェクトの動作を制御するための制御データを、前記演奏データの取得に並行して前記解析データから順次に生成し、
前記解析データは、相異なる音高に対応する複数の要素を前記解析期間内の各単位期間について含み、前記各単位期間に対応する前記複数の要素のうち、当該単位期間において発音される音高に対応する要素と、当該単位期間において発音されない音高に対応する要素とは、相異なる数値に設定され、
前記制御データの生成においては、
解析データと制御データとの関係を学習した学習済モデルに、前記生成した解析データを入力することで、前記制御データを生成する
コンピュータにより実現される情報処理方法。

【請求項2】

前記各単位期間に対応する前記複数の要素のうち、当該単位期間において発音される音高に対応する要素は、当該音高の演奏強度を表す数値に設定される
請求項１の情報処理方法。

【請求項3】

前記演奏データを演奏装置に順次に供給することで自動演奏を実行させる
請求項１または請求項２の情報処理方法。

【請求項4】

楽曲のうち時間軸上の可変の時点における音符の発音を表す演奏データを順次に取得し、複数の単位期間の各々について、当該単位期間を含む解析期間内の音符の時系列を表す解析データを、前記演奏データの取得に並行して順次に生成する解析データ生成部と、
前記楽曲を演奏する演奏者を表すオブジェクトの動作を制御するための制御データを、前記演奏データの取得に並行して前記解析データから順次に生成する制御データ生成部とを具備し、
前記解析データは、相異なる音高に対応する複数の要素を前記解析期間内の各単位期間について含み、前記各単位期間に対応する前記複数の要素のうち、当該単位期間において発音される音高に対応する要素と、当該単位期間において発音されない音高に対応する要素とは、相異なる数値に設定され、
前記制御データ生成部は、
解析データと制御データとの関係を学習した学習済モデルに、前記生成した解析データを入力することで、前記制御データを生成する
情報処理装置。

【請求項5】

楽曲のうち時間軸上の可変の時点における音符の発音を表す演奏データを順次に取得し、複数の単位期間の各々について、当該単位期間を含む解析期間内の音符の時系列を表す解析データを、前記演奏データの取得に並行して順次に生成する解析データ生成部、および、
前記楽曲を演奏する演奏者を表すオブジェクトの動作を制御するための制御データを、前記演奏データの取得に並行して前記解析データから順次に生成する制御データ生成部、
としてコンピュータを機能させるプログラムであって、
前記解析データは、相異なる音高に対応する複数の要素を前記解析期間内の各単位期間について含み、前記各単位期間に対応する前記複数の要素のうち、当該単位期間において発音される音高に対応する要素と、当該単位期間において発音されない音高に対応する要素とは、相異なる数値に設定され、
前記解析データ生成部は、前記解析期間のうち前記単位期間の後方の期間に対応する音符の時系列を、当該解析期間のうち前記単位期間以前の音符の時系列と、前記演奏データが時系列に配列された楽曲データとから予測する
プログラム。

【請求項6】

楽曲のうち時間軸上の可変の時点における音符の発音を表す演奏データを順次に取得し、複数の単位期間の各々について、当該単位期間を含む解析期間内の音符の時系列を表す解析データを、前記演奏データの取得に並行して順次に生成する解析データ生成部、および、
前記楽曲を演奏する演奏者を表すオブジェクトの動作を制御するための制御データを、前記演奏データの取得に並行して前記解析データから順次に生成する制御データ生成部、
としてコンピュータを機能させるプログラムであって、
前記解析データは、相異なる音高に対応する複数の要素を前記解析期間内の各単位期間について含み、前記各単位期間に対応する前記複数の要素のうち、当該単位期間において発音される音高に対応する要素と、当該単位期間において発音されない音高に対応する要素とは、相異なる数値に設定され、
前記制御データ生成部は、解析データと制御データとの関係を学習した学習済モデルに、前記生成した解析データを入力することで、前記制御データを生成し、
前記学習済モデルは、
前記解析データの特徴を表す特徴ベクトルを当該解析データから生成する畳込みニューラルネットワークと、
前記特徴ベクトルに応じた前記制御データを生成する再帰型ニューラルネットワークとを含む
プログラム。

【請求項7】

前記複数の単位期間の各々について生成される前記解析データは、当該単位期間と、当該単位期間の前方および後方の期間とを含む解析期間内の音符の時系列を表す
請求項５または請求項６のプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、演奏者等の実演者を表すオブジェクトの動作を制御するための技術に関する。

【背景技術】

【0002】

演奏者を表す画像であるオブジェクトの動作を、楽曲の演奏データに応じて制御する技術が従来から提案されている（特許文献１，２および非特許文献１，２）。例えば特許文献１には、演奏データが指定する音高に応じて、当該楽曲を演奏する演奏者の動画像を生成する技術が開示されている。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０００－１０５６０号公報

【文献】特開２０１０－１３４７９０号公報

【非特許文献】

【0004】

【文献】山本和樹ほか５名，"ピアノ演奏における自然な手指動作ＣＧの自動生成"，TVRSJ Vol.15 No.3 p.495-502，2010

【文献】釘本望美ほか５名，"モーションキャプチャを用いたピアノ演奏動作のＣＧ表現と音楽演奏インタフェースへの応用"，社団法人情報処理学会研究報告，2007-MUS-72(15)，2007/10/12

【発明の概要】

【発明が解決しようとする課題】

【0005】

特許文献１の技術のもとでは、記憶装置に事前に記憶された演奏データがオブジェクトの動作の制御に利用される。したがって、演奏データにより指定される音符の発音の時点が動的に変化する状況では、オブジェクトの動作を適切に制御できない。以上の事情を考慮して、本発明は、各音符の発音の時点が可変である状況でもオブジェクトの動作を適切に制御することを目的とする。

【課題を解決するための手段】

【0006】

以上の課題を解決するために、本発明の好適な態様に係る情報処理方法は、時間軸上の可変の時点における音符の発音を表す演奏データを順次に取得し、複数の単位期間の各々について、当該単位期間と、当該単位期間の前方および後方の期間とを含む解析期間内の音符の時系列を表す解析データを、前記演奏データの取得に並行して、当該演奏データの時系列から順次に生成し、実演者を表すオブジェクトの動作を制御するための制御データを、前記演奏データの取得に並行して、前記解析データから順次に生成する。

【0007】

本発明の好適な態様に係る情報処理装置は、時間軸上の可変の時点における音符の発音を表す演奏データを順次に取得し、複数の単位期間の各々について、当該単位期間と、当該単位期間の前方および後方の期間とを含む解析期間内の音符の時系列を表す解析データを、前記演奏データの取得に並行して、当該演奏データの時系列から順次に生成する解析データ生成部と、実演者を表すオブジェクトの動作を制御するための制御データを、前記演奏データの取得に並行して、前記解析データから順次に生成する制御データ生成部とを具備する。

【図面の簡単な説明】

【0008】

【図1】本発明の実施形態に係る演奏システムの構成を例示するブロック図である。

【図2】情報処理装置の機能的な構成を例示するブロック図である。

【図3】表示装置による表示画面の説明図である。

【図4】解析データの説明図である。

【図5】制御データの説明図である。

【図6】制御データ生成部の構成を例示するブロック図である。

【図7】第１統計モデルの構成を例示するブロック図である。

【図8】第２統計モデルの構成を例示するブロック図である。

【図9】教師データの説明図である。

【図10】動作制御処理を例示するフローチャートである。

【発明を実施するための形態】

【0009】

＜本発明の好適な形態＞
図１は、本発明の好適な形態に係る演奏システム１００の構成を例示するブロック図である。演奏システム１００は、演奏者Ｐが所在する音響ホール等の空間に設置されたコンピュータシステムである。演奏者Ｐは、例えば楽器の演奏者または楽曲の歌唱者である。演奏システム１００は、演奏者Ｐによる楽曲の演奏に並行して当該楽曲の自動演奏を実行する。

【0010】

図１に例示される通り、演奏システム１００は、情報処理装置１１と演奏装置１２と収音装置１３と表示装置１４とを具備する。情報処理装置１１は、演奏システム１００の各要素を制御するコンピュータシステムであり、例えばタブレット端末またはパーソナルコンピュータ等の情報端末で実現される。

【0011】

演奏装置１２は、情報処理装置１１による制御のもとで楽曲の自動演奏を実行する。具体的には、演奏装置１２は、駆動機構１２１と発音機構１２２とを具備する自動演奏楽器（例えば自動演奏ピアノ）である。発音機構１２２は、自然楽器の鍵盤楽器と同様に、鍵盤の各鍵の変位に連動して弦（発音体）を発音させる打弦機構を鍵毎に具備する。駆動機構１２１は、発音機構１２２を駆動することで対象楽曲の自動演奏を実行する。情報処理装置１１からの指示に応じて駆動機構１２１が発音機構１２２を駆動することで自動演奏が実現される。なお、情報処理装置１１を演奏装置１２に搭載してもよい。

【0012】

収音装置１３は、演奏者Ｐによる演奏で発音された音響（例えば楽器音または歌唱音）を収音するマイクロホンである。収音装置１３は、音響の波形を表す音響信号Ａを生成する。なお、電気弦楽器等の電気楽器から出力される音響信号Ａを利用してもよい。したがって、収音装置１３は省略され得る。表示装置１４は、情報処理装置１１による制御のもとで各種の画像を表示する。例えば液晶表示パネルまたはプロジェクタが表示装置１４として好適に利用される。

【0013】

図１に例示される通り、情報処理装置１１は、制御装置１１１と記憶装置１１２とを具備するコンピュータシステムで実現される。制御装置１１１は、例えばＣＰＵ（Central Processing Unit）等の処理回路であり、演奏システム１００を構成する各要素（演奏装置１２，収音装置１３および表示装置１４）を統括的に制御する。制御装置１１１は、少なくとも１個の回路を含んで構成される。

【0014】

記憶装置（メモリ）１１２は、例えば磁気記録媒体もしくは半導体記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せで構成され、制御装置１１１が実行するプログラムと制御装置１１１が使用する各種のデータとを記憶する。なお、演奏システム１００とは別体の記憶装置１１２（例えばクラウドストレージ）を用意し、移動体通信網またはインターネット等の通信網を介して制御装置１１１が記憶装置１１２に対する書込および読出を実行してもよい。すなわち、記憶装置１１２を演奏システム１００から省略してもよい。

【0015】

本実施形態の記憶装置１１２は、楽曲データＤを記憶する。楽曲データＤは、例えばＭＩＤＩ（Musical Instrument Digital Interface）規格に準拠した形式のファイル（ＳＭＦ：Standard MIDI File）である。楽曲データＤは、楽曲を構成する音符の時系列を指定する。具体的には、楽曲データＤは、音符を指定して演奏を指示する演奏データＥと、各演奏データＥの読出の時点を指定する時間データとが配列された時系列データである。演奏データＥは、例えば音符の音高と強度とを指定する。時間データは、例えば相前後する演奏データＥの読出の間隔を指定する。

【0016】

図２は、情報処理装置１１の機能的な構成を例示するブロック図である。図２に例示される通り、制御装置１１１は、記憶装置１１２に記憶されたプログラムに従って複数のタスクを実行することで、図２に例示された複数の機能（演奏制御部２１，解析データ生成部２２，制御データ生成部２３および表示制御部２４）を実現する。なお、複数の装置の集合（すなわちシステム）で制御装置１１１の機能を実現してもよいし、制御装置１１１の機能の一部または全部を専用の電子回路（例えば信号処理回路）で実現してもよい。また、演奏装置１２と収音装置１３と表示装置１４とが設置された音響ホール等の空間から離間した位置にあるサーバ装置が、制御装置１１１の一部または全部の機能を実現してもよい。

【0017】

演奏制御部２１は、楽曲データＤの各演奏データＥを演奏装置１２に対して順次に出力するシーケンサである。演奏装置１２は、演奏制御部２１から順次に供給される演奏データＥで指定された音符を演奏する。本実施形態の演奏制御部２１は、演奏装置１２による自動演奏が演奏者Ｐによる実演奏に追従するように、演奏装置１２に対する演奏データＥの出力の時点を可変に制御する。演奏者Ｐが楽曲の各音符を演奏する時点は、当該演奏者Ｐが意図する音楽的な表現等に起因して動的に変化する。したがって、演奏制御部２１が演奏装置１２に演奏データＥを出力する時点も可変である。

【0018】

具体的には、演奏制御部２１は、楽曲内で演奏者Ｐが現に演奏している時点（以下「演奏時点」という）を音響信号Ａの解析により推定する。演奏時点の推定は、演奏者Ｐによる実演奏に並行して順次に実行される。演奏時点の推定には、例えば特開２０１５－７９１８３号公報等の公知の音響解析技術（スコアアライメント）が任意に採用され得る。演奏制御部２１は、演奏装置１２による自動演奏が演奏時点の進行に同期するように各演奏データＥを演奏装置１２に出力する。具体的には、演奏制御部２１は、楽曲データＤの各時間データにより指定された時点に演奏時点が到達するたびに、当該時間データに対応する演奏データＥを演奏装置１２に出力する。したがって、演奏装置１２による自動演奏の進行が演奏者Ｐによる実演奏に同期する。すなわち、演奏装置１２と演奏者Ｐとが相互に協調して合奏しているかのような雰囲気が演出される。

【0019】

表示制御部２４は、図３に例示される通り、仮想的な演奏者を表す画像（以下「演奏者オブジェクト」という）Ｏbを表示装置１４に表示させる。演奏者オブジェクトＯbが演奏する鍵盤楽器を表す画像も演奏者オブジェクトＯbとともに表示装置１４に表示される。図３に例示された演奏者オブジェクトＯbは、演奏者の両腕部と胸部と頭部とを含む上半身を表す画像である。表示制御部２４は、演奏装置１２による自動演奏に並行して演奏者オブジェクトＯbを動的に変化させる。具体的には、演奏装置１２による自動演奏に連動した演奏動作を演奏者オブジェクトＯbが実行するように、表示制御部２４は演奏者オブジェクトＯbを制御する。例えば、自動演奏のリズムで演奏者オブジェクトＯbが身体を揺動させ、自動演奏による音符の発音時には演奏者オブジェクトＯbが押鍵の動作を実行する。したがって、表示装置１４による表示画像を視認する利用者（例えば演奏者Ｐまたは観客）は、演奏者オブジェクトＯbが楽曲を演奏しているかのような感覚を知覚することが可能である。図２の解析データ生成部２２および制御データ生成部２３は、演奏者オブジェクトＯbの動作を自動演奏に連動させるための要素である。

【0020】

解析データ生成部２２は、自動演奏される各音符の時系列を表す解析データＸを生成する。解析データ生成部２２は、演奏制御部２１が出力する演奏データＥを順次に取得し、演奏データＥの時系列から解析データＸを生成する。演奏制御部２１が出力する演奏データＥの取得に並行して、時間軸上の複数の単位期間（フレーム）の各々について解析データＸが順次に生成される。すなわち、演奏者Ｐによる実演奏および演奏装置１２による自動演奏に並行して解析データＸが順次に生成される。

【0021】

図４は、解析データＸの説明図である。本実施形態の解析データＸは、Ｋ行Ｎ列の行列（以下「演奏行列」という）Ｚを表す（Ｋ，Ｎは自然数）。演奏行列Ｚは、演奏制御部２１が順次に出力する演奏データＥの時系列を表す２値行列である。演奏行列Ｚの横方向は時間軸に相当する。演奏行列Ｚの任意の１列は、Ｎ個（例えば６０個）の単位期間のうちの１個の単位期間に対応する。また、演奏行列Ｚの縦方向は音高軸に相当する。演奏行列Ｚの任意の１行は、Ｋ個（例えば１２８個）の音高のうちの１個の音高に対応する。演奏行列Ｚのうち第ｋ行第ｎ列（ｋ＝１～Ｋ，ｎ＝１～Ｎ）の１個の要素は、第ｎ列に対応する単位期間において第ｋ行に対応する音高が発音されるか否かを表す。具体的には、任意の音高に対応する第ｋ行のＮ個の要素のうち、当該音高が発音される各単位期間に対応する要素は「１」に設定され、当該音高が発音されない各単位期間に対応する要素は「０」に設定される。

【0022】

時間軸上の１個の単位期間（以下「特定単位期間」という）Ｕ0について生成される解析データＸは、図４に例示される通り、特定単位期間Ｕ0を含む解析期間Ｑ内の音符の時系列を表す。時間軸上の複数の単位期間の各々が時系列の順番で順次に特定単位期間Ｕ0として選択される。解析期間Ｑは、特定単位期間Ｕ0を含むＮ個の単位期間で構成される期間である。すなわち、演奏行列Ｚの第ｎ列は、解析期間Ｑを構成するＮ個の単位期間のうち第ｎ番目の単位期間に対応する。具体的には、解析期間Ｑは、１個の特定単位期間Ｕ0（現在）と、特定単位期間Ｕ0の前方（過去）に位置する期間Ｕ1と、特定単位期間Ｕ0の後方（未来）に位置する期間Ｕ2とで構成される。期間Ｕ1および期間Ｕ2の各々は、複数の単位期間で構成された約１秒程度の期間である。

【0023】

演奏行列Ｚのうち期間Ｕ1内の各単位期間に対応する要素は、演奏制御部２１から既に取得した各演奏データＥに応じて「１」または「０」に設定される。他方、演奏行列Ｚのうち期間Ｕ2内の各単位期間に対応する要素（すなわち、演奏データＥを未だ取得していない未来の期間に対応する要素）は、特定単位期間Ｕ0以前の音符の時系列と楽曲データＤとから予測される。期間Ｕ2内の各単位期間に対応する要素の予測には、公知の時系列解析技術（例えば線形予測またはカルマンフィルタ）が任意に採用される。以上の説明から理解される通り、解析データＸは、演奏者Ｐによる演奏に応じた可変の時点で発音される音符の時系列を表すデータである。

【0024】

図２の制御データ生成部２３は、演奏者オブジェクトＯbの動作を制御するための制御データＹを、解析データ生成部２２が生成した解析データＸから生成する。制御データＹは、単位期間毎に順次に生成される。具体的には、任意の１個の単位期間の解析データＸから当該単位期間の制御データＹが生成される。演奏制御部２１による演奏データＥの出力に並行して制御データＹが生成される。すなわち、演奏者Ｐによる実演奏および演奏装置１２による自動演奏に並行して制御データＹの時系列が生成される。以上の例示の通り、本実施形態では、演奏装置１２による自動演奏と制御データＹの生成とに共通の演奏データＥが利用される。したがって、演奏装置１２による自動演奏と制御データＹの生成とに別個のデータを利用する構成と比較して、演奏装置１２による自動演奏に連動した動作をオブジェクトに実行させるための処理が簡素化されるという利点がある。

【0025】

図５は、演奏者オブジェクトＯbおよび制御データＹの説明図である。図５に例示される通り、演奏者オブジェクトＯbは、複数の制御点４１と複数の連結部４２（リンク）とで骨格が表現される。各制御点４１は、仮想空間内で移動可能な点であり、連結部４２は、各連結部４２を相互に連結する直線である。図３および図５から理解される通り、楽器の演奏に直接的に関与する両腕部だけでなく、演奏中に揺動する胸部および頭部にも、連結部４２および制御点４１が設定される。各制御点４１を移動させることで演奏者オブジェクトＯbの動作が制御される。以上に説明した通り、本実施形態では、両腕部に加えて胸部および頭部にも制御点４１が設定されるから、両腕部により楽器を演奏する動作だけでなく、演奏中に胸部および頭部を揺動させる動作を含む自然な演奏動作を、演奏者オブジェクトＯbに実行させることができる。すなわち、演奏者オブジェクトＯbが仮想的な演奏者として自動演奏しているような演出を実現できる。なお、制御点４１および連結部４２の位置または個数は任意であり、以上の例示には限定されない。

【0026】

制御データ生成部２３が生成する制御データＹは、座標空間内における複数の制御点４１の各々の位置を表すベクトルである。本実施形態の制御データＹは、図５に例示される通り、相互に直交するＡx軸とＡy軸とが設定された２次元座標空間内における各制御点４１の座標を表す。制御データＹが表す各制御点４１の座標は、複数の制御点４１について平均が０で分散が１となるように正規化されている。複数の制御点４１の各々についてＡx軸上の座標とＡy軸上の座標とを配列したベクトルが制御データＹとして利用される。ただし、制御データＹの形式は任意である。以上に例示した制御データＹの時系列は、演奏者オブジェクトＯbの動作（すなわち、各制御点４１および各連結部４２の経時的な移動）を表現する。

【0027】

本実施形態の制御データ生成部２３は、図６に例示される通り、学習済モデルＭを利用して解析データＸから制御データＹを生成する。学習済モデルＭは、解析データＸと制御データＹとの関係を学習した統計的予測モデル（典型的にはニューラルネットワーク）であり、解析データＸの入力に対して制御データＹを出力する。本実施形態の学習済モデルＭは、図６に例示される通り、第１統計モデルＭaと第２統計モデルＭbとを直列に接続した構成である。

【0028】

第１統計モデルＭaは、解析データＸの特徴を表す特徴ベクトルＦを生成する。例えば特徴の抽出に好適な畳込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）が第１統計モデルＭaとして好適に利用される。図７に例示される通り、第１統計モデルＭaは、例えば第１層Ｌa1と第２層Ｌa2と全結合層Ｌa3とを積層した構成である。第１層Ｌa1および第２層Ｌa2の各々は、畳込層と最大プーリング層とで構成される。

【0029】

第２統計モデルＭbは、特徴ベクトルＦに応じた制御データＹを生成する。例えば時系列データの処理に好適な長期短期記憶（ＬＳＴＭ：Long Short Term Memory）ユニットを含む再帰型ニューラルネットワーク（ＲＮＮ：Recurrent Neural Network）が第２統計モデルＭbとして好適に利用される。具体的には、図８に例示される通り、第２統計モデルＭbは、例えば第１層Ｌb1と第２層Ｌb2と全結合層Ｌb3とを積層した構成である。第１層Ｌb1および第２層Ｌb2の各々は、長期短期記憶ユニットで構成される。以上に例示した通り、本実施形態によれば、畳込みニューラルネットワークと再帰型ニューラルネットワークとの組合せにより、演奏データＥの時系列に応じた適切な制御データＹを生成できる。ただし、学習済モデルＭの構成は任意であり、以上の例示には限定されない。

【0030】

学習済モデルＭは、解析データＸから制御データＹを生成する演算を制御装置１１１に実行させるプログラム（例えば人工知能ソフトウェアを構成するプログラムモジュール）と、当該演算に適用される複数の係数Ｃとの組合せで実現される。複数の係数Ｃは、多数の教師データＴを利用した機械学習（特に深層学習）により設定されて記憶装置１１２に保持される。具体的には、第１統計モデルＭaを規定する複数の係数Ｃと第２統計モデルＭbを規定する複数の係数Ｃとが、複数の教師データＴを利用した機械学習により一括的に設定される。

【0031】

図９は、教師データＴの説明図である。図９に例示される通り、複数の教師データＴの各々は、解析データｘと制御データｙとの組合せを表す。演奏者オブジェクトＯbが仮想的に演奏する楽器と同種の楽器を特定の演奏者（以下「標本演奏者」という）が実際に演奏する場面を観測することで、機械学習用の複数の教師データＴが収集される。具体的には、標本演奏者が演奏した音符の時系列を表す解析データｘが順次に生成される。また、標本演奏者による演奏の様子を撮像した動画像から標本演奏者の各制御点の位置が特定され、各制御点の位置を表す制御データｙが生成される。時間軸上の１個の時点について生成された解析データｘと制御データｙとを相互に対応させることで１個の教師データＴが生成される。なお、複数の標本演奏者から教師データＴを収集してもよい。

【0032】

機械学習では、教師データＴの解析データｘを暫定的なモデルに入力したときに生成される制御データＹと、当該教師データＴの制御データｙ（すなわち正解）との差異を表す損失関数が最小化されるように、学習済モデルＭの複数の係数Ｃが設定される。例えば、暫定的なモデルが生成する制御データＹと教師データＴの制御データｙとの間の平均絶対誤差が損失関数として好適である。

【0033】

なお、損失関数の最小化という条件だけでは、各制御点４１の間隔（すなわち各連結部４２の全長）が一定であることが保証されない。したがって、演奏者オブジェクトＯbの各連結部４２が不自然に伸縮する可能性がある。そこで、本実施形態では、損失関数の最小化という条件のほか、制御データｙが表す各制御点４１の間隔の時間的な変化が最小化されるという条件のもとで、学習済モデルＭの複数の係数Ｃが最適化される。したがって、各連結部４２の伸縮が低減された自然な動作を演奏者オブジェクトＯbに実行させることが可能である。以上に説明した機械学習で生成された学習済モデルＭは、標本演奏者による演奏内容と演奏時の身体の動作との関係から抽出される傾向のもとで、未知の解析データＸに対して統計的に妥当な制御データＹを出力する。また、第１統計モデルＭaは、解析データＸと制御データＹとの間に以上の関係を成立させるために最適な特徴ベクトルＦを抽出するように学習される。

【0034】

図２の表示制御部２４は、制御データ生成部２３が単位期間毎に生成した制御データＹに応じて演奏者オブジェクトＯbを表示装置１４に表示させる。具体的には、制御データＹで指定される座標に各制御点４１が位置するように、演奏者オブジェクトＯbの状態が単位期間毎に更新される。単位期間毎に以上の制御が実行されることで各制御点４１は経時的に移動する。すなわち、演奏者オブジェクトＯbは演奏動作を実行する。以上の説明から理解される通り、制御データＹの時系列は演奏者オブジェクトＯbの動作を規定する。

【0035】

図１０は、演奏者オブジェクトＯbの動作を制御するための処理（以下「動作制御処理」という）を例示するフローチャートである。動作制御処理は、時間軸上の単位期間毎に実行される。動作制御処理を開始すると、解析データ生成部２２は、特定単位期間Ｕ0とその前方および後方の期間（Ｕ1，Ｕ2）とを含む解析期間Ｑ内の音符の時系列を表す解析データＸを生成する（Ｓ1）。制御データ生成部２３は、解析データ生成部２２が生成した解析データＸを学習済モデルＭに入力することで制御データＹを生成する（Ｓ2）。表示制御部２４は、制御データ生成部２３が生成した制御データＹに応じて演奏者オブジェクトＯbを更新する（Ｓ3）。解析データＸの生成（Ｓ1）と制御データＹの生成（Ｓ2）と演奏者オブジェクトＯbの表示（Ｓ3）とは、演奏データＥの取得に並行して実行される。

【0036】

以上に説明した通り、本実施形態では、特定単位期間Ｕ0とその前後の期間とを含む解析期間Ｑ内の解析データＸから、演奏データＥの取得に並行して、演奏者オブジェクトＯbの動作を制御するための制御データＹが生成される。したがって、楽曲内の各音符の発音の時点が可変であるにも関わらず、演奏者オブジェクトＯbの動作を適切に制御できる。

【0037】

また、本実施形態では、学習済モデルＭに解析データＸを入力することで制御データＹが生成されるから、機械学習に利用された複数の教師データＴから特定される傾向のもとで、未知の解析データＸに対して統計的に妥当な動作を表す多様な制御データＹを生成できる。また、複数の制御点４１の各々の位置を示す座標が正規化されているから、多様なサイズの演奏者オブジェクトＯbの動作を制御データＹにより制御できるという利点もある。

【0038】

＜変形例＞
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２個以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。

【0039】

（１）前述の形態では、解析期間Ｑ内の音符の時系列を表す２値行列を演奏行列Ｚとして例示したが、演奏行列Ｚは以上の例示に限定されない。例えば、解析期間Ｑ内の音符の演奏強度（音量）を表す演奏行列Ｚを生成してもよい。具体的には、演奏行列Ｚのうち第ｋ行第ｎ列の１個の要素は、第ｎ列に対応する単位期間において第ｋ行に対応する音高が演奏される強度を表す。以上の構成によれば、各音符の演奏強度が制御データＹに反映されるから、演奏強度の強弱に応じて演奏者の動作が相違する傾向を演奏者オブジェクトＯbの動作に付与することができる。

【0040】

（２）前述の形態では、第１統計モデルＭaが生成した特徴ベクトルＦを第２統計モデルＭbに入力したが、第１統計モデルＭaが生成した特徴ベクトルＦに他の要素を付加したうえで第２統計モデルＭbに入力してもよい。例えば、演奏者Ｐによる楽曲の演奏時点（例えば小節線からの距離）、演奏速度、楽曲の拍子を表す情報、または演奏強度（例えば強度値もしくは強度記号）を、特徴ベクトルＦに付加したうえで第２統計モデルＭbに入力してもよい。

【0041】

（３）前述の形態では、演奏装置１２の制御に利用される演奏データＥを演奏者オブジェクトＯbの制御にも流用したが、演奏データＥを利用した演奏装置１２の制御を省略してもよい。また、演奏データＥは、ＭＩＤＩ規格に準拠したデータに限定されない。例えば、収音装置１３が出力する音響信号Ａの周波数スペクトルを演奏データＥとして利用してもよい。演奏データＥの時系列は、音響信号Ａのスペクトログラムに相当する。音響信号Ａの周波数スペクトルは、楽器が発音する音符の音高に対応した帯域にピークが観測されるから、音符の発音を表すデータに相当する。以上の説明から理解される通り、演奏データＥは、音符の発音を表すデータとして包括的に表現される。

【0042】

（４）前述の形態では、自動演奏の対象となる楽曲を演奏する演奏者を表す演奏者オブジェクトＯbを例示したが、制御データＹにより動作が制御されるオブジェクトの態様は以上の例示に限定されない。例えば、演奏装置１２による自動演奏に連動してダンスを実施するダンサーを表すオブジェクトを表示装置１４に表示させてもよい。具体的には、楽曲に合わせてダンスするダンサーを撮像した動画像から制御点の位置が特定され、各制御点の位置を表すデータが教師データＴの制御データｙとして利用される。したがって、学習済モデルＭは、演奏される音符とダンサーの身体の動作との関係から抽出される傾向を学習する。以上の説明から理解される通り、制御データＹは、実演者（例えば演奏者またはダンサー）を表すオブジェクトの動作を制御するためのデータとして包括的に表現される。

【0043】

（５）前述の形態に係る情報処理装置１１の機能は、コンピュータ（例えば制御装置１１１）とプログラムとの協働により実現される。前述の形態に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされる。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を含む。なお、非一過性の記録媒体とは、一過性の伝搬信号（transitory, propagating signal）を除く任意の記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに提供してもよい。

【0044】

（６）学習済モデルＭを実現するための人工知能ソフトウェアの実行主体はＣＰＵに限定されない。例えば、Tensor Processing UnitおよびNeural Engine等のニューラルネットワーク用の処理回路、または、人工知能に専用されるＤＳＰ（Digital Signal Processor）が、人工知能ソフトウェアを実行してもよい。また、以上の例示から選択された複数種の処理回路が協働して人工知能ソフトウェアを実行してもよい。

【0045】

＜付記＞
以上に例示した形態から、例えば以下の構成が把握される。

【0046】

本発明の好適な態様（第１態様）に係る情報処理方法は、時間軸上の可変の時点における音符の発音を表す演奏データを順次に取得し、複数の単位期間の各々について、当該単位期間と、当該単位期間の前方および後方の期間とを含む解析期間内の音符の時系列を表す解析データを、前記演奏データの取得に並行して、当該演奏データの時系列から順次に生成し、実演者を表すオブジェクトの動作を制御するための制御データを、前記演奏データの取得に並行して、前記解析データから順次に生成する。以上の態様では、単位期間とその前後の期間とを含む解析期間内の解析データから、演奏データの取得に並行して、オブジェクトの動作を制御するための制御データが生成される。したがって、各音符の発音の時点が可変である状況でもオブジェクトの動作を適切に制御することができる。

【0047】

第１態様の好適例（第２態様）に係る情報処理方法は、前記演奏データを順次に供給することで演奏装置に自動演奏を実行させる。以上の態様では、演奏装置による自動演奏と制御データの生成とに共通の演奏データが利用されるから、演奏装置による自動演奏に連動した動作をオブジェクトに実行させるための処理が簡素化されるという利点がある。

【0048】

第２態様の好適例（第３態様）において、前記制御データは、前記オブジェクトによる楽器の演奏時の動作を制御するためのデータである。以上の態様によれば、オブジェクトが仮想的な演奏者として自動演奏しているような演出を実現できる。

【符号の説明】

【0049】

１００…演奏システム、１１…情報処理装置、１１１…制御装置、１１２…記憶装置、１２…演奏装置、１２１…駆動機構、１２２…発音機構、１３…収音装置、１４…表示装置、２１…演奏制御部、２２…解析データ生成部、２３…制御データ生成部、２４…表示制御部、４１…制御点、４２…連結部、Ｍ…学習済モデル、Ｍa…第１統計モデル、Ｍb…第２統計モデル。

【図1】