IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤマハ株式会社の特許一覧

<>
  • 特許-情報処理方法および情報処理装置 図1
  • 特許-情報処理方法および情報処理装置 図2
  • 特許-情報処理方法および情報処理装置 図3
  • 特許-情報処理方法および情報処理装置 図4
  • 特許-情報処理方法および情報処理装置 図5
  • 特許-情報処理方法および情報処理装置 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-09-27
(45)【発行日】2022-10-05
(54)【発明の名称】情報処理方法および情報処理装置
(51)【国際特許分類】
   G10H 1/00 20060101AFI20220928BHJP
   G06N 3/02 20060101ALI20220928BHJP
【FI】
G10H1/00 102Z
G06N3/02
【請求項の数】 6
(21)【出願番号】P 2018164362
(22)【出願日】2018-09-03
(65)【公開番号】P2020038252
(43)【公開日】2020-03-12
【審査請求日】2021-07-19
(73)【特許権者】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】100125689
【弁理士】
【氏名又は名称】大林 章
(74)【代理人】
【識別番号】100128598
【弁理士】
【氏名又は名称】高田 聖一
(74)【代理人】
【識別番号】100121108
【弁理士】
【氏名又は名称】高橋 太朗
(72)【発明者】
【氏名】前澤 陽
【審査官】大野 弘
(56)【参考文献】
【文献】国際公開第2018/016581(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10H 1/00
G06N 3/02
(57)【特許請求の範囲】
【請求項1】
第1動作の内容を表す第1時系列データと、前記第1動作に並行する第2動作の内容を表す第2時系列データと、を学習済モデルに入力することで、前記第1動作と前記第2動作との間の時間的な関係が変化する過程に関する変化パラメータを生成する
コンピュータにより実現される情報処理方法。
【請求項2】
前記変化パラメータは、
前記第1動作に対する前記第2動作の時間的な誤差が変化する過程に関する第1パラメータと、
前記第2動作に対する前記第1動作の時間的な誤差が変化する過程に関する第2パラメータとを含む
請求項1の情報処理方法。
【請求項3】
前記第1パラメータは、前記第1動作に対する前記第2動作の時間的な誤差が変化する過程を表す自己回帰過程のパラメータであり、
前記第2パラメータは、前記第2動作に対する前記第1動作の時間的な誤差が変化する過程を表す自己回帰過程のパラメータである
請求項2の情報処理方法。
【請求項4】
前記第1動作は、楽曲の複数の演奏パートのうちの第1演奏パートの演奏であり、
前記第2動作は、前記複数の演奏パートのうち前記第1演奏パート以外の第2演奏パートの演奏であり、
前記第1動作と前記第2動作との間の時間的な関係は、前記第1動作による演奏時点と前記第2動作による演奏時点との時間的な誤差である
請求項1から請求項3の何れかの情報処理方法。
【請求項5】
前記学習済モデルは、
前記第1時系列データの特徴を表す第1特徴データを生成する第1畳込ニューラルネットワークと、
前記第2時系列データの特徴を表す第2特徴データを生成する、前記第1畳込ニューラルネットワークと共通の構成の第2畳込ニューラルネットワークと、
前記第1特徴データと前記第2特徴データとに応じた前記変化パラメータを出力する全結合層とを含む
請求項1から請求項4の何れかの情報処理方法。
【請求項6】
第1動作の内容を表す第1時系列データと、前記第1動作に並行する第2動作の内容を表す第2時系列データと、を学習済モデルに入力することで、前記第1動作と前記第2動作との間の時間的な関係が変化する過程に関する変化パラメータを生成する推定処理部
を具備する情報処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、楽曲の演奏等の動作を表すデータを処理する技術に関する。
【背景技術】
【0002】
複数の演奏者が楽曲を合奏する場面など、複数の実演者が相互に協調しながら並行して実演する場面が数多く想定される。非特許文献1には、演奏者間の非言語的な相互作用により、複数の演奏者による演奏が相互に同期していくことが開示されている。
【先行技術文献】
【非特許文献】
【0003】
【文献】片平建史,「合奏場面での非言語的コミュニケーションの対人的効果」,対人社会心理学研究 12,p.51-58,2012
【発明の概要】
【発明が解決しようとする課題】
【0004】
複数の実演者による実演の間の時間的な関係(例えば時間差)が変化していく過程を推定できれば、例えば、演奏者による楽曲の実演奏に並行して自動演奏楽器に当該楽曲の自動演奏を実行させる場面において、自動演奏を実演奏に自然に追従させる(あるいは敢えて追従させない)ことができて便利である。なお、以上の説明では自動演奏の制御に便宜的に着目したが、複数の実演の相互間における時間的な関係が変化していく過程の推定結果は、自動演奏の制御以外の場面でも有効に利用される。以上の事情を考慮して、本発明は、複数の動作の間の時間的な関係が変化していく過程を推定することを目的とする。
【課題を解決するための手段】
【0005】
以上の課題を解決するために、本発明の好適な態様に係る情報処理方法は、第1動作の内容を表す第1時系列データと、前記第1動作に並行する第2動作の内容を表す第2時系列データと、を学習済モデルに入力することで、前記第1動作と前記第2動作との間の時間的な関係が変化する過程に関する変化パラメータを生成する。
【0006】
本発明の好適な態様に係る情報処理装置は、第1動作の内容を表す第1時系列データと、前記第1動作に並行する第2動作の内容を表す第2時系列データと、を学習済モデルに入力することで、前記第1動作と前記第2動作との間の時間的な関係が変化する過程に関する変化パラメータを生成する推定処理部を具備する。
【図面の簡単な説明】
【0007】
図1】実施形態に係る情報処理装置の構成を例示するブロック図である。
図2】情報処理装置の機能的な構成を例示するブロック図である。
図3】第1演奏パートの演奏時点と第2演奏パートの演奏時点との時間的な誤差の説明図である。
図4】学習済モデルの構成を例示するブロック図である。
図5】推定処理の具体的な手順を例示するフローチャートである。
図6】学習処理の具体的な手順を例示するフローチャートである。
【発明を実施するための形態】
【0008】
図1は、本発明の好適な形態に係る情報処理装置100の構成を例示するブロック図である。図1に例示される通り、本実施形態の情報処理装置100は、制御装置11と記憶装置12と収音装置13とを具備するコンピュータシステムで実現される。例えば携帯電話機、スマートフォンまたはパーソナルコンピュータ等の情報端末が、情報処理装置100として好適に利用される。
【0009】
図1の演奏者Pは楽器を演奏する。収音装置13は、演奏者Pによる演奏で楽器から発音される音響を収音し、当該音響を表す音響信号を生成する。演奏者Pは、楽曲を構成する複数の演奏パートのうち第1演奏パートを演奏する。したがって、収音装置13は、楽曲の第1演奏パートの演奏音を表す音響信号を生成する。なお、収音装置13が生成した音響信号をアナログからデジタルに変換するA/D変換器の図示は便宜的に省略した。
【0010】
電気弦楽器等の電気楽器が生成する音響信号を情報処理装置100に供給してもよい。電気楽器が音響信号を生成する構成では、収音装置13は省略される。演奏者Pが歌唱曲の第1演奏パートを歌唱した音声を表す音響信号を、収音装置13が生成してもよい。また、収音装置13が情報処理装置100に搭載された構成を図1では例示したが、情報処理装置100とは別体の収音装置13を有線または無線により情報処理装置100に接続してもよい。
【0011】
制御装置11は、例えばCPU(Central Processing Unit)等の処理回路であり、情報処理装置100の各要素を統括的に制御する。記憶装置12は、制御装置11が実行するプログラムと制御装置11が使用する各種のデータとを記憶する。例えば磁気記録媒体または半導体記録媒体等の公知の記録媒体が記憶装置12として利用される。なお、複数種の記録媒体の組合せにより記憶装置12を構成してもよい。また、情報処理装置100に対して着脱可能な可搬型の記録媒体、または情報処理装置100が通信網を介して通信可能な外部記録媒体(例えばオンラインストレージ)を、記憶装置12として利用してもよい。
【0012】
本実施形態の記憶装置12は、演奏データX1および演奏データX2を記憶する。演奏データX1は、楽曲の第1演奏パートによる演奏の内容を表すデータである。すなわち、演奏データX1は、演奏者Pによる演奏の内容を表すデータである。ただし、演奏者Pによる実際の演奏には、当該演奏者Pに特有の音楽的な意図が反映されるから、演奏データX1が表す演奏は、演奏者Pが表す演奏に厳密に一致するわけではない。他方、演奏データX2は、楽曲の第2演奏パートによる演奏の内容を表すデータである。第1演奏パートと第2演奏パートとは、楽曲の別個の演奏パートである。例えば、第1演奏パートは旋律パートであり、第2演奏パートは伴奏パートである。例えばMIDI(Musical Instrument Digital Interface)規格に準拠したMIDIデータが演奏データX1および演奏データX2として好適である。具体的には、演奏データX1および演奏データX2の各々は、各演奏パートの複数の音符の各々について音高および音量を指定して発音または消音を指示するデータ(例えばMIDIイベントデータ)の時系列である。
【0013】
演奏装置15は、情報処理装置100による制御のもとで楽曲の自動演奏を実行する。具体的には、演奏装置15は、例えば弦等の発音体を発音させる発音機構と、発音機構を駆動する駆動機構とを具備する自動演奏楽器(例えば自動演奏ピアノ)である。情報処理装置100からの指示に応じて駆動機構が発音機構を駆動することで自動演奏が実現される。本実施形態の演奏装置15は、演奏データX2が表す第2演奏パートについて自動演奏を実行する。なお、情報処理装置100を演奏装置15に搭載してもよい。
【0014】
図2は、情報処理装置100の機能的な構成を例示するブロック図である。図2に例示される通り、制御装置11は、記憶装置12に記憶されたプログラムを実行することで複数の機能(演奏制御部21,推定処理部22および学習処理部23)を実現する。なお、相互に別体で構成された複数の装置により制御装置11の機能を実現してもよい。制御装置11の機能の一部または全部を専用の電子回路で実現してもよい。
【0015】
演奏制御部21は、演奏者Pによる第1演奏パートの演奏に並行して、演奏データX2が表す第2演奏パートの自動演奏を演奏装置15に実行させる。本実施形態の演奏制御部21は、演奏者Pによる第1演奏パートの演奏に追従するように演奏装置15による自動演奏を制御する。具体的には、演奏制御部21は、収音装置13が生成する音響信号Aを解析することで、楽曲内において演奏者Pが演奏している時点(以下「演奏時点」という)を推定し、当該演奏時点の進行に追従するように演奏装置15による第2演奏パートの自動演奏を制御する。したがって、演奏者Pと演奏装置15とが恰も相互に呼吸を合わせて協調的に合奏しているかのような雰囲気を醸成することが可能である。なお、演奏時点の推定には公知の解析技術(スコアアライメント技術)が任意に採用される。
【0016】
ここで、複数の演奏者による実際の合奏の傾向について説明する。図3は、第1演奏パートの各発音点Ba(Ba1,Ba2,…)と第2演奏パートの各発音点Bb(Bb1,Bb2,…)との時間的な関係の説明図である。
【0017】
各発音点Baと各発音点Bbとは、楽曲の楽譜において同時に発音することが規定されていると仮定する。すなわち、楽譜通りに演奏した場合には、各発音点Baと各発音点Bbとは時間軸上で一致する。しかし、各演奏者の音楽的な意図または嗜好等を反映して、実際の演奏では、第1演奏パートの各発音点Baと第2演奏パートの各発音点Bbとは、時間軸上で完全には合致しない。第1演奏パートの演奏時点と第2演奏パートの演奏時点との間には時間的な誤差(すなわち時間差)Eが発生する。誤差Eは、第1演奏パートの演奏と第2演奏パートの演奏との間の時間的な関係である。誤差Eは、第2演奏パートに対する第1演奏パートの誤差Eaと、第1演奏パートに対する第2演奏パートの誤差Ebとに区別される。
【0018】
実際の合奏の場面では、第1演奏パートと第2演奏パートとの間の時間的な関係(すなわち誤差E)が、楽曲の内容に応じて刻々と変動する。例えば、
・第1演奏パートと第2演奏パートとの間で追従が発生するか否か、
・第1演奏パートおよび第2演奏パートの何れが他方に追従するのか(追従の方向)、
・演奏パート間でどの程度の追従が発生するのか
等の傾向は、楽曲内の音符の配列パターン等の内容(すなわち音楽的なコンテキスト)に依存する。例えば、楽曲のうち第1演奏パートの音数が多い区間では第2演奏パートが第1演奏パートに追従し、または、楽曲のうち第2演奏パートの音符が所定のリズムで発音される区間では第1演奏パートが第2演奏パートに追従する、等の様々な傾向が想定される。
【0019】
ここで、演奏パート間の演奏時点の誤差Eの時間的な変化は、自己回帰過程(AR(autoregressive)モデル)で近似される。具体的には、誤差Eaおよび誤差Ebは、以下の数式で表現される2次の自己回帰過程で表現される。記号tは時間軸上の任意の時点である。
Ea(t)=Ca1・Ea(t-1)+Ca2・Ea(t-2) …(1)
Eb(t)=Cb1・Eb(t-1)+Cb2・Eb(t-2) …(2)
【0020】
数式(1)の記号Ca1およびCa2と数式(2)の記号Cb1および記号Cb2とは、誤差Eの変化を近似する自己回帰過程のパラメータである。以下の説明では、数式(1)の記号Ca1およびCa2と数式(2)の記号Cb1および記号Cb2との集合を「変化パラメータC」と表記する。変化パラメータCは、誤差Eaに対応する第1パラメータCa(Ca1およびCa2)と、誤差Ebに対応する第2パラメータCb(Cb1およびCb2)とを包含する。
【0021】
以上に説明した通り、演奏パート間の演奏時点の誤差Eは楽曲の内容に依存し、かつ、誤差Eは、変化パラメータCで規定される自己回帰過程により近似される。したがって、誤差Eの変化パラメータCは楽曲の内容に依存する、という傾向がある。以上に説明した傾向が自動演奏において再現されるように、本実施形態の演奏制御部21は、演奏者Pによる第1演奏パートの演奏時点と演奏装置15による第2演奏パートの演奏時点との間の誤差Eが、楽曲の内容に応じて経時的に変化するように、演奏装置15による演奏時点を制御する。演奏制御部21による以上の制御を実現するために、図2の推定処理部22は、記憶装置12に記憶された演奏データX1および演奏データX2から変化パラメータCの時系列を生成する。
【0022】
図2に例示される通り、本実施形態の推定処理部22は、楽曲の演奏データX1と演奏データX2とを学習済モデルMに入力することで、当該楽曲の第1演奏パートと第2演奏パートとの間の誤差Eの時間的な変化に関する変化パラメータCの時系列を生成する。変化パラメータCは、第2演奏パートに対する第1演奏パートの誤差Eaを示す第1パラメータCa(Ca1およびCa2)と、第1演奏パートに対する第2演奏パートの誤差Ebを示す第2パラメータCb(Cb1およびCb2)とを包含する。
【0023】
演奏制御部21は、推定処理部22が生成した変化パラメータCに応じて演奏装置15による自動演奏を制御する。具体的には、演奏制御部21は、例えば、演奏者Pによる第1演奏パートの演奏と演奏装置15による第2演奏パートの自動演奏との間の誤差Eaおよび誤差Ebが、変化パラメータCで規定される自己回帰過程により経時的に変化するように、演奏装置15による自動演奏を制御する。したがって、演奏者Pによる第1演奏パートの演奏との間で追従の度合および方向が聴感的に自然に変化する自動演奏を、演奏装置15に実行させることが可能である。
【0024】
図4は、学習済モデルMの具体的な構成を例示するブロック図である。推定処理部22は、時間軸上の複数の時点の各々を時系列の順番で処理時点τとして順次に選択し、図4に例示される通り、当該処理時点τに対応する処理データUを学習済モデルMに入力する。処理データUは、単位データU1および単位データU2を含む。単位データU1(第1時系列データの例示)は、演奏データX1のうち処理時点τを含む単位区間Q内の部分である。同様に、単位データU2(第2時系列データの例示)は、演奏データX2のうち処理時点τを含む単位区間Q内の部分である。単位区間Qは、例えば時間軸上において処理時点τを中心とする所定長(例えば楽曲の1小節分)の区間である。以上の説明から理解される通り、単位データU1は、楽曲の第1演奏パートのうち単位区間Q内の演奏内容を表す時系列データであり、単位データU2は、楽曲の第2演奏パートのうち単位区間Q内の演奏内容を表す時系列データである。学習済モデルMは、処理データU毎に変化パラメータCを出力する。
【0025】
学習済モデルMは、処理データUと変化パラメータCとの関係を学習した統計的予測モデルである。具体的には、学習済モデルMは、処理データUから変化パラメータCを生成する演算を制御装置11に実行させるプログラム(例えば人工知能ソフトウェアを構成するプログラムモジュール)と、当該演算に適用される複数の係数Kとの組合せで実現される。学習済モデルMを規定する複数の係数Kは、複数の学習データを利用した機械学習(特に深層学習)により設定されて記憶装置12に保持される。学習済モデルMの機械学習については後述する。
【0026】
図4に例示される通り、本実施形態の学習済モデルMは、第1畳込ニューラルネットワーク(CNN:Convolutional Neural Network)N1と第2畳込ニューラルネットワーク(CNN)N2と全結合層Nfとを含んで構成される。第1畳込ニューラルネットワークN1および第2畳込ニューラルネットワークN2の各々は、畳込層とプーリング層とを複数層にわたり積層したニューラルネットワークである。第1畳込ニューラルネットワークN1の構成と第2畳込ニューラルネットワークN2の構成とは共通する。単位データU1は第1畳込ニューラルネットワークN1に入力され、単位データU2は第2畳込ニューラルネットワークN2に入力される。
【0027】
第1畳込ニューラルネットワークN1は、単位データU1の特徴を表す特徴データF1(第1特徴データの例示)を生成する。第2畳込ニューラルネットワークN2は、単位データU2の特徴を表す特徴データF2(第2特徴データの例示)を生成する。特徴データF1が表す特徴は、処理データUと変化パラメータCとの間の関連付けに寄与する第1演奏パートの音楽的な特徴である。同様に、特徴データF2が表す特徴は、処理データUと変化パラメータCとの間の関連付けに寄与する第2演奏パートの音楽的な特徴である。全結合層Nfは、第1畳込ニューラルネットワークN1が生成した特徴データF1と第2畳込ニューラルネットワークN2が生成した特徴データF2とに応じた変化パラメータCを生成する。
【0028】
図5は、推定処理部22が変化パラメータCを生成する処理(以下「推定処理」という)の具体的な手順を例示するフローチャートである。時間軸上の複数の時点の各々について、当該時点を処理時点τとして図5の推定処理が実行される。
【0029】
推定処理を開始すると、推定処理部22は、処理時点τに対応する単位データU1および単位データU2を処理データUとして記憶装置12から取得する(Sa1)。推定処理部22は、単位データU1および単位データU2を学習済モデルMに入力することで変化パラメータCを生成する(Sa2~Sa4)。具体的には、推定処理部22は、第1畳込ニューラルネットワークN1に単位データU1を入力することで特徴データF1を生成し(Sa2)、第2畳込ニューラルネットワークN2に単位データU2を入力することで特徴データF2を生成する(Sa3)。特徴データF1の生成(Sa2)と特徴データF2の生成(Sa3)との順序を逆転してもよい。そして、推定処理部22は、特徴データF1および特徴データF2を全結合層Nfに入力することで変化パラメータCを生成する(Sa4)。以上の処理が処理時点τ毎に反復されることで、楽曲の全区間にわたる変化パラメータCの時系列が生成される。
【0030】
図2の学習処理部23は、推定処理に利用される学習済モデルMを生成する。具体的には、学習処理部23は、複数の学習データLを利用して複数の係数Kを反復的に更新する処理(以下「学習処理」という)により学習済モデルMの複数の係数Kを設定する。複数の学習データLの各々は、処理データUと変化パラメータCとを含むデータである。各学習データLに含まれる変化パラメータCは、第1演奏パートと第2演奏パートとの時間的な誤差から観測された既知の正解値である。すなわち、各学習データLの変化パラメータCは、当該学習データLの処理データUが表す単位区間Qを実際に演奏した結果から、第1演奏パートと第2演奏パートとの間における演奏時点の誤差の時間的な変化を解析することで観測される。任意の複数の楽曲に対応する学習データLが学習処理のために記憶装置12に記憶される。
【0031】
図6は、学習処理部23が学習済モデルMを生成する学習処理の具体的な手順を例示するフローチャートである。推定処理部22による推定処理の実行前に図5の学習処理が実行される。
【0032】
学習処理を開始すると、学習処理部23は、複数の係数Kが暫定な数値に設定されたモデル(以下「暫定モデル」という)に学習データLの処理データUを入力することで変化パラメータCを生成する(Sb1)。暫定モデルは、図4に例示した学習済モデルMと同様に、第1畳込ニューラルネットワークN1と第2畳込ニューラルネットワークN2と全結合層Nfとを含んで構成される。学習処理部23は、暫定モデルが生成した変化パラメータCと当該学習データLの変化パラメータCとの相違を表す評価関数を算定する(Sb2)。学習処理部23は、評価関数が所定値(典型的にはゼロ)に近付くように、暫定モデルの複数の係数Kを更新する(Sb3)。評価関数に応じた各係数Kの更新には、例えば誤差逆伝播法が好適に利用される。以上に説明した処理(Sb1~Sb3)が複数の学習データLの各々について反復される。複数の係数Kの更新が完了した段階の暫定モデルが、確定的な学習済モデルMとして推定処理に利用される。
【0033】
以上の説明から理解される通り、本実施形態によれば、複数の学習データLにおける処理データUと変化パラメータCとの間に潜在する傾向のもとで、未知の処理データUに対して統計的に妥当な変化パラメータCを生成することが可能である。すなわち、第1演奏パートの演奏と第2演奏パートの演奏との間の時間的な関係が変化していく過程を推定することができる。
【0034】
本実施形態では特に、変化パラメータCが第1パラメータCaと第2パラメータCbとを含むから、第1演奏パートの演奏と第2演奏パートの演奏との相互的な関係に関するパラメータを生成できるという利点がある。また、第1演奏パートの演奏と第2演奏パートの演奏との間の時間的な誤差Eが変化する過程が自己回帰過程により近似されるから、演奏パート間の演奏時点の誤差Eが自然に変化する過程を表す変化パラメータCを生成できるという利点もある。
【0035】
<変形例>
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
【0036】
(1)前述の各形態では、楽曲の第1演奏パートと第2演奏パートとが相異なる演奏パートである場合を例示したが、第1演奏パートと第2演奏パートとを共通の演奏パートとしてもよい。第1演奏パートと第2演奏パートとが共通する構成では、楽曲のひとつの演奏パートを複数の演奏者が並行に演奏する場合(いわゆるユニゾン)における両演奏間の時間的な誤差Eに関する変化パラメータCを推定できる。
【0037】
(2)前述の形態では、ひとりの演奏者Pによる演奏の内容を表す演奏データX1(単位データU1)を例示したが、複数の演奏者による第1演奏パートの平均的な演奏を表す演奏データX1を利用してもよい。以上の構成によれば、複数の演奏者が第1演奏パートを演奏する場合における第2演奏パートとの時間的な誤差Eの変化を適切に表現する変化パラメータCが生成される。同様に、複数の演奏者による第2演奏パートの平均的な演奏を表す演奏データX2(単位データU1)を利用してもよい。
【0038】
(3)前述の形態では、演奏データX1および演奏データX2としてMIDIデータを例示したが、演奏データX1(単位データU1)および演奏データX2(単位データU2)の具体的な形式は任意である。例えば、第1演奏パートの演奏音の波形を表すサンプルの時系列を演奏データX1として利用し、第2演奏パートの演奏音の波形を表すサンプルの時系列を演奏データX2として利用してもよい。また、第1演奏パートの演奏時における演奏者の身体の各部位の動作を表す動作データを演奏データX1として利用し、第2演奏パートの演奏時における演奏者の身体の各部位の動作を表す動作データを演奏データX2として利用してもよい。
【0039】
(4)前述の形態では、第1演奏パートと第2演奏パートとの間の演奏時点の誤差Eの時間的な変化を自己回帰過程により近似したが、誤差Eの時間的な変化を近似するモデルは以上の例示に限定されない。例えば、非線形振動等の振動過程により誤差Eの時間的な変化を近似し、当該振動過程を規定する変化パラメータCを推定してもよい。
【0040】
(5)前述の形態では、第1演奏パートの演奏と第2演奏パートの演奏との時間的な誤差の変化を表す変化パラメータCを生成したが、相互に並行する複数の動作の間の時間的な関係の変化を表す変化パラメータCを推定する任意の場面において、前述の形態と同様に本発明が利用される。例えば、特定のダンス(第1ダンス)を表す単位データU1と、当該第1ダンスに並行する他のダンス(第2ダンス)を表す単位データU2とを学習済モデルMに入力することで、第1ダンスと第2ダンスとの時間的な関係が変化する過程に関する変化パラメータCを生成することが可能である。第1ダンスは、例えば男女のペアで実演されるペアダンスにおける男性のダンスであり、第2ダンスは女性のダンスである。以上の説明から理解される通り、単位データU1は、第1動作の内容を表す第1時系列データとして包括的に表現され、単位データU2は、第2動作の内容を表す第2時系列データとして包括的に表現される。第1動作および第2動作の典型例は、演奏またはダンスであるが、以上の例示には限定されない。
【0041】
(6)前述の形態では、推定処理部22および学習処理部23の双方を具備する情報処理装置100を例示したが、推定処理部22と学習処理部23とを別個の情報処理装置で実現してもよい。推定処理部22を具備する情報処理装置は、処理データUから変化パラメータCを推定する推定装置として実現される。推定装置において学習処理部23の有無は不問である。また、学習処理部23を具備する情報処理装置は、複数の学習データLを利用した学習処理で学習済モデルMを生成する学習装置として実現される。学習装置において推定処理部22の有無は不問である。端末装置と通信可能なサーバ装置により学習装置を実現し、学習装置が生成した学習済モデルMを端末装置に配信してもよい。端末装置は、学習装置から配信された学習済モデルMを利用して推定処理を実行する推定処理部22を具備する。
【0042】
(7)前述の各形態に係る情報処理装置100の機能は、コンピュータ(例えば制御装置11)とプログラムとの協働により実現される。本発明の好適な態様に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされる。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を含む。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに提供してもよい。
【0043】
(8)学習済モデルMを実現するための人工知能ソフトウェアの実行主体はCPUに限定されない。例えば、Tensor Processing UnitおよびNeural Engine等のニューラルネットワーク専用の処理回路、または、人工知能に専用されるDSP(Digital Signal Processor)が、人工知能ソフトウェアを実行してもよい。また、以上の例示から選択された複数種の処理回路が協働して人工知能ソフトウェアを実行してもよい。
【0044】
<付記>
以上に例示した形態から、例えば以下の構成が把握される。
【0045】
本発明の好適な態様(第1態様)に係る情報処理方法は、第1動作の内容を表す第1時系列データと、前記第1動作に並行する第2動作の内容を表す第2時系列データと、を学習済モデルに入力することで、前記第1動作と前記第2動作との間の時間的な関係が変化する過程に関する変化パラメータを生成する。以上の態様によれば、第1動作および第2動作の内容と両動作間の時間的な関係が変化する過程とについて学習済モデルが学習した関係のもとで、未知の第1動作と第2動作との時間的な関係が変化していく過程を推定することが可能である。
【0046】
第1態様の好適例(第2態様)において、前記変化パラメータは、前記第1動作に対する前記第2動作の時間的な誤差が変化する過程に関する第1パラメータと、前記第2動作に対する前記第1動作の時間的な誤差が変化する過程に関する第2パラメータとを含む。以上の態様によれば、第1動作と第2動作との相互的な関係に関する変化パラメータを生成することが可能である。
【0047】
第2態様の好適例(第3態様)において、前記第1パラメータは、前記第1動作に対する前記第2動作の時間的な誤差が変化する過程を表す自己回帰過程のパラメータであり、前記第2パラメータは、前記第2動作に対する前記第1動作の時間的な誤差が変化する過程を表す自己回帰過程のパラメータである。以上の態様によれば、第1動作と第2動作との間の時間的な誤差が変化する過程が自己回帰過程により近似されるから、当該誤差が自然に変化する過程を表現する変化パラメータを生成できる。
【0048】
第1態様から第3態様の何れかの好適例(第4態様)において、前記第1動作は、楽曲の複数の演奏パートのうちの第1演奏パートの演奏であり、前記第2動作は、前記複数の演奏パートのうち前記第1演奏パート以外の第2演奏パートの演奏であり、前記第1動作と前記第2動作との間の時間的な関係は、前記第1動作による演奏時点と前記第2動作による演奏時点との時間的な誤差である。以上の態様によれば、楽曲の第1演奏パートと第2演奏パートとの間における演奏時点の誤差が変化する過程を適切に表す変化パラメータを生成することが可能である。
【0049】
第1態様から第4態様の何れかの好適例(第5態様)において、前記学習済モデルは、前記第1時系列データの特徴を表す第1特徴データを生成する第1畳込ニューラルネットワークと、前記第2時系列データの特徴を表す第2特徴データを生成する、前記第1畳込ニューラルネットワークと共通の構成の第2畳込ニューラルネットワークと、前記第1特徴データと前記第2特徴データとに応じた前記変化パラメータを出力する全結合層とを含む。以上の態様によれば、第1動作および第2動作の内容と両動作間の時間的な関係が変化する過程との間の関係に対して特に寄与する特徴を表す第1特徴データおよび第2特徴データが生成される。したがって、第1時系列データと第2時系列データとに対して適切な変化パラメータを生成することが可能である。
【0050】
以上に例示した各態様の情報処理方法を実行する情報処理装置、または、以上に例示した各態様の情報処理方法をコンピュータに実行させるプログラムとしても、本発明の好適な態様は実現される。
【符号の説明】
【0051】
100…情報処理装置、11…制御装置、12…記憶装置、13…収音装置、15…演奏装置、21…演奏制御部、22…推定処理部、23…学習処理部、M…学習済モデル、N1…第1畳込ニューラルネットワーク、N2…第2畳込ニューラルネットワーク、Nf…全結合層。
図1
図2
図3
図4
図5
図6