(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2025-01-15
(45)【発行日】2025-01-23
(54)【発明の名称】在宅楽器練習用のサーバ端末、再生端末、プログラム、データ処理方法及び楽器練習システム
(51)【国際特許分類】
G09B 15/00 20060101AFI20250116BHJP
G10H 1/00 20060101ALI20250116BHJP
【FI】
G09B15/00 Z
G10H1/00 Z
(21)【出願番号】P 2024011370
(22)【出願日】2024-01-29
【審査請求日】2024-02-16
【早期審査対象出願】
(73)【特許権者】
【識別番号】524039274
【氏名又は名称】李 美希
(74)【代理人】
【識別番号】110002516
【氏名又は名称】弁理士法人白坂
(72)【発明者】
【氏名】李 美希
【審査官】鈴木 崇雅
(56)【参考文献】
【文献】特開2017-032693(JP,A)
【文献】特開2002-182553(JP,A)
【文献】国際公開第2022/070769(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G09B 15/00-08
G10H 1/00-46
(57)【特許請求の範囲】
【請求項1】
練習映像を取得する映像取得端末と、前記練習映像を編集するサーバ端末と、前記サーバ端末から受信した編集済みの練習映像を再生する再生端末とを含む楽器練習システムであって、
前記映像取得端末は、
練習者の演奏している画像及びその音声データと、指導者の指導している画像及びその音声データとを、撮影する第1撮影部と、
前記第1撮影部が撮影した画像及び取得した音声データを記憶する第1記憶部と、
前記第1記憶部に記憶された画像と音声データを含む映像を、サーバ端末に送信する第1送信部と、を備え、
前記サーバ端末は、
前記第1送信部から送信した映像を受信する第1受信部と、
前記第1受信部が受信した映像を、当該映像に含まれる音に応じて自動編集する編集部と、
前記編集部により編集された映像を、前記再生端末に送信する第2送信部と、を備え、
前記再生端末は、
前記編集された映像を受信する第2受信部と、
前記第2受信部から受信した映像を記憶する第2記憶部と、
前記練習者が練習している音を録音する録音部と、
前記録音部が録音した音と前記編集された映像とに基づいて、前記練習者が練習している音に応じた前記指導者の音を再生する再生部と、を備える楽器練習システム。
【請求項2】
前記編集部は、
前記第1受信部が受信した映像から、
前記練習者の音及び前記指導者の演奏の音と発話の音を、それぞれに複数の演奏データ及び発話データごとに抽出し、
前記練習者の演奏中の音の類似度により前記演奏データを自動的にクラスタリングする
ことを特徴とする請求項1に記載の楽器練習システム。
【請求項3】
前記編集部は、更に、
映像の時間帯に基づく前記発話データを、
前記演奏データをクラスタリングしたクラスタに対して対応の発話をそれぞれに振り分け、演奏練習セットとして記憶する第2記憶部を、備える
ことを特徴とする請求項2に記載の楽器練習システム。
【請求項4】
前記再生端末は、
前記練習者からアップロードしたサンプル音を記憶する第3記憶部を含み、
前記第3記憶部に記憶されたサンプル音に基づいて、前記演奏練習セットに応じて前記指導者の発話の音を取り替えさせる
ことを特徴とする請求項3に記載の楽器練習システム。
【請求項5】
前記再生端末は、
前記演奏練習セットに基づいて全体練習時間を設定する設定部を含み、
前記設定部は、更に、練習者の演奏熟練度によって練習時間をそれぞれに設定する
ことを特徴とする請求項3に記載の楽器練習システム。
【請求項6】
前記再生端末は、
前記練習者が演奏している画像及びその音を撮影する第2撮影部と、
前記練習者が正しく演奏するか否かを、前記第2撮影部が撮影した映像に基づいて楽器を演奏している動作及びその音声に基づいて検出する検出部とを、備える
ことを特徴とする請求項3に記載の楽器練習システム。
【請求項7】
前記再生端末は、
正しくない演奏された部分を検出する場合、
前記第2撮影部が撮影した映像と前記演奏練習セットと、の類似度を推定するとともに、当該類似度が所定の閾値以上である場合に、当該演奏練習セットを再生する
ことを特徴とする請求項6に記載の楽器練習システム。
【請求項8】
前記練習者が演奏を練習する前に、前記演奏練習セットに参照するとともに、
当該演奏練習セットを指定して再生する
ことを特徴とする請求項3に記載の楽器練習システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、練習者が在宅で楽器練習をしている時に、間違った演奏部分を検出し、指導者の指摘を有する編集後の映像を活かして練習者に再指導を行う在宅楽器練習用のサーバ端末、再生端末、プログラム、データ処理方法及び楽器練習システムに関する。
【背景技術】
【0002】
近年、楽器の練習者はますます多くなり、練習者は音楽学校や音楽教室などに通って楽器の演奏方法を学んでいる。一般的には、音楽学校や音楽教室などの指導者は、毎回の授業をする前に練習課題を設定し、練習者は練習課題に応えて自宅で曲を演奏して練習する。その後、練習者は、次回の授業において練習した成果を指導者に見せる。この時、指導者は練習者が演奏している問題点を発見し、これに応じて適切な指導を行う。しかし、練習者は授業を受けた後に、自宅で復習しようとしている場合、様々な原因(例えば、授業中における指導者の指摘をきちんと理解できなかったり、自宅で練習のモチベーションが低くなったり、指導された内容を忘れたり)に左右されてしまい、練習者は効率的に練習することができない。
【0003】
従って、上記の問題を解決するために、練習者向けの在宅練習及び支援システムの開発は不可欠になる。特許文献1では、自発的な行動ベースという人間の特性を用い、音声データを背景音楽(バックグラウンドミュージック)のテンポに合わせたタイミングで自動的に配列する発音練習システムが提案されている。また、特許文献1に開示された発音練習システムは、背景音楽、信号音、模範発音、及びその模範発音に応じた画像に基づいて発音練習機能を提供する。練習者は常に背景音楽が流れている環境の下で、発音の練習をする。一つの実施例としては、当該発音練習システムは複数の模範発音と、その模範発音に対応する映像や画像とを学習内容として記憶する。練習者は発音練習の指示を入力装置に入力し、制御部は記憶された各音声データ(背景音楽、信号音及び模範発音)を読み出して配列する。また、制御部は、練習者に聞かせるための各音声データを背景音楽の拍に重ねて合図音(学習者に予告するための音声信号という)を再生する。当該発音練習システムの制御部は、模範発音と合図を繰り返して再生しながら、その模範発音に対応する配信画像もディスプレイに表示する。この時、練習者は背景音楽のリズムを体感してそのテンポに同期している状態で、模範発音を聞き取りながら、合図音によりオーバーラッピングのタイミングを効果的に予測してもよい。
【0004】
特許文献2では、練習者が曲を練習する時に支援をするシステムが開示されている。当該練習支援システムにおいて、楽譜データはシステムに記憶され、表示端末を介して楽譜を表示する。また、当該練習支援システムは練習者の演奏データに基づき、楽譜に対応して演奏位置を判定し、指示した任意の位置から音楽を再生することができる。
【先行技術文献】
【特許文献】
【0005】
【文献】特開2021-67844号公報
【文献】特開2013-200455号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
上記の特許文献1と特許文献2によると、練習者が楽器演奏をしている際に、練習者自分の演奏データ又は標準演奏データ(即ち、練習の見本としている模範演奏データ、或いは指導者が指導のために使用される演奏データ)を再生して提示するものの、練習者が演奏している時に誤りが出る原因、若しくは誤りが発見された後の直す方法などの記載がない。また、先行技術文献に記載の支援システムはあくまでも、練習者が見本に応えて自分で能動的に練習するということで、練習者は指導者の指摘を受けられないという問題があった。
【0007】
本開示はこうした課題に鑑みてなされたものであり、練習者が自宅で授業中の映像を用いて反復練習できる楽器練習システムを提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明の一つの実施態様としては、練習映像を取得する映像取得端末と、練習映像を編集するサーバ端末と、サーバ端末から受信した編集済みの練習映像を再生する再生端末とを含む楽器練習システムであって、映像取得端末は、練習者の演奏している画像及びその音声データと、指導者の指導している画像及びその音声データとを、撮影する第1撮影部と、第1撮影部が撮影した画像及び取得した音声データを記憶する第1記憶部と、第1記憶部に記憶された画像と音声データを含む映像を、サーバ端末に送信する第1送信部と、を備え、サーバ端末は、第1送信部から送信した映像を受信する第1受信部と、第1受信部が受信した映像を、当該映像に含まれる音に応じて自動編集する編集部と、編集部により編集された映像を、再生端末に送信する第2送信部と、を備え、再生端末は、編集された映像を受信する第2受信部と、第2受信部から受信した映像を記憶する第2記憶部と、練習者が練習している音を録音する録音部と、録音部が録音した音と編集された映像とに基づいて、練習者が練習している音に応じた指導者の音を再生する再生部と、を備える。
【0009】
上記の楽器練習システムにおいて、編集部は、第1受信部が受信した映像から、練習者の音及び指導者の演奏の音と発話の音を、それぞれに複数の演奏データ及び発話データごとに抽出し、練習者の演奏中の音の類似度により演奏データを自動的にクラスタリングすることを特徴としてもよい。
上記の楽器練習システムにおいて、編集部は、更に、映像の時間帯に基づく発話データを、演奏データをクラスタリングしたクラスタに対して対応の発話をそれぞれに振り分け、演奏練習セットとして記憶する第2記憶部を、備えることを特徴としてもよい。
上記の楽器練習システムにおいて、再生端末は、練習者からアップロードしたサンプル音を記憶する第3記憶部を含み、第3記憶部に記憶されたサンプル音に基づいて、演奏練習セットに応じて指導者の発話の音を取り替えさせることを特徴としてもよい。
上記の楽器練習システムにおいて、再生端末は、演奏練習セットに基づいて全体練習時間を設定する設定部を含み、設定部は、更に、練習者の演奏熟練度によって練習時間をそれぞれに設定することを特徴としてもよい。
上記の楽器練習システムにおいて、再生端末は、練習者が演奏している画像及びその音を撮影する第2撮影部と、練習者が正しく演奏するか否かを、第2撮影部が撮影した映像に基づいて楽器を演奏している動作及びその音声に基づいて検出する検出部とを、備えることを特徴としてもよい。
上記の楽器練習システムにおいて、再生端末は、検出部は、正しくない演奏された部分を検出する場合、第2撮影部が撮影した映像と演奏練習セットと、の類似度を推定するとともに、当該類似度が所定の閾値以上である場合に、当該演奏練習セットを再生することを特徴としてもよい。
上記の楽器練習システムにおいて、練習者が演奏を練習する前に、演奏練習セットに参照するとともに、当該演奏練習セットを指定して再生することを特徴としてもよい。
【0010】
授業映像を受信する第1受信部と、第1受信部が受信した映像を、当該映像に含まれる音に応じて自動編集する編集部と、編集部により編集された映像を、再生端末に送信する第2送信部と、を備えるサーバ端末である。
【0011】
授業映像を受信する第1受信ステップと、第1受信ステップから受信した映像を、当該映像に含まれる音に応じて自動編集する編集ステップと、編集ステップにより編集された映像を、再生端末に送信する第2送信ステップと、を実行することを含むデータ処理方法である。
【0012】
授業映像を受信する第1受信機能と、第1受信機能により受信した映像を、当該映像に含まれる音に応じて自動編集する編集機能と、編集機能により編集された映像を、再生端末に送信する第2送信機能と、を実現させるためのプログラムである。
【0013】
編集された授業映像を受信する第2受信部と、第2受信部から受信した映像を記憶する第2記憶部と、練習者が練習している音を録音する録音部と、録音部が録音した音と編集された映像とに基づいて、練習者が練習している音に応じた指導者の音を再生する再生部と、を備える再生端末である。
【0014】
編集された授業映像を受信する第2受信ステップと、第2受信ステップから受信した映像を記憶する第2記憶ステップと、練習者が練習している音を録音する録音ステップと、録音部ステップにより録音した音と編集された映像とに基づいて、練習者が練習している音に応じた指導者の音を再生する再生ステップと、を実行することを含むデータ処理方法である。
【0015】
編集された授業映像を受信する第2受信機能と、第2受信機能から受信した映像を記憶する第2記憶機能と、練習者が練習している音を録音する録音機能と、録音機能により録音した音と編集された映像とに基づいて、練習者が練習している音に応じた指導者の音を再生する再生機能と、を実現させるためのプログラムである。
【発明の効果】
【0016】
本発明に係る楽器練習システムによれば、練習者が指導者から指導を受けている時の様子を撮影、録音する。そして、楽器練習システムは、練習者が自分で楽器の練習をする場合に、その音を録音し、授業時にした誤りと同様の誤りをした時には、授業時に指導者が指摘した内容を再生することができるので、練習者は一人で練習している場合でも指導者から受けた指導内容(褒め言葉及び叱り言葉を含む)を思い出すことができる。
【図面の簡単な説明】
【0017】
【
図1】本開示の実施形態に係る練習支援システムの構成を示す模式図である。
【
図2】
図1の映像取得端末の構成及び機能を示すブロック構成図である。
【
図3】
図1のサーバ端末の構成及び機能を示すブロック構成図である。
【
図4】本開示の実施形態において練習支援システムに利用される可能の映像データの一部を示す図である。
【
図5】
図3のサーバ端末のデータを自動編集する一例を示すフローチャートである。
【
図6】
図1の模式図に係る映像の再編集、及び演奏練習セットの取得の一例を示すフローチャートである。
【
図7】
図1の再生端末の構成及び機能を示すブロック構成図である。
【
図8】
図7の設定部において画像の取り替えの一例を示すイメージである。
【
図9】
図7の再生端末における練習時間の設定の一例を示すフローチャートである。
【
図10】
図7の再生端末において類似の演奏内容の抽出、レッスン中の指導者の指摘点を練習映像に紐づけて再生する流れの一例を示すフローチャートである。
【
図11】
図7の再生端末において練習用曲の雰囲気の提示の一例を示すフローチャートである。
【発明を実施するための形態】
【0018】
以下、各図面に示される同一又は同等の構成要素、処理、信号には、同一の符号を付するものとし、適宜重複した説明は省略する。また、各図面において説明上重要ではない構成要素の一部は省略して表示する。
【0019】
以下の説明では、「撮影」は、対象の姿や動きなどを示す画像データ及び対象の音声データと同時に、カメラとマイクで取得することであってもよい。本実施形態の撮影による「映像」は、画像データと音声データとの両方とも含んでもよい。「撮像」は、対象の姿や動きなどを示す画像データだけを、カメラを介して取得する。「録音」は、対象の音声を収録することという。「音源」は、練習者の発話データ、指導者の発話データ、練習者の演奏データ(楽器音)及び指導者の演奏データ(楽器音)を含んでもよい。一方、本実施形態に係る「楽器」は音楽を奏でる器具であり、鍵盤楽器に限らず、管楽器、弦楽器、打楽器等を含んでもよい。
【0020】
なお、本実施形態に係る画像データ及び音声データを収録するため、カメラ及びマイクは別々に設置してもよい。具体的には、本実施形態に係るカメラは、練習の様子を撮像した画像データを取得する構成とし、マイクは、練習の音声及び指導時の音声を録音した音声データを取得する構成とする。ただし、カメラとマイクとの機能は上記の実施形態に限らず、本明細書においては、カメラとマイクを分けて説明するが、音声データは、カメラに付属するマイクにより集音されてもよい。
【0021】
<概要>
本実施形態に係る楽器練習システムは、
図1に示すように、映像取得端末100、サーバ端末200、再生端末300及びネットワークNWを介して互いに通信可能に接続されてなる。楽器練習システムでは、映像取得端末100が音声・画像データを含む練習映像(以下、映像データと呼ぶ)を取得し、サーバ端末200に渡してからその音声・画像データをサーバ端末200において自動編集する。その後、サーバ端末200は編集後の映像データを再生端末300に渡す。再生端末300は、受信した編集後の映像データを基に、練習者が自宅で楽器を練習している際に、楽譜と一致するか否か、或いは授業において指導者の指導に従っているか否かを検出できる。再生端末300は、練習者が正しくない演奏をした場合に、対応している編集後の映像を再生する。「正しくない演奏」とは、楽曲の音符や拍子に沿っていない演奏や、強弱の付け方、手の形、運指の仕方、指での鍵盤の弾き方等、指導者の指導の意図に沿っていない演奏を含む。
また、指導者の映像データはバーチャルキャラクターに取り替えることが可能であり、バーチャルキャラクター画像やバーチャルキャラクターの声を使ってもよい。この場合には、練習者が練習に対する興味を向上し、練習モチベーションを向上することも期待できる。
なお、楽器練習システムは、練習者の動作又は楽器の弾き方を判断する機能を備えてもよい。映像取得端末100は練習者の画像データを取得してから、サーバ端末200の第2記憶部220に記憶させておく。練習者が自宅で楽器を再練習する際に、指導者の指導に従って間違った弾き方を直すべく、自分の楽器演奏の動作をきちんとやるか否かを画像データに基づいて判断することが可能となる。
【0022】
本実施の形態における楽器練習システムは、
図1に示すように、映像取得端末100、サーバ端末200及び再生端末300からなり、ネットワークNW上のデータ共有を介して各機能が実現されてもよい。当該楽器練習システムの構成は上記のように限らず、映像取得端末100から取得した映像はネットワークNWを介さずに、直接的にサーバ端末200にアップロードしてもよい(例えば、映像取得端末100が取得した映像データがフラッシュメモリに記憶され、当該フラッシュメモリがサーバ端末200に接続されることでアップロードされてもよい)。
【0023】
また、映像取得端末100が取得した映像データは、(1)授業での練習者の演奏データ(練習者楽器音)、(2)授業での練習者の画像データ、(3)授業での指導者の演奏データ(指導者楽器音)、(4)授業での指導者の画像データ、(5)授業での練習者の発話データ及び(6)授業での指導者の発話データに分けられてもよい。映像取得端末100は上記の六つのデータを取得するだけでなく、複数名の練習者がいる場合、同席の練習者の音声データ(同席者楽器音と同席者質問声とを含む)と画像データや、レッスン同席の両親の発話データを取得してもよい。
【0024】
本実施形態におけるサーバ端末200は、映像取得端末100から取得した映像データに基づき、(i)練習者楽器音と指導者楽器音、(ii)練習者質問声と指導者指導声、(iii)練習者動作と指導者動作という三つのグループに分けて音声・画像データを分析する。
練習者楽器音とは、練習者が演奏している際の楽器の音声である。指導者楽器音とは、指導者がレッスン中で指導のために演奏している楽器の音声である。練習者質問声とは、練習者が演奏中の問題を指導者に尋ねる際の音声である。指導者指導声とは、指導者が授業中に出した音声である(指摘音声及び褒める音声を含む)。練習者動作とは、練習者が楽器を弾く動作である。指導者動作とは、練習者を指導するために楽器を弾く動作である。
【0025】
練習者楽器音と練習者動作、及び指導者楽器音と指導者動作は、時刻によってワンセットとして抽出してもよい。例えば、サーバ端末200は映像データを取得した後、練習者楽器音と練習者動作とを含む(或いは、指導者当時の指導者楽器音と指導者動作)映像データをワンセットとして受信する。
また、サーバ端末200は、映像取得端末100のマイクを介して録音した音声信号(練習者質問声、指導者指導声、練習者楽器音及び指導者楽器音)と、映像取得端末100のカメラを介して撮像した画像情報(練習者動作及び指導者動作)とを、それぞれに再生端末300に送信し、映像取得端末100においてワンセットとしなくてもよい。
【0026】
再生端末300は、主に練習者が自宅で授業中の内容を復習するために機能している。サーバ端末200に編集された各データは、練習者が在宅で練習している際に正しく演奏しているか否かを判断するための検出資料であるとともに、自宅で練習する練習者に対する教習データとなる。つまり、練習者が在宅で楽器を正しく演奏している場合(即ち、指導者の指導は必要なし)、指導者の指導を含む映像は再生しなくてもよい。もし練習者が正しくない演奏をし、授業中でした誤りを再びしている場合、再生端末300は正しくない演奏をする部分を検出することができ、指導者との練習において正しくない演奏をした時にされた指導内容を示す映像を再生する。
【0027】
本実施形態に係る再生端末300は、上記の自動編集機能を備えてもよいし、再生端末300により再生した画像データと音声データを更に編集してもよい。具体的には、再生端末300は、サーバ端末200から取得した各画像データと音声データを、音声内容を変更せず、外部端末又はインターネットから取得した新たな画像や声色を用いて取り替えられる。一例として、元々の指導者画像と指導者音声は、音声内容が変わらないままにアニメのキャラクター画像や、アニメのキャラクターの音声に取り替えられる。この場合には、練習者が練習中のストレスを解消できるし、自分が気になる声とキャラクターを用いる場合、練習者の練習効率の向上も期待できる。
【0028】
楽器練習システムは、練習者が授業中で理解できなかった箇所を再学習・再復習するための機能を提供している。また、在宅で楽器を練習している際、授業から得られた各データを基に、練習者が練習においてよく出た問題点を効率的に発見して再指導を受けることが可能になる。以下では、本実施形態に係る楽器練習システム、及び在宅練習機能を実現するための各構造の仕組みについて詳述する。
【0029】
<構成>
<映像取得端末100>
図2は、練習者の音声データ、練習者の画像データ、指導者の音声データ及び指導者の画像データを取得する映像取得端末100の構成例を示すブロック図である。
図2に示すように、映像取得端末100は、RAM(Random Access Memory、図示せず)、ROM(Read Only Memory、図示せず)、第1撮影部110、第1記憶部120、及び第1送信部130を有する。映像取得端末100は、プロセッサとメモリを備え、プロセッサがプログラムを実行することで、演奏している様子を撮影してサーバ端末200に送信する機能を実現するコンピュータシステムである。練習者の音声データと画像データ、及び指導者の音声データと画像データを取得するために、第1撮影部110には更なる右向きカメラ111、左向きカメラ112、足向きカメラ113、下向きカメラ114、全体撮像カメラ115及びマイク116が設けられている。各構成は、インターネットを介して相互に通信可能に接続されている。
【0030】
第1撮影部110は、練習者の演奏している画像及びその音声データと、指導者の指導している画像及びその音声データとを、撮影する機能を有する。第1撮影部110は、レッスンの様子を撮影できればよく、少なくとも1台のカメラとマイクからなる。本実施の形態においては、楽器をピアノとして説明するが、楽器はピアノに限定するものではなく、その他の楽器、例えば、ギター、ウクレレ、バイオリン、サキソフォンなど、様々であってよい。楽器がピアノである場合、第1撮影部110は、右向きカメラ111と、左向きカメラ112と足向きカメラ113と下向きカメラ114とを含んでもよい。
ピアノの鍵盤の右向きカメラ111は、練習者がピアノを弾けるように鍵盤に正対している状態で、練習者の左側(ピアノの鍵盤の左側)に設けられて右側(鍵盤側)を撮影できるように設置される。ピアノの鍵盤の左向きカメラ112は、練習者がピアノを弾けるように鍵盤に正対している状態で、練習者の右側(ピアノの鍵盤の右側)に設けられて左側(鍵盤側)を撮影できるように設置される。ピアノの鍵盤の足向きカメラ113は、練習者がピアノを弾けるように鍵盤に正対している状態で、練習者の下方(ピアノのペダル)に設けられて上方を撮影できるように設置される。ピアノの鍵盤の下向きカメラ114は、練習者がピアノを弾けるように鍵盤に正対している状態で、練習者の上方(ピアノの天屋根)に設けられて下方を撮影できるように設置される。
練習者の弾き方を撮影することで、ピアノを弾いている際に誤る弾き方を把握することができる。また、ペダルの踏み方を撮影する足向きカメラ113と、鍵盤上部から撮影する下向きカメラ114とを備え、練習者がピアノを使用している画像データを網羅的に取得することが可能となる。
【0031】
一方、右向きカメラ111、左向きカメラ112、足向きカメラ113及び下向きカメラ114は練習者の画像データを取得することだけでなく、練習者が楽譜に従わずにピアノを弾いた際に、指導者が指導をするためにピアノを弾いた画像データを取得することもできる。つまり、楽器を使用している者の画像データを取得可能である。
【0032】
また、第1撮影部110は、練習者と指導者全体の画像を撮影する全体撮像カメラ115を備えてもよい。即ち、練習者が授業を受けている際に、他の角度から練習者自らの画像データと指導者自らの画像データとを全部撮影することができる。この場合には、全体撮像カメラ115は、右向きカメラ111、左向きカメラ112、足向きカメラ113及び下向きカメラ114を用いて撮影できない画角の画像データを補完できてもよい。
【0033】
なお、第1撮影部110に設けられるカメラは、楽器の種類や練習者等によって数と位置とを変更してもよい。また、カメラの種類やブランドにより、カメラは撮影機能を備えているだけでなく、録音機能が設けられてもよい。この場合、マイク116は設置しなくてもよい。また、指導者を撮影するためのカメラは第1撮影部110に設けられてもよい。このカメラは指導者が撮像画像において所定範囲内に写るように、自動追従して撮影を行う機能を備えてもよい。
【0034】
第1撮影部110に搭載の各カメラから取得した画像データと、マイク116に録音された音声データは、第1記憶部120の情報格納データベースに格納されている。また、音声データと画像データはワンセットとして第1記憶部120に送信してもよいし、分別して第1記憶部120に送信してもよい。
【0035】
なお、第1記憶部120は、映像取得端末100が動作する上で必要とするプログラムやデータを記憶する。第1記憶部120では機械としてROM(Read Only Memory)やRAM(Random Access Memory)から構成されてもよい。第1記憶部120は、クラウドストレージクラウドストレージ(Cloud Storage)サービスを利用して各データを記憶してもよい。
【0036】
音声データと画像データは、第1記憶部120の情報格納データベースに記憶された後、第1送信部130を介してサーバ端末200に送信される。各データの送信方式は一つに限定するものではなく、音声データと画像データと共にサーバ端末200に送信してもよいし(即ち、マイクから取得した音声データとカメラから取得した画像データを統合せずに2種類のデータで送信する)、音声データと画像データとを時系列によって対応しつつ、共にサーバ端末200に送信してもよい(即ち、音声データと画像データをワンセットとして1種類のデータとして送信する)。
【0037】
<サーバ端末200>
図3に示すように、サーバ端末200はクラウドサーバとして第1受信部210、第2記憶部220、編集部230、及び第2送信部240からなる。上記の各構成に限らず、編集部230は音声データ編集部、画像データ編集部及び統合部に細分化してもよい。
【0038】
サーバ端末200に搭載している第1受信部210は、データ交換に関する処理を行う通信経路として映像取得端末100から音声データと画像データとを含む映像データを受信する機能を備えている。
【0039】
また、第1受信部210は、第1送信部130から受信した各データをサーバ端末200の第2記憶部220に一時的に格納し、編集部230へ出力する。第1受信部210の構成はこれに限らず、第2記憶部220に一時的に格納せず、受信した映像データを直接的に編集部230へ出力してもよい。
【0040】
編集部230は、第1受信部210からのデータを入力した後、受信したデータを特徴及び用途ごとに分けて単独又は統合的な分析を行う。
【0041】
具体的には、本実施形態において編集のために用いるデータは映像データである。
図4に示すように、映像データは、音声、動作及び各音声や各動作が録音あるいは撮影された時刻によって音声データと画像データに分けられ、各音声データと画像データにはタイムスタンプが付帯されている。次に、各データは用途に応じて更に分類されてもよい。例えば、画像データは、演奏者の動作を示す演奏者画像データ、指導者の動作を示す指導者画像データ、及び授業画像(即ち、演奏者と指導者両方とも含む画像)を示す授業画像データに分けられている。
【0042】
また、音声データとしては、人間(即ち、演奏者及び指導者を含む)の声と、楽器の音との両方が含まれるため、音声データは演奏データと発話データに分けられ、サーバ端末200は、タイムスタンプを用いて各編集用画像データと紐づけることができる。この場合に、演奏データと発話データはより詳しく分類してもよい。一例として、演奏データは練習者の演奏データと、指導者の演奏データに分けられ、発話データは練習者の発話データと、指導者の発話データに分けられてもよい。
【0043】
映像取得端末100から映像データを受信する場合、編集部230は映像データを、音声データと画像データに分類することができる。一例として、編集部230は映像データにおける音声が収録されている部分、いわゆるサウンドトラック(SoundTrack)を選択して抽出する。サウンドトラックを抽出した後に、映像データに残っていた部分は画像データとする。この場合には、タイムスタンプを用いて画像データを音声データと紐づけてもよい。
【0044】
<音源分離>
編集部230は、発話者の周波数によって音源を分離することで、発話している者を判別することができる。具体的には、楽器の音若しくは練習者又は指導者が発した声はそれぞれの特徴があり、各音声データも自分なりの信号(以下「音声信号」という。)を表し、編集部230はこれらの音声信号に基づき、周波数等に応じて複数の音源を分離してもよい。また、本実施形態における音声信号は練習者発話信号、指導者発話信号、練習者演奏信号及び指導者演奏信号を含んでもよい。
【0045】
練習者発話信号と指導者発話信号との周波数は、人間体の機能(例えば、性別、年齢、身長、体重等)や、空間(例えば、レコーディングルーム、防音室等)などの要因により定められてもよい。一例として、練習者が子供である場合、練習者の音調は通常指導者である大人より高いため、周波数が相対的に高いので指導者の音調よりも高周波となる。逆に、大人とする指導者の音調は通常に子供とする練習者より低いため、周波数が相対的に低いことで低周波として示される。
【0046】
なお、練習者による演奏と、指導者による演奏とは同じ楽器を使用する以上、両者の演奏による音の周波数は基本的に同じになる。そのため、音の周波数だけでは練習者の演奏と指導者の演奏とは区別できないので、この場合には、画像データを併せて参照し、誰の演奏なのかを特定することができる。
【0047】
具体的には、音源分離方法は、周波数による波長(Wavelength)と振幅(Amplitude)の変化等、かつ、画像データによる時刻などのデータを用いる技術に関する。即ち、当該音源分離方法では、編集部230は、周波数による波長と振幅を用い、混合音声信号(つまり、マイクを介して取得した音声信号であり、通常は、練習者発話の音声信号、指導者発話の音声信号、練習者演奏の音声信号、及び、指導者演奏の音声信号を含む。)から、練習者の発話データ、指導者の発話データ、及び、演奏データに分離する。そして、編集部230はタイムスタンプを用いて練習者の発話データ、指導者の発話データ、及び、演奏データを画像データに特定し、演奏をしている人を判断する。
【0048】
図5は、映像データの分類と、分類後データの組み合わせ処理を示すフローチャートである。編集部230が分離対象とする混合音声信号から特定の音声データを抽出する前に、本実施例に係る複数の音波を分離する方法は、
A1、編集部230が、混合音声信号の周波数に応じて混合音声信号に区切りを付け、区切りをされた音声区間(音声区間とは録音した得られた音声信号の中で音が存在する区間のことであり、具体的には、音声を示す周波数の振幅の変動が存在する区間のことである。)に時間帯(撮影している際に対応しているリアルタイムである)を特定しながら、この時間帯に対応しているタイムスタンプを付与することと(ステップS101)、
A2、編集部230が、音声区間に対応している時間帯により、画像データを複数の映像区間に分割してタイムスタンプを付与することと(ステップS102)、
A3、編集部230が、タイムスタンプを用いて音声区間と画像区間をマッチングする(ステップS103)。各音声や各動作が録音あるいは撮影された時刻が同一である場合には、その音声区間はその画像区間に属しているので、ワンセット(以下、編集後映像という)とすることと、
A4、編集部230が音声信号の物理的特徴により、編集後映像に包含された練習者発話データ、指導者発話データ、及び演奏データを分類することと(ステップS104)、
A5、編集部230が、画像区間に基づいて練習者及び指導者の演奏動作を検出することによって演奏者は誰かを判別することと(ステップS105)、をさらに含む。
【0049】
前述のステップA1では、編集部230は、複数の音源が混ざっている混合音声信号から音声データの特徴量によって目標とする音声データを抜き出すことができる。具体的には、音声信号は時間の経過に応じた周波数の変動によって表現されるが、基本的には音の周波数帯域によって音源を分離することができる。また、音声データの発話について音声の抑揚や会話のテンポ(速度)も、時間軸方向での周波数の振動のタイミングによって音源を分離することができる。一例として、楽器を演奏している音声信号の波形とは、人間が喋っている音声信号と異なるため、その音声信号の変化は大きいである場合には、音源が変更しているとみなす。
【0050】
また、編集部230は周波数、波長及び振幅によって混合音声信号を複数の音声区間に区切りをしながら、撮影時に記録されたリアルタイム(以下、時系列をいう。)を音声区間毎に、その区間に対応している時間帯を特定してタイムスタンプを設定する。具体的には、編集部230は、周波数に応じて混成音声信号を複数の音声区間に区切ることによって、練習者の発話の音声、指導者の発話の音声、演奏の音声のいずれかを含む音声区間を生成することができる。編集部230は、区切った各音声区間の時間として、区切られる前の当該音声区間の時間を、設定する。例えば、区切をされた前の一音声区間は、元の時間軸に10分から11分までの時間帯に所在している場合、区切りをした後に、編集部230はそれに対応している時間帯(10分から11分まで)を、区切りをされた後の音声区間の時間としてタイムスタンプを設定する。
【0051】
前述のステップA2では、編集部230は、音声区間に対応している時間帯によって画像データを複数の画像区間に分けられてもよい。一例として、編集部230は音声区間に対応している時間帯(例えば、10分から11分まで)に応じて、画像データからその時間帯(10分から11分まで)に対応している画像を抽出して画像区間とする。その後、編集部230は、その時間帯に対応しているタイムスタンプを同時に当該画像区間に付与する。
【0052】
前述のステップA3では、編集部230は、タイムスタンプを用いて音声区間と画像区間をマッチングする。タイムスタンプが同一である場合には、その音声区間はその画像区間に属しているので、ワンセットとしてもよい(以下、編集後映像という)。タイムスタンプが一致していない場合には、その音声区間とその画像区間は別々の区間であり、ワンセットとしていない。また、画像区間は音声区間の時間帯に従って分けられているため、最終的に得られたデータセット(つまり、タイムスタンプによってマッチングされた音声データと画像データとを含むデータのセットである。)は必ず1音声区間と1画像区間を含んでいる。
【0053】
前述のステップA4では、編集部230は、音声信号の物理的特徴量により、音声データが人間の発話データであるか、それとも演奏データであるかを判別する。タイムスタンプを用いてマッチングした編集後映像においては、練習者発話データ、指導者発話データ、練習者演奏データ、及び指導者演奏データを含んでいる。その中で、練習者の発話データと指導者の発話データは対象の特徴(例えば、年齢や性別など)によって判別することが可能であるものの、練習者演奏データと指導者演奏データについては、同じ楽器を用いているため、練習者演奏データと指導者演奏データの周波数は同じであり、直接的に分離することは難しい。
【0054】
一般的には、編集後映像において人間の口の動き等動作情報によって誰か話しているかを判別することができる。一例として、編集部230は、編集後映像から人間の口の動きを検出する機能があり、口の動きを検知した場合には、当該編集後映像における音声を発する者は、口が動いている者とみなされ、音声を発する者は誰であるかを判別することができる。編集部230は、音声データとして音が含まれ、対応する画像データで口が動いている者が検出されない場合には、その音は楽器の音であると判別する。
【0055】
ただし、口の動きに従って音声を発する者は誰であるかを判別することができるものの、映像データ(或いは、画像データ)中の練習者及び指導者が、マスク等を付けて自分の顔を覆う場合、或いは映像取得端末100に搭載する映像は死角がある場合におき、口の動きを検出できない恐れがある。
【0056】
この場合には、編集部230は各音声信号の物理的特徴量に基づいて音源を判別してもよい。一例として、編集部230は周波数によって指導者の発話データ、練習者の発話データ及び演奏データを分類する。人間の音声信号の周波数は楽器の音声信号の周波数と異なるため、各音声信号が重畳しない帯域がある。そのため、編集部230は、重畳しない帯域における周波数を閾値の基準値として設定してもよい。具体的には、編集後映像における音声信号の周波数が一定の閾値より高い場合には、当該編集後映像における音声信号は演奏データとし、編集後映像における音声信号の周波数が一定の閾値より低い場合には、当該編集後映像における音声信号は指導者発話データ或いは練習者発話データとしてもよい。
【0057】
ただし、人間個体差により、子供とする練習者は、大人とする指導者との周波数帯域と重畳している可能性があり、楽器の演奏データと人間の音声データと重畳する場合もある(一例として、普段の大人の話し声の周波数帯域は150Hz~500Hz、子供の話し声の周波数帯域は約1000Hz~2000Hz、ピアノの周波数帯域は約27Hz~4186Hzであり、楽器の周波数帯域は人間の周波数帯域と重畳する帯域がある)。この時に、周波数だけで音源を分離できない恐れがある。
【0058】
そのため、編集部230は、周波数を用いて1回目の音声分離をした後、音源の波形(波長や振幅など)を判別して定量化する2回目の音声分離技術を導入する。混合音声信号に含まれた音源の波形については、音声データの音調が高いほど振幅が高くなるものの、波長が短くなる。逆に、音声データの音調が低いほど振幅も低くなり、波長が長くなるという特徴があるため、誰の声かを判別することができる。ただし、本実施形態における音声分離をするために使う物理的特徴量は、これに限定されていない。
【0059】
もう一つの練習者の声、指導者の声及び楽器の音を判別する方法としては、編集部230は、音声認識モデルを用いて練習者、指導者及び楽器の音声を区別することとしてもよい。音声認識モデルは、練習者の声、指導者の声及び楽器の音を学習したモデルである。即ち、音声認識モデルは、練習者の声の音声データに対して、練習者であることを示す情報をアノテーションした教師データと、指導者の声の音声データに対して、指導者であることを示す情報をアノテーションした教師データと、楽器の声の音声データに対して、楽器であることを示す情報をアノテーションした教師データと、を学習した学習モデルであり、音声データの入力を受け付けて、当該音声データが練習者の音声か、指導者の音声か、それとも楽器の音声かを推定するモデルである。発話データを、音声認識モデルに入力すれば、音声を発するものが誰かを特定することができ、編集部230は、より効率的に音声データの分類をすることができる。
【0060】
前述のステップA5では、練習者と指導者との発話データ及び演奏データを判別した後に、編集部230は演奏データを更に分離する必要がある。発話データと異なり、演奏データは同じ楽器を演奏している際に取得されたデータであり、周波数を用いて演奏データが誰による演奏であるかを判別することができない可能性がある。
【0061】
本実施形態に係る演奏データの一つの判別方法としては、編集部230は取得された編集後映像中の楽器を演奏する動作情報を用い、演奏データの主体を特定してもよい。具体的には、編集部230は、各編集後映像において楽器を演奏しているヒトを検出し、その演奏しているヒトは当該編集後映像中の演奏者である。また、編集後映像の中で、演奏者は練習者であり、発話データがない場合には、その編集後映像は指導者の指摘を含まないので、削除してもよい。そして、検出対象は上記に限らず、楽器を演奏している手の動き、或いは楽器に与える力の大きさを検出して演奏者を特定してもよい。即ち、指導者の演奏データを示せる物理的特徴量が多ければ多いほど、演奏者は誰であるかの判別も簡単になり、精度も向上することができる。
【0062】
<分離後各データの処理>
これからは
図6を参照し、本実施形態に係る音声分離後の各データの処理について説明する。編集部230は各データの物理的特徴量に応じて得られた編集後映像に基づき、指導者発話データのみを有する編集後映像、指導者演奏データのみを有する編集後映像及び指導者発話データと指導者演奏との両方を有する編集後映像(以下、非静音区間)を抽出する(ステップS201)。抽出されなかった編集後映像は静音空間とし、削除してもよい。
【0063】
抽出された非静音区間は、互いに類似しているか否かを判定するため、本実施の形態では、各非静音区間を「演奏の言語」として分析を行っており、自然言語処理の類似度計算方法を用いて各非静音区間の類似度を計測する。「演奏の言語」とは、音を言語で表現可能な態様にした情報のことであり、より具体的には、音をメルスペクトログラムに変換した後に、各音のピッチ、各音の長さ、各音の重要度(つまり、各音符が現れる回数)等をベクトルで表現した情報のことである。メルスペクトログラムとは、音を時間軸とメル尺度の周波数軸に対して振幅を表現した情報である。
【0064】
具体的には、本実施形態において、各非静音区間の音声データは自然言語のように扱ってもよい。編集部230は、各非静音区間に基づいてメルスペクトログラムを生成することができる。メルスペクトログラムは、周波数軸がメル尺度のスペクトログラムであり、通常には音声認識などで用いられている。編集部230は、生成されたメルスペクトログラムから非静音区間における「演奏の言語」を表現する特徴ベクトルを作成する。特徴ベクトルは、音声の高さ(以下、ピッチという)、音声の連続性(つまり、最長発声持続時間という)等を含んでもよい。
【0065】
特徴ベクトルを生成する一例として、一非静音区間に五つの音声データがある場合、編集部230は、上述の五つの音声データをそれぞれに独立のデータとして扱っており、各音声データのピッチ、又は音声の連続性等音声の特徴によって特徴ベクトルを作成する。特徴ベクトルを作成する方法は限定されておらず、編集部230は演奏順によって、隣り合う音声データのピッチの差を算出して特徴ベクトルとしてもよい。非静音区間において演奏順はa1,a2,a3であり、ピッチの差で特徴ベクトルを作成する場合、編集部230は、(a2―a1)、(a3―a2)の計算方法でピッチの差を算出することができる。その後、編集部230は、算出の結果を該非静音区間の特徴ベクトル((a2―a1),(a3―a2))としてもよい。
【0066】
その後、編集部230は作成された特徴ベクトルを使って非静音区間間の相対的な類似度を算出することができる。また、本実施形態の類似度を算出する方法は限定されていない。以下、それぞれに説明する。
【0067】
<類似度の算出方法1>
具体的に、編集部230は、各静音区間の特徴ベクトルに基づいて各非静音区間間のコサイン類似度を算出して非静音区間の類似度を判断する。
一例として、編集部230は、五つの音声データを有する非静音区間Aからメルスペクトログラムを生成した後、音声のピッチによって、特徴ベクトルA[a1,a2,a3,a4,a5]を作成する。また、編集部230は、五つの音声データを有する非静音区間Bからメルスペクトログラムを生成した後、音声のピッチによって、特徴ベクトルB[b1,b2,b3,b4,b5]を作成する。その後、編集部230は、特徴ベクトルAと特徴ベクトルBに基づいて、非静音区間Aと非静音区間Bのコサイン類似度を算出する。
【0068】
【0069】
特徴ベクトルA=(a1,a2,・・・,an)、特徴ベクトルA∈Rn
特徴ベクトルB=(b1,b2,・・・,bn)、特徴ベクトルB∈Rn
特徴ベクトルAと特徴ベクトルBは一定の角度をなしており、編集部230は、特徴ベクトルAと特徴ベクトルBになされた角度のコサイン値によって非静音区間Aと非静音区間Bの相対的な類似度を算出することができる。一般的に、cos(a,b)を示す値は、1に近い場合、非静音区間Aと非静音区間Bの相対的な類似度が大きいとみなし、-1に近い場合、非静音区間Aと非静音区間Bの相対的な類似度が低いとみなす。
【0070】
<類似度の算出方法2>
具体的には、編集部230は、各静音区間の特徴ベクトルをTF-IDF値(term frequency-inverse document frequencyの略)に置き換え、TF-IDF値に基づいて各非静音区間間のコサイン類似度を算出して非静音区間の類似度を判断する。この中で、TF値(Term Frequencyの略)は、単語の出現頻度を表す指標であり、IDF値(Inverse Document Frequencyの略)は、逆文書頻度を表す指標である。
【0071】
【0072】
本実施形態の数式2において、tf(t,d)は、非静音区間dの中のある音声データtのTF値である。nt,dは、音声データtが非静音区間dの中での出現回数である。また、Σ(S∈d)n(S,d)は、非静音区間dの中で別の音として認識された全ての音の出現回数を足した値である。
【0073】
【0074】
本実施形態の数式3において、idf(t)は、音声データごとに非静音区間に対して音声データの重要度を表す指標であり、いわゆる逆文書頻度と呼ぶ。Nは、非静音区間の音声データの数であり、df(t)は、音声データtが出現する回数である。
類似度の算出方法2の一例として、編集部230は、五つの音声データを有する非静音区間Aからメルスペクトログラムを生成した後、音声のピッチによって、特徴ベクトルA[a1,a2,a3,a4,a5]を作成する。また、編集部230は、五つの音声データを有する非静音区間Bからメルスペクトログラムを生成した後、音声のピッチによって、特徴ベクトルB[b1,b2,b3,b4,b5]を作成する。次に、編集部230は、特徴ベクトルAそれぞれのピッチについてのTF-IDF値を算出するとともに、特徴ベクトルBそれぞれのピッチについてのTF-IDF値を算出する。そして、各ピッチおTF-IDF値にしたベクトル間でコサイン類似度を算出する。類似度の算出方法1よりTF-IDF値を用いてコサイン類似度を算出する類似度の算出方法2の精度はより高いである。理由として、同じ楽譜において、変調演奏(例えば、移調又は転調である)等によりリズムが似ている箇所は複数ある。この場合、類似度の算出方法1は、リズムが似ている箇所を逆に非類似と判断する可能性がある。
その結果、TF-IDF値によるコサイン類似度は、1に近い場合、非静音区間Aと非静音区間Bの相対的な類似度が大きいとみなし、-1に近い場合、非静音区間Aと非静音区間Bの相対的な類似度が低いとみなす。
【0075】
また、特徴ベクトルに応じて、各非静音区間の類似度の閾値を自由に設定してもよい。設定された閾値は、第2記憶部220に格納する。設定された閾値より高い場合には、複数の非静音区間の間の類似度が高く、当該複数の非静音区間は一つのグループ(クラスタ)にクラスタリングをされてもよい。逆に、設定された閾値より低い場合には、複数の非静音区間は異なるとみなし、当該複数の非静音区間は別々のグループにクラスタリングをされてもよい。
【0076】
各非静音区間の類似度を計算した後、編集部230は閾値に応じて非静音区間をクラスタリングする(ステップS202)。各非静音区間は外部要因によって完全に一致することができなく、例えば、演奏者(練習者と指導者とを含む。)が同じ楽譜を速く演奏する場合とゆっくり演奏する場合(或いは変調演奏)には、特徴ベクトルによって算出された類似度も異なる。したがって、複数の入力演奏音声信号の類似度を比較することによって、類似度間の偏差が一定の範囲内であれば、当該複数の非静音区間は類似していると判断できる。ただし、類似を判断するための閾値としては、固定値ではなく、各非静音区間の類似度による相対値であってもよい。
【0077】
編集部230は音声の物理的特徴量に応じて各非静音区間の類似度間の偏差を計算してもよいし、外部に接続した音声類似度判断プログラムを用いて類似度間の偏差を計算してもよい。
【0078】
編集部230は、クラスタリングをされた各非静音区間を、時間軸に沿って順番をつける(ステップS203)。具体的には、編集部230は、各音声や各動作が録音あるいは撮影された時刻によって各非静音区間を順序付ける。仮に重複演奏(例えば、ある楽譜において同じ音声区間が複数ある場合には、それらの箇所を繰り返して演奏することを重複演奏と呼ぶ。)の場合であっても、編集部230は、タイムスタンプを用いて非静音区間のランキングを識別することができる。
【0079】
更に、編集部230は各音声や各動作が録音あるいは撮影された時刻より、指導者発話データのみを有する編集後映像、指導者演奏データのみを有する編集後映像を統合してもよい。具体的には、編集部230は、タイムスタンプを用いて指導者発話データのみを有する編集後映像と、指導者演奏データのみを有する編集後映像とを比較し、時点上の関連性がある場合には、その指導者データのみを有する編集後映像は、指導者演奏データのみを有する編集後映像とワンセットにする。例えば、編集部230は三つの編集後映像(指導者発話データのみを有する編集後映像イ(10分10秒~10分20秒)、指導者演奏データのみを有する編集後映像ロ(10分20秒~10分40秒)及び指導者発話データと指導者演奏データとを有する編集後映像ハ(15分24秒~15分30秒))を有する場合には、編集後映像イと第二編集後映像ロの時間帯はタイムスタンプを用いて時間情報を照合し、照合後の編集後映像イと編集後映像ロは、時間軸上の関連性(つまり、時間の連続性)があるため、ワンセットとして統合してもよい(以下、照合後映像という)。この場合には、照合されなかった編集後映像ハは既に指導者発話データと指導者演奏データとを有するため、照合せずに練習者の復習資料として独立の編集後映像として記憶してもよい。
最終的に得られたすべての編集後映像と照合後映像は演奏練習セットとして記録する。演奏練習セットは、練習者が練習映像中で誤った弾き方をしている箇所の所定期間の練習者演奏データと、その弾き方をした際に指導者が指導した際の指導内容(指導者の発話データと、画像データ)のデータと、が対応付けられた情報である。(ステップS204)。
【0080】
演奏練習セットに含まれた指導者の叱り言葉及び褒め言葉については、要約にしてもよい。要約にする一例として、同じ箇所において指導者発話データが複数ある場合であって、編集部230は、その箇所を含む演奏練習セットにおける複数の指導者発話データを整理し、一つの演奏練習セットにまとめてもよい。また、複数の演奏練習セットがある場合には、編集部230は、指導者発話データを整理し、一つの演奏練習セットにまとめてもよい。
要約のもう一例として、編集部230は、同じ箇所において複数の演奏練習セットから同じ意味を有する発話データを検出する場合、例えば、指導者は「もっとゆっくり演奏しなさい!」、「ここにはゆっくりするように!」といった発話データがある場合、編集部230は音声識別手段、例えば、音声に対する形態素解析法、或いは外部音声識別アプリに接続することを介し、上述二つの発話データ中の形容詞及び動詞を検出してもよい。具体的には、編集部230は形態素解析法で上述二つの発話データから、動詞とする「演奏し」、及び形容詞とする「ゆっくり」を抽出する。その後、編集部230は、形容詞とする「ゆっくり」を複数で検出する場合であって、当該二つの発話データは同じ意味であると判断できるため、上述二つの発話データを「ゆっくり演奏してください!」一つにまとめてもよい。逆に、同じ意味を有する発話データを検出しない場合、すなわち、同じの動詞や形容詞を検出しない場合には、編集部230は、当該複数の発話データを抽出して一つの演奏練習セットにリストしてまとめてもよい。
【0081】
また、編集部230は、演奏練習セットにおける指導者発話データを整理するために、テキスト化してもよい。一例として、編集部230は指導者発話データを演奏練習セットから抽出し、句読点を入れてテキスト化する(即ち、音声のテキスト変換である)。その後、編集部230は、形態素解析法を用いてテキストにおき、よく現れたキーワードを特定し、それに所在している句を一つのグループにまとめてもよい。練習者が演奏を練習している際に、まとめた結果に参照しながら、授業中の指摘点を復習することができる。
【0082】
<再生端末300>
図7に示すように、再生端末300は、第2受信部311、第3記憶部312、及び設定部313を含む受信処理部310と、第2撮影部321、第4記憶部324、検出部325及び再生部326を有する再生処理部320からなる。再生端末300は、サーバ端末200から受信した各演奏練習セットに対して、再編集機能、検出機能及び再生をする機能を備えている。具体的には、再生端末300はプロセッサとメモリとを備えている。設定部313がプロセッサに該当し、第3記憶部312と第4記憶部324はメモリに該当してよい。プロセッサとする設定部313は、第3記憶部312に記憶されている演奏練習セットに基づき、演奏練習セット中の画像データ及び音声データを別の画像データ及び音声データに取り替えて再設定してもよい。この場合には、得られた映像データが設定後映像データと呼んでもよい。
【0083】
一方、練習者は在宅で楽器を練習している際に、再生端末300に搭載している第2撮影部321は、練習中の映像(以下、在宅練習映像データという。)を記録してもよい。そして、第2撮影部321が取得した在宅練習映像データは、検出用データとして第4記憶部324に記憶される。練習者が在宅で練習している際に、楽器を間違って演奏する場合には、検出部325が第4記憶部324から間違ったところを検出し、再生部326に設定後映像データを再生させてもよい。
【0084】
本実施形態に係る受信処理部310は、第2送信部240から受信した各データの再処理をすることができる。具体的には、設定部313は第2受信部311が受信した演奏練習セットに基づき、演奏練習セットにおいて現れた指導者の人物像と、指導者の音声とを別の画像及び音声に取り替えてもよい。取り替え用画像若しくはGIF(Graphics・Interchange・Format)画像及び音声は予め第3記憶部312の情報格納データベースに記憶してもよい。
【0085】
図8に示すように、画像中に現れた各人物像(練習者の人物像801及び指導者の人物像802を含む。即ち、画像の一部)は、取り替え用画像804に変更されてもよいし(右上の図(1)に示すように)、演奏練習セットとして再生される映像は、授業中の指導者や練習者自身や楽器などを含む映像となり得るが、この映像は、取り替え用画像804で示されるキャラクターの画像だけが(右下の図(2)に示すように)、指導者の指導内容を話す画像に変更してもよい。
取り替え用画像804に関するデータは、第3記憶部312に記憶していたデータであってもよいし、練習者が好きな取り替え用画像804を再生端末300にアップロードしてもよい。練習者が画像をアップロードする場合、受信処理部310には、画像のサイズや色等を変更するための画像制御部が設けられてもよい。
取り替え用画像とは、指導者に代えて表示する画像のことであり、指導者を取り替え用画像804に変更するとは、再生端末300が指導内容を再生する際に、指導者の姿に代えて、練習者が指定した取り替え用画像804に変更する画像処理を行って再生することである。取り替え用画像804として練習者が好んでいるアニメやゲームのキャラクター、芸能人、バーチャルアイドル等に変更することで、楽器練習システム(再生端末300)は、練習者の練習に対するモチベーションを向上させることができる。
【0086】
一方、再生端末300は指導者の発話音声を再設定することもできる。具体的には、受信処理部310は、外部の音声処理装置、音声処理アプリ、及び音声処理プログラム等に接続し、演奏練習セット中の発話データを周波数に従って取り替え用音声(以下、サンプル音)に変更してもよい。具体的には、受信処理部310は演奏練習セット中の発話データを基に、練習者がアップロードしたサンプル音を、設定部313に接続しているChatGPT(登録商標)又はS0―VITS―SVC―V4(登録商標)等音質変更モデルに入力する。設定部313は、前述の音質変更モデルに音質学習をさせつつ、学習後の発話データを出力する。また、再生端末300は、指導者の発話データを収集すれば収集するほど、学習後の発話データを再生する精度も高くなる。
【0087】
その他、第2受信部311から受信した演奏練習セット中の発話データは、発話データに含まれた単語・句を抽出し、第3記憶部312に記憶している音声を用いて読み出してもよい。一例として、発話データから抽出した単語・句を、ボイスチェンジャーアプリに導入して別の音声で(例えば、元々の指導者の声を子供の声に取り替える)再生する。
上記の画像・音声の取り替え方法は、練習者が在宅で練習する際の緊張感を減らし、練習中の情熱(パッション)を高めることができる。
【0088】
なお、
図9に示すように、練習者が在宅で楽器の演奏を練習している際、練習者自身のニーズに応じて練習時の各指標を設定してもよい(例えば、練習時間の設定、練習用曲の選択、授業映像の再生等)。
具体的には、練習者は在宅練習をする前、授業中の映像を再生することができ、この先の練習用曲を予め設定することができる(ステップ301)。
それから、練習者が練習しようとしている全体練習時間は、端末を介して設定することができる(ステップ302)。例えば、練習者はスマホアプリを使って自分の練習時間を自由に入力する。その他、再生端末300は練習者と複数回の音声会話を行うことを通じて練習者の練習時間を設定する。この設定については、練習者が練習時間を示す数値を入力することで行ってもいいし、再生端末300が実現する自動応答機能を介して実現することとしてもよい。自動応答機能はファジーに設計されてもよく、練習者が設定しようとしている時間と、練習することが望ましい時間との間に差がある場合に、練習者との間で、練習時間についての交渉を行うようプログラミングされてもよい。この場合には、再生端末300はマイク323を備え、外部の音声認識システム(例えば、ChatGPT(登録商標))と接続して練習者の音声を認識してもよい。その後、練習者が練習しようとしている曲目を自由に指定して再生することは可能となる。
【0089】
また、練習者が選択した曲目を決定した後、再生端末300は、当該曲目に対応している演奏練習セットを提示し、練習者は在宅で練習をする前に、授業中の指摘点を再確認することができる(ステップ303)。
【0090】
一方、練習者が自分の主観的な判断によって各練習曲目の難易度を設定してもよい(ステップ304)。具体的には、再生端末300は、練習者自分の熟練度によって各曲目を、「難易度が高いから低いまでの順番:S>A>B>C>D」と設定してもよい。難易度が高い曲としては、曲のスピードがより緩い、練習時間も相対的に長く再生し、練習者が片手で楽器を演奏してもよい。逆に、難易度が低い曲としては、曲のスピードが標準演奏データと同じであり、練習時間も相対的に短くなり、弾き方も両手合わせと要求する。ただし、難易度の設定方法はこれに限らず、受信処理部310は演奏練習セット中の指摘点の数によって曲目の難易度を判定してもよい。
【0091】
各曲目は難易度によってかかる時間も異なるため、練習者は自分のニーズ(例えば、どの曲の練習はうまくないか等)に応じて最終の練習計画を設定する(ステップ305)。練習計画を決定した後に、練習者の在宅練習が始まってもよい。
【0092】
本実施形態に係る再生処理部320は、練習者の在宅で練習している映像から間違ったところを検出すると同時に、演奏練習セットを再生させることができる。
ピアノを例にすると、第2撮影部321は、練習者が黒鍵と白鍵を合わせて鍵盤全般の押さえ方及びペダルの踏み方を撮影しながら、マイク323は練習者の演奏音声を取得する。そして、得られた演奏データ及音声データを含む映像データは、第4記憶部324の情報格納データベースに記憶する。
【0093】
また、再生端末300は、サーバ端末200から受信した演奏練習セットを在宅練習用の資料とする。再生端末300は、演奏練習セットを再生処理部320に渡す前に、設定部313を介して演奏練習セット中の画像及び音声の取り替えをするか否かを判断する。もし練習者が各演奏練習セット中の画像及び音声の再設定をしようとしている場合(つまり、演奏練習セット中の指導者画像を他のキャラクターに取り替えること、又は指摘内容を変えずに指導者の音声情報を他人の音声情報に取り替えること等)には、再生端末300は、設定後の演奏練習セットを検出部325に渡して練習用資料としてもよい。もし練習者が演奏練習セットを設定しない場合には、再生端末300はサーバ端末200から受信した演奏練習セットを直接的に再生処理部320に渡して練習用資料としてもよい。
【0094】
練習者の動作の正しさを判断しようとしている場合には、検出部325は、演奏練習セットを根拠データとし、第2撮影部321に撮影した練習者の画像データと比較する。一例として、検出部325は練習者の指の運動若しくは楽器の鍵盤又は弦の変動によって画像データを判断してもよい。一方、楽器を演奏している際に、検出部325は、鍵盤や弦に与える力によって楽器が出せる音声も異なるものの、本実施形態に係る検出部325において練習者の動作の位置が正しいか否かを検出することで、与える力を測定しなくてもよい(例えば、指の位置が正しければ、動作は正しいとみなす。ただし、それに限らず、手の形、運指の仕方、指での鍵盤の弾き方等動作を検出して演奏が正しいか否かを判断してもよい)。また、検出部325は、鍵盤や弦に与える力による音圧を測定し、集音した音の音量の大きさで動作の正しさを検出してもよい。
【0095】
練習者の演奏の正しさを判断しようとしている場合には、検出部325は、演奏練習セットを根拠データとし、再生端末300に搭載しているマイク323から得られた演奏データと比較することができる。また、検出部325は、在宅で練習している際の演奏データと演奏練習セットに含まれる演奏データとの類似度を算出することで、所定の閾値と比較してもよい。
【0096】
所定の閾値より高い場合には、在宅練習映像データと演奏練習セット中の演奏データと一致すると判断し、授業中の誤りを再びしているとみなす。この時は、再生端末300は、演奏練習セットに含まれる発話データ及びそれに対応している画像データを再生させる。
【0097】
逆に、所定の閾値より低い場合には、在宅練習映像データと演奏練習セットに含まれる演奏データと一致していないと判断する。この場合には、練習者が正しく演奏するか、或いは練習者が別の誤りをするかについて再判断を行ってもよい。再判断の一実施策としては、再生端末300に標準演奏データを導入し、在宅練習映像データと標準演奏データと比較し、類似度を用いて正しく演奏するか否かを判断する。
在宅練習映像データと標準演奏データと類似し、いわゆる正しい演奏をする場合には、再生部326は演奏練習セットを再生しなくてもよい。
在宅練習映像データと標準演奏データと類似していなく、いわゆる練習者が別の誤りをする場合には、指導者の発話データがないため、再生部326は、指摘点の提示をすることができず、一致していないところのみ再生してもよい。
【0098】
要するに、検出部325は練習者が在宅で練習している演奏データを判断する際に、先に演奏練習セットに含まれる演奏データと比べ、在宅練習映像データと演奏練習セットと所定以上類似している場合に、演奏練習セットに含まれる発話データ及び画像データを再生させてもよい。
次に、在宅練習映像データと演奏練習セットと一致していない場合に、検出部325は、標準演奏データを導入しながら、在宅練習映像データと更に比較する。標準演奏データと一致している場合には、当該演奏データを飛び出してもよい。
最後、在宅練習映像データと標準演奏データと一致していない場合には、一致していないところの音声データを再生させてもよい。
【0099】
図10は、本実施形態における練習者が在宅で楽器を練習する際の再生端末300のプロセスを示すフローチャートである。
再生端末300は、練習者が演奏している位置(第2撮影部321によって撮影される映像内において練習者が演奏している様子が撮影されている位置)を検出する(ステップ401)。
練習者が在宅で演奏していると同時に、再生端末300に搭載している第2撮影部321が、練習者在宅で練習している在宅練習映像データを取得する(ステップ402)。この時には、第2撮影部321は、音声と映像の両方とも取得してもよいし、音声又は映像だけでもよい。
再生端末300は、在宅練習映像データ毎に、演奏練習セット及び標準演奏データと比較することで、類似度を算出し、類似度の高低による順番で演奏練習セットを示す情報をリストで練習者に提示する(ステップ403)。この場合には、再生端末300は、類似度が高い順でランキングした複数の演奏練習セットをリストに提示してもよいし、類似度が一番高い演奏練習セットのみを提示してもよい。
次に、再生端末300は、練習者が再生端末300と対話を行うか否かを判断する(ステップ404)。練習者は、再生端末300に搭載しているマイク323に音声を入力してもよい。当該音声は、練習に関する質問や問いかけであってもよい。その時、再生端末300は周波数の変動を検出する場合には、練習者が発話していると識別してもよい。再生端末300は、音声信号を検出できれば、その練習者が発話しているとみなし、次の段階に進んでもよい(ステップS404のYES)。
再生端末300は周波数の変動を検出せず、練習者の発話を識別しない場合(ステップ404のNO)には、練習者は、本練習曲目中のその一部を理解したため、次の段階に進んでもよく、練習者が継続して練習するか否かを判断する(ステップ407)。練習者がまだ練習しようとしている場合には(ステップ407のYES)、練習者が演奏しているステップ(ステップ401)に戻る。練習者が練習を継続しない場合には(ステップ407のNO)、この度の楽器練習は終了とする(ステップ408)。
逆に、再生端末300は周波数の変動を検出し、いわゆる練習者発話を識別する場合(ステップ404のYES)には、練習者が類似度の高低による順番で演奏練習セットを示す情報のリストに対して困っているか否か判断する(ステップ405)。練習者が再生している映像に対して困らず、よく理解する場合(ステップ405のNO)には、次の段階に進めてもよい。練習者が継続して練習するか否かを判断する(ステップ407)。練習者がまだ練習しようとしている場合には(ステップ407のYES)、練習者が演奏しているステップ(ステップ401)に戻る。逆に練習者がまだ練習しようとしていない場合には(ステップ407のNO)、この度の楽器練習は終了とする(ステップ408)。
一方、練習者が類似度の高低による順番を示す旨に対して困っている場合(ステップ405のYES)には、再生端末300は類似度によって練習者にその時点に対応している演奏練習セットを再生させてもよい。一例として、練習者が自分で演奏練習セットを指定して再生してもよいし、再生端末300は類似度により、類似度が一番高い演奏練習セットを自動的に再生してもよい。
【0100】
練習者が困っているか否かを判断するための実施例については、形態素解析法、顔認識、及び端末に機能の追加により実現することとしてもよい。
【0101】
<実施例1:形態素解析法>
一例として、再生端末300は外部端末(通常は、音声分析用アプリケーション)に接続することで、練習者が在宅での演奏データと標準演奏データと比較してから類似度を示す旨を表示する。類似度が一番高い練習演奏セットは練習者が質問をした直前に提示してもよい。練習者は練習演奏セットに対して疑問点がある場合には、「なんで?」、「なぜ?」、「どうやって?」等質問や否定に関する言葉を出して再生端末300に発話データとして入力してもよい。
この時、再生端末300は、練習者が入力した発話データを主語、述語及び疑問詞ごとに分割し、第3記憶部312又は第4記憶部324若しくは新設の記憶部であってもよいし、記憶しているキーワードと比較する。例えば、練習者が「このような弾き方はどうやってするの?」と発話をする際に、再生端末300は形態素解析法により、「弾き方」を主語、「する」を述語、及び「どうやって…の?」を疑問語にして分割する。分割された自然言語を示す単元は、即ち、主語及び疑問語の一部が予め設定した基準と一致、或いは高度的に一致している場合には、再生部326は、類似度が一番高い演奏練習セットを再生することになる。
なお、再生端末300は、主語及び述語を検出せずに、疑問語或いは否定語だけを検出してもよい。例えば、練習者は直接的に「なんで?」、「分からない!」と発話をする場合には、主語又は述語を含まないため、再生端末300はキーワードを検出することができない。この時、再生端末300は、前述の記憶部に記憶している疑問詞及び否定語と一致しているか否かを判断する。完全に一致している際、或いは高度的に一致している際には、再生部326は、類似度の順番を示すリストから、直接的に類似度が一番高い演奏練習セットを再生してもよい。
【0102】
<実施例2:顔認識>
一例として、練習者は類似度が高い順で提示された演奏練習セットに対して疑問点がある場合には、憂鬱な表情や疑問顔が現れる場合もある。例えば、眉を顰めること、目をつぶること、或いは唇を尖らす等不満・疑問を示す表情である。
再生端末300は、第2撮影部321の全体撮像カメラ322によって取得した顔表情と比較する。違和感や不自然を検出する場合には、再生端末300は、類似度が一番高い演奏練習セットを再生してもよい。
【0103】
<実施例3:端末に復習箇所を自由に選択するボタン等機能の追加>
一例として、再生端末300に選択ボタンを追加する。練習者は類似度が高い順で提示された演奏練習セットごとに、自分が一番復習しようとしている演奏練習セットを選択してもよい。
【0104】
なお、本実施形態に係る練習者が在宅で楽器練習をするシステムでは、ChatGPT(登録商標)のような外部システムに接続して音声会話の機能を実現してもよい。また、練習者は外部システムと会話をしながら、外部システムを介して特定の演奏練習セットを再生することとしてもよい。
【0105】
図11に示すように、本実施形態に係る楽器練習システムは、正しく演奏するか否かを判断することに限らず、一実施例とする練習曲目の雰囲気やバックグラウンドを練習者に紹介することもできてもよい。
練習者は楽器練習をする前、練習曲目を予め確認してもよい(ステップS501)。練習者は指定時間において楽器を練習する場合には、本実施形態に係る楽器練習システムの再生部326は指定時間によって曲目の情報を自動的に練習者に配ってもよい。練習者は自分の演奏熟練度を考慮して練習時間を指定する場合には、練習者が自分で再生端末300に記憶していた曲目を選択することができる。
【0106】
練習曲目を決定した後、当該練習曲目の雰囲気を示す画像があるか否かを確認する(ステップ502)。一例として、本実施形態に係る再生端末300はChatGPT(登録商標)に接続することで(ステップ502のYES)、練習者が練習曲目を決めるとともに、ChatGPT(登録商標)を介してネットで練習曲目に関する雰囲気のデータを検索してもよい(ステップ503)。ChatGPT(登録商標)を用いて練習曲目に関する雰囲気を検出しなかった場合には(ステップ502のNO)、第3記憶部312又は第4記憶部324に記憶された練習曲目に属する演奏練習セットの指導者の発話データから曲の雰囲気を示す解説をまとめてもよい(ステップ504)。
【0107】
<補足>
上記実施の形態において本発明に係る楽器練習システムについて説明したが、本発明は上記実施形態に限定されないことは言うまでもない。以下に、各種の変形例について説明する。
【0108】
(1)上記の実施例において、サーバ端末200の編集部230は、再生端末300に搭載してもよい。一例として、映像取得端末100に搭載している第1撮影部110及びマイク116は、練習者の映像及び音声を取得した後に、第1記憶部120及び第2記憶部220に記憶せず、ネットを介して直接的に編集部230に渡してもよい。
また、映像取得端末100はサーバ端末200と一体に構成されてもよい。この場合には、一体に構成された端末は授業の進行につれて取得した音声データ及び画像データを自動編集してもよい。
【0109】
(2)また、練習者の授業中の画像及び音声を含む映像を取得する実施の形態は、これに限らず、スマートフォンやタブレット等を介して映像を取得してもよい。
【0110】
(3)実施の形態では、周波数の変動及び単位時間当たりnTの振動数を用いて説明したが、これに限らず、例えば再生端末300は演奏データを受け取りながら、テキストに変換してもよいし、曲目を含む音符を認識し、機械学習を用いて演奏データをテキスト化してもよい。この場合には、再生端末300は、練習者が授業で演奏している際の演奏データと、在宅で演奏している際の演奏データとをそれぞれテキスト化する上で、互いに比較してもよい。テキスト化の結果が異なる場合には、この部分は間違って演奏する可能性があり、再生端末300に検出されて再生してもよい。
【0111】
(4)本実施形態に係る実施例については、再生端末300は、名家の演奏映像や、音楽専門家からの解説等を検索して再生してもよい。
【0112】
(5)なお、本明細書において説明された各構成の機能、制御手順、特にフローチャートを用いて説明された処理手順においては、その処理方法及び手順は一部を省略し、或いはまた、新たな一部を追加や手順間の置換、順序を入れ替えること、このような省略、追加、順位の変更がなされた処理手順も本展示の趣旨を逸脱しない限り本開示の範囲に含まれる。
【符号の説明】
【0113】
100 映像取得端末
110 第1撮影部
111 右向きカメラ
112 左向きカメラ
113 足向きカメラ
114 下向きカメラ
115 全体撮像カメラ
116 マイク
120 第1記憶部
130 第1送信部
200 サーバ端末
210 第1受信部
220 第2記憶部
230 編集部
240 第2送信部
300 再生端末
310 受信処理部
311 第2受信部
312 第3記憶部
313 設定部
320 再生処理部
321 第2撮影部
322 全体撮像カメラ
323 マイク
324 第4記憶部
325 検出部
326 再生部
800 撮影画像
801 練習者画像
802 指導者画像
803 音声データ
804 取り替え用画像
【要約】 (修正有)
【課題】楽器練習をする際に、演奏中のミスを検出して授業中の指摘点を再生させる楽器練習システムを提供する。
【解決手段】楽器練習システムは、映像取得端末の第1送信部から送信した映像を受信する第1受信部、第1受信部が受信した映像を、当該映像に含まれる音に応じて自動編集する編集部及び編集部により編集された映像を、再生端末に送信する第2送信部を備えるサーバ端末と、編集された映像を受信する第2受信部、第2受信部から受信した映像を記憶する第2記憶部、練習者が練習している音を録音する録音部及び録音部が録音した音と編集された映像とに基づいて、練習者が練習している音に応じた指導者の音を再生する再生部を備える再生端末と、を備える。
【選択図】
図1