(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023155606
(43)【公開日】2023-10-23
(54)【発明の名称】音声トレーニング支援プログラム、音声トレーニング支援方法、及び、音声トレーニング支援装置
(51)【国際特許分類】
G06Q 50/10 20120101AFI20231016BHJP
【FI】
G06Q50/10
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2022065027
(22)【出願日】2022-04-11
(71)【出願人】
【識別番号】522145421
【氏名又は名称】小久保 宜昭
(74)【代理人】
【識別番号】100079108
【弁理士】
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【弁理士】
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【弁理士】
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【弁理士】
【氏名又は名称】内藤 和彦
(72)【発明者】
【氏名】小久保 宜昭
(72)【発明者】
【氏名】辻 佳佑
(72)【発明者】
【氏名】千葉 智史
(72)【発明者】
【氏名】隅田 敦
(72)【発明者】
【氏名】李 凌寒
(72)【発明者】
【氏名】冨澤 翔吾
【テーマコード(参考)】
5L049
【Fターム(参考)】
5L049CC12
(57)【要約】 (修正有)
【課題】ユーザに対する、ユーザの声質に基づく音声トレーニングの実施を適切に支援可能な音声トレーニング支援プログラム、音声トレーニング支援方法及び音声トレーニング支援装置を提供する。
【解決手段】クライアントであるn台のユーザ端末と、音声トレーニング支援サーバとがネットワークを介して相互に通信を行う音声トレーニング支援システムにおいて、音声トレーニング支援プログラムは、音声トレーニングを支援する音声トレーニング支援サーバを、ユーザの音声に基づいて特徴情報を取得する情報取得部12と、取得した特徴情報に基づいて、ユーザの音声の音高及び強さに応じた声質を解析する声質解析部16と、解析結果を反映する情報を出力するための出力情報を生成する出力情報生成部18と、として機能させる。
【選択図】
図3
【特許請求の範囲】
【請求項1】
音声トレーニングを支援する音声トレーニング支援装置を、
ユーザの音声に基づいて特徴情報を取得する情報取得部と、
取得した前記特徴情報に基づいて、前記ユーザの音声の音高及び強さに応じた声質を解析する声質解析部と、
前記解析結果を反映する情報を出力するための出力情報を生成する出力情報生成部と、
として機能させる音声トレーニング支援プログラム。
【請求項2】
前記出力情報生成部は、前記解析結果を反映する所定のスコアを出力するための出力情報を生成する、
請求項1に記載の音声トレーニング支援プログラム。
【請求項3】
前記出力情報生成部は、前記解析結果を反映するグラフを含む画面であって、前記解析結果に応じて前記グラフの形態が変更される画面を出力するための出力情報を生成する、
請求項1に記載の音声トレーニング支援プログラム。
【請求項4】
前記出力情報生成部は、前記解析結果を含む画面であって、前記解析結果に応じて前記画面の背景の形態が変更される画面を出力するための出力情報を生成する、
請求項1に記載の音声トレーニング支援プログラム。
【請求項5】
前記出力情報生成部は、前記解析結果を反映する声帯の状態を出力するための出力情報を生成する、
請求項1に記載の音声トレーニング支援プログラム。
【請求項6】
前記出力情報生成部は、前記解析結果を反映する前記音声の周波数成分を出力するための出力情報を生成する、
請求項1に記載の音声トレーニング支援プログラム。
【請求項7】
前記音声トレーニング支援装置を、
音声に基づく特徴情報と、音声の音高及び強さに応じた声質に関する解析ラベルとを含む学習用データを生成する学習用データ生成部と、
前記学習用データを用いた第1学習により、学習モデルを生成する学習モデル生成部と、としてさらに機能させ、
前記声質解析部は、前記ユーザの音声に基づく特徴情報と、前記学習モデルとに基づいて、前記ユーザの声質を解析する、
請求項1から6のいずれか一項に記載の音声トレーニング支援プログラム。
【請求項8】
前記音声トレーニング支援装置を、
前記第1学習の後、前記ユーザの音声に基づく前記特徴情報を含む前記解析結果を学習用データとして用いた第2学習により、前記学習モデルを更新する学習モデル更新部としてさらに機能させる、
請求項7に記載の音声トレーニング支援プログラム。
【請求項9】
前記音声トレーニング支援装置を、
前記声質の解析結果に基づいて、前記ユーザに適した音声トレーニングツールを提供するトレーニングツール提供部としてさらに機能させる、
請求項1に記載の音声トレーニング支援プログラム。
【請求項10】
音声トレーニングを支援する音声トレーニング支援装置が実行する音声トレーニング支援方法であって、
ユーザの音声に基づいて特徴情報を取得するステップと、
取得した前記特徴情報に基づいて、前記ユーザの音声の音高及び強さに応じた声質を解析するステップと、
前記解析結果を反映する情報を出力するための出力情報を生成するステップと、
を含む、音声トレーニング支援方法。
【請求項11】
音声トレーニングを支援する音声トレーニング支援装置であって、
ユーザの音声に基づいて特徴情報を取得する情報取得部と、
取得した前記特徴情報に基づいて、前記ユーザの音声の音高及び強さに応じた声質を解析する声質解析部と、
前記解析結果を反映する情報を出力するための出力情報を生成する出力情報生成部と、
を備える、音声トレーニング支援装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声トレーニング支援プログラム、音声トレーニング支援方法、及び、音声トレーニング支援装置に関する。
【背景技術】
【0002】
特許文献1には、歌唱者に対してボイストレーニング機能の項目を提示することができるカラオケ装置が記載されている。このカラオケ装置は、歌唱音声に基づいて特徴情報を取得する取得部、取得された特徴情報を歌唱者情報に関連付けて記憶させる第1の記憶処理部、歌唱者がボイストレーニング機能を利用した場合、その項目を歌唱者情報に関連付けて記憶させる第2の記憶処理部、取得された特徴情報と同一または類似する別の歌唱者の特徴情報が記憶されているかを判定する判定部、同一または類似する別の歌唱者の特徴情報が記憶されている場合、当該特徴情報に関連付けられている項目を表示部に表示させる表示制御部を有する。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
上記したような従来のカラオケ装置においては、歌唱者に対して音声トレーニング機能の項目を提示することができる。しかしながら、従来のカラオケ装置では、そもそも、音声トレーニングの対象であるユーザの音声の音高及び強さに応じた声質を解析することができない。したがって、従来のカラオケ装置では、ユーザの声質の解析結果を反映する情報を出力することもできないため、ユーザに対する、ユーザの声質に基づく音声トレーニングの実施を適切に支援できないおそれがある。
【0005】
そこで、本発明のいくつかの態様はかかる事情に鑑みてなされたものであり、ユーザに対する、ユーザの声質に基づく音声トレーニングの実施を適切に支援可能な音声トレーニング支援技術を提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明の一態様に係る音声トレーニング支援プログラムは、音声トレーニングを支援する音声トレーニング支援装置を、ユーザの音声に基づいて特徴情報を取得する情報取得部と、取得した特徴情報に基づいて、ユーザの音声の音高及び強さに応じた声質を解析する声質解析部と、解析結果を反映する情報を出力するための出力情報を生成する出力情報生成部と、として機能させる。
【0007】
本発明の一態様に係る音声トレーニング支援方法は、音声トレーニングを支援する音声トレーニング支援装置が実行する音声トレーニング支援方法であって、ユーザの音声に基づいて特徴情報を取得するステップと、取得した特徴情報に基づいて、ユーザの音声の音高及び強さに応じた声質を解析するステップと、解析結果を反映する情報を出力するための出力情報を生成するステップと、を含む。
【0008】
本発明の一態様に係る音声トレーニング支援装置は、音声トレーニングを支援する音声トレーニング支援装置であって、ユーザの音声に基づいて特徴情報を取得する情報取得部と、取得した特徴情報に基づいて、ユーザの音声の音高及び強さに応じた声質を解析する声質解析部と、解析結果を反映する情報を出力するための出力情報を生成する出力情報生成部と、を備える。
【0009】
なお、本発明において、「部」とは、単に物理的手段を意味するものではなく、その「部」が有する機能をソフトウェアによって実現する場合も含む。また、1つの「部」や装置が有する機能が2つ以上の物理的手段や装置により実現されても、2つ以上の「部」や装置の機能が1つの物理的手段や装置により実現されても良い。
【発明の効果】
【0010】
本発明によれば、ユーザに対する、ユーザの声質に基づく音声トレーニングの実施を適切に支援可能である。
【図面の簡単な説明】
【0011】
【
図1】本発明の実施形態に係る音声トレーニング支援システムの全体構成を示すブロック図である。
【
図2】本発明の実施形態に係る音声トレーニング支援システムが実行する音声トレーニング支援処理の概要を示す図である。
【
図3】本発明の実施形態に係る音声トレーニング支援サーバの機能ブロックの一例を示す図である。
【
図4】本発明の実施形態に係る、解析結果を反映する情報を出力するための出力情報を生成する出力情報生成処理の一例を示すフローチャートである。
【
図5】本発明の実施形態に係る解析結果画面の出力例を示す図である。
【
図6】本発明の実施形態に係る解析結果画面の出力例を示す図である。
【
図7】本発明の実施形態に係る解析結果の出力例を示す図である。
【
図8】本発明の実施形態に係る解析結果の出力例を示す図である。
【
図9】本発明の実施形態に係る解析結果の出力例を示す図である。
【
図10】本発明の実施形態に係る解析結果の出力例を示す図である。
【
図11】本発明の実施形態に係る解析結果の出力例を示す図である。
【
図12】本発明の実施形態に係る解析結果の出力例を示す図である。
【
図13】本発明の実施形態に係る、特徴情報取得処理の一例を示すフローチャートである。
【
図14】本発明の実施形態に係る、学習モデルの生成処理、及び、更新処理の一例を示すフローチャートである。
【
図15】本発明の実施形態に係るコンピュータのハードウェア構成の一例を示す図である。
【発明を実施するための形態】
【0012】
以下、添付図面を参照しながら本発明の実施の形態について説明する。以下の実施の形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、様々な変形が可能である。さらに、各図面において同一の構成要素に対しては可能な限り同一の符号を付し、重複する説明は省略する。
【0013】
図1は、本発明の実施形態に係る音声トレーニング支援システム100の全体構成を示すブロック図である。
図1に示すように、音声トレーニング支援システム100は、例示的に、音声トレーニングの対象であるユーザの音声トレーニングを支援する音声トレーニング支援サーバ1(音声トレーニング支援装置)と、ユーザが操作するn台(nは、1以上の任意の整数値)のユーザ端末3と、ネットワークNとを含んで構成される。
【0014】
音声トレーニング支援システム100は、いわゆるクライアント・サーバシステムである。音声トレーニング支援システム100は、クライアントであるn台のユーザ端末3と、音声トレーニング支援サーバ1とがネットワークNを介して相互に通信を行うことにより実現される。
【0015】
音声トレーニング支援サーバ1は、必ずしも単体の情報処理装置で構成される必要はなく、複数の情報処理装置が協働して動作するものであってもよい。音声トレーニング支援サーバ1は、任意のクラウドサービスによって動作するものであってもよい。また、ユーザ端末3は、例えば、PC(Personal Computer)やタブレット端末等の情報処理装置により実現される。さらに、ネットワークNは、例えば、インターネット、携帯電話網といったネットワーク、LAN(Local Area Network)、あるいはこれらを組み合わせたネットワークにより実現される。なお、図中には、n台のユーザ端末3として、ユーザ端末3a及びユーザ端末3nを図示している。ただし、以下の説明において、これらn台のユーザ端末3を区別することなく説明する場合には、符号を一部省略して、単に「ユーザ端末3」と呼ぶ。
【0016】
図2は、本発明の実施形態に係る音声トレーニング支援システム100が実行する音声トレーニング支援処理の概要を示す図である。
図2に示すように、例えば、(1)音声トレーニング支援システム100は、ユーザの音声(例えば歌声)を取得する。(2)音声トレーニング支援システム100は、ユーザの音声に基づいて特徴情報(例えば歌声の特徴量)を抽出(取得)する。(3)音声トレーニング支援システム100は、取得した特徴情報を、例えば機械学習アルゴリズム(学習モデル)に入力することによってユーザの音声の音高及び強さに応じた声質を解析して解析結果を出力する。(4)音声トレーニング支援システム100は、解析結果を反映する情報を出力するための出力情報を生成する。
【0017】
「ユーザの音声の音高」は、ユーザの音声に関する音の高低を示す。また、ユーザの音声の「強さ」は、例えば、ユーザがある音高を発声している際の声帯振動のバランスの強弱を含む。「ユーザの音声の音高及び強さに応じた声質」は、ユーザの音声の音高及び強さに応じた、ユーザの声の質(又は性質)をいい、例えば、PULL(プル)、MIX(ミックス)、又は、LIGHT(ライト)等の指標として判定(評価)されうる。
【0018】
これらの声質に関する指標は、例えば、ユーザがある音高を発声している際の声帯振動のバランスを評価したものである。例えば、人の声帯は「閉鎖」と「開放」とを繰り返しながら振動しており、閉鎖の時間が長いと「強い」又は「重い」(例えば「PULL」)と評価され、開放の時間が長いと「弱い」又は「軽い」(例えば「LIGHT」)と評価される。また、「MIX」は、PULLとLIGHTの中間的な指標であり、いわゆる、強さが丁度良い音声であることを示す。「MIX」は、例えば、ユーザの発声期間において声質が安定的であり、スムーズな発声に相当する。
【0019】
また、「ユーザの音声の音高及び強さに応じた声質」は、例えば、ユーザの「地声」及び「裏声」のバランスに対応してもよい。「ユーザの音声の音高及び強さに応じた声質」は、ユーザの「地声」及び「裏声」のそれぞれに対する周波数に基づいて評価されてもよい。なお、声質に関する指標は、必ずしも、上記したPULL、MIX、又は、LIGHTの三段階で評価される必要はなく、一段階、二段階、又は四段階以上で評価されてもよい。声質に関する指標は、上記したPULL、MIX、又は、LIGHTの他、例えば、FLIP(フリップ)、NO CHEST(ノーチェスト)、又は、HIGH LARYNX(ハイラリンクス)等の他の指標を含んでもよい。
【0020】
「出力情報」は、例えば、ユーザの声質に関する解析結果を可視化する解析結果の例(例えば
図5から
図12)を出力するための情報を含む。ユーザは、例えば自らが操作するユーザ端末3が備えるディスプレイ等において表示される画面で、自らの声質に関する解析結果を確認可能である。よって、ユーザは、自らの声質の状態等を容易に把握できるから、ユーザに対する、ユーザの声質に基づく音声トレーニングの実施を支援可能である。つまり、ユーザは、自らの声質の状態等に応じた音声トレーニングを、例えば音声トレーニングのコーチに要求し、当該コーチから音声トレーニングを受けることが可能である。なお、「出力情報」は、ユーザの声質に関する解析結果を音声として出力するための情報を含んでもよい。
【0021】
また、音声トレーニング支援システム100は、音声トレーニングの支援の一環として、ユーザの声質の解析結果に基づいて、ユーザに適した音声トレーニングツールを提供する。この構成によれば、音声トレーニング支援システム100は、ユーザの声質の解析結果を提示するのみならず、ユーザの声質の解析結果に応じた音声トレーニングツールをユーザに提供可能である。
【0022】
図3は、本発明の実施形態に係る本発明の実施形態に係る音声トレーニング支援サーバ1の機能ブロックの一例を示す図である。音声トレーニング支援サーバ1は、例示的に、ユーザに対する音声トレーニングを支援するための情報処理を実行する情報処理部11と、当該情報処理を実行するための情報、及び、当該情報処理を実行することによって生成された情報を記録する記録部20と、を備える。
【0023】
情報処理部11は、機能的に、情報取得部12と、学習用データ生成部13と、学習モデル生成部14と、学習モデル更新部15と、声質解析部16と、トレーニングツール提供部17と、出力情報生成部18と、を備える。なお、情報処理部11の上記各部は、例えば、メモリやハードディスク等の記憶領域を用いたり、記憶領域に格納されているプログラムをプロセッサが実行したりすることにより実現することができる。
【0024】
情報取得部12は、ユーザに対する音声トレーニングを支援するための情報処理を実行するための各種情報を取得する。例えば、情報取得部12は、ユーザの歌声(音声)に基づいて特徴量(特徴情報)を取得する。
【0025】
特徴情報FIを取得する手法は任意であるが、例えば、情報取得部12は、まず、ユーザの歌声をユーザが操作するユーザ端末3におけるマイク(例えば
図15に示す入出力インターフェイス44に対応)で取得する。より具体的には、特徴情報FIを取得する手法は、例えば以下のステップを含む。
【0026】
(1)情報取得部12は、取得したユーザの歌声をフレームごとに周波数成分に変換する。(2)情報取得部12は、例えばケプストラム分析を用いて、変換した周波数成分に基づいて振動スペクトルを抽出する。これは、発声時の母音が周波数成分に与える影響を取り除くためである。(3)情報取得部12は、抽出した振動スペクトルに基づいて基底周波数を解析する。(4)情報取得部12は、音声の各フレームについて、解析した基底周波数の倍音に対応する周波数成分を特徴情報FIとして抽出(取得)する。
【0027】
学習用データ生成部13は、音声に基づく特徴情報FIと、音声の音高及び強さに応じた声質に関する解析ラベルとを含む学習用データTDを生成する。例えば、機械学習モデル(学習モデル30)を訓練するための学習用データTDは、ユーザの音声に基づいて抽出された特徴情報FIと、解析ラベル(例えば、PULL、MIX、もしくはLIGHT等の指標、又は、後述するスコア)とを関連付けて生成される。
【0028】
例えば、学習用データ生成部13は、ユーザをトレーニングするトレーナ等が予め指定された解析ラベルに対応するように発声して、このトレーナ等の音声データを取得する。学習用データ生成部13は、学習用データTDとして、この音声データに基づく特徴情報FIと、予め指定された解析ラベルとを関連付けたデータを生成する。
【0029】
他の手法としては、学習用データ生成部13は、予めユーザの音声の録音データを取得する。学習用データ生成部13は、音声トレーナ等による、音声の録音データ(に基づく特徴情報FI)に対する解析ラベルの付与に関する入力を受け付ける。学習用データ生成部13は、学習用データTDとして、この録音データに基づく特徴情報FIと、付与された解析ラベルとを関連付けたデータを生成する。
【0030】
学習モデル生成部14は、学習用データ生成部13が生成した学習用データTDを用いた第1学習により、学習モデルを生成する。学習モデル生成部14において使用されるネットワーク構造は任意である。例えば、学習モデル生成部14は、CRNN(Convolutional Recurrent Neural Network)を含むネットワーク構造から学習モデル30を生成してもよい。CRNNは、例えば、畳み込みニューラルネットワーク、つまりCNN(Convolutional Neural Network)と、リカレントニューラルネットワーク、つまりRNN(Recurrent Neural Network)とが結合されたネットワーク構造である。なお、ネットワーク構造は単一のニューラルネットワークから構成されてもよい。ネットワーク構造は、上記以外の構成を採用してもよい。また、ニューラルネットワークについても、CNN及びRNN以外のニューラルネットワークを採用してもよい。また、学習モデル生成部14は、上記のニューラルネットワーク以外の機械学習モデルを生成してもよい。例えば、学習モデル生成部14は、ロジスティック回帰を用いる手法、及び、決定木を用いる手法の少なくとも一方の手法に関する学習モデルを生成してもよい。
【0031】
なお、学習モデル30は、音声トレーニング支援サーバ1によって参照可能であればよい。つまり、
図3に示すように、音声トレーニング支援サーバ1が学習モデル30を備えていてもよいし、学習モデル30は、音声トレーニング支援サーバ1とは異なる情報処理装置又はクラウド上に配置されてもよい。
【0032】
学習モデル更新部15は、第1学習の後、ユーザの音声に基づく特徴情報FIを含む解析結果を学習用データとして用いた第2学習により、学習モデル30を強化(更新)する。
【0033】
後述するとおり、声質解析部16によって、第1学習で生成された既存学習モデルを使用したユーザの声質の解析結果が出力される。例えば、ユーザをトレーニングするトレーナ等によって、出力された解析結果であって既存学習モデルを使用した解析結果が誤りであると判断される場合は、トレーナ等によってマニュアル修正された解析ラベルを、解析結果に対応する、ユーザの音声に基づく特徴情報FIに正解ラベルとして付与する。この場合は、学習モデル更新部15は、解析結果に対応するユーザの音声に基づく特徴情報FIと、トレーナ等によってマニュアル修正された正解ラベルとを新たな学習データとして既存学習モデルに取り込む。なお、解析レベルの修正は、トレーナ等ではなく、学習モデル更新部15等が自動的に実行してもよい。他方で、出力された解析結果であって既存学習モデルを使用した解析結果が誤りと判断されなかった場合は、マニュアル修正は実行されない。
【0034】
上記のとおり、学習モデル更新部15では、ユーザの音声に基づく特徴情報FIとそれに対応する正解ラベルとを含む学習用データが新たに生成される。そして、学習モデル更新部15は、新たに生成された学習用データを第1学習で生成された既存学習モデルに追加することにより、既存学習モデルを強化することができる。
【0035】
声質解析部16は、 取得した特徴情報FIに基づいて、ユーザの音声の音高及び強さに応じた声質を解析する。声質の解析手法は、任意であるが、例えば、声質解析部16は、ユーザの音声に基づく特徴情報FIと、学習モデル30とに基づいて、ユーザの声質を解析する。声質解析部16は、解析結果を解析結果情報ARIとして記録部20に記録する。
【0036】
声質解析部16は、特徴情報FIが学習モデル30に入力されると、学習モデル30からの解析結果としての出力を加工してスコアを算出する。スコアの算出手法は任意である。例えば、学習モデル30からの出力は、各ラベルの確率となる。より具体的には、声質解析部16は、学習モデル30を用いて、声質を表す「PULL」(強い)、「MIX」(丁度良い)、及び、「LIGHT」(弱い)の3種類のラベルについての予測として(0.2 0.7 0.1)という確率値を出力する。声質解析部16は、これらの確率値を、例えば、(強い)~(丁度良い)~(弱い)を表す1~0(ゼロ)~-1の範囲をとるスコアに変換する。上記の(0.2 0.7 0.1)といった確率値を用いる場合、声質解析部16は、以下の式に示すように、学習モデル30からの出力スコアとして、「0.1」を算出する。
(式)出力スコア:「PULL」のスコア×(1.0)+「MIX」のスコア×(0.0)+「LIGHT」のスコア×(-1.0)=0.1
【0037】
この構成によれば、声質解析部16は、ユーザの声質の解析に生成又は更新された学習モデルを用いるから、ユーザの声質を、高精度に解析可能である。
【0038】
なお、確率値に関して強さを表す範囲は、1~0(ゼロ)~-1の範囲の他、10~0(ゼロ)~-10の範囲、又は、100~0(ゼロ)~-100の範囲を採用してもよい。
【0039】
また、声質解析部16は、取得した、所定時間(例えば30秒間)のユーザの音声に対して、所定タイミングごと(例えばフレームごと、1秒ごと、又は、数秒ごと)に声質を解析するが、これに限られない。例えば、声質解析部16は、取得した所定時間(例えば30秒間)のユーザ音声ごとに声質を解析してもよい。この場合、声質解析部16は、取得した例えば30秒間のユーザの音声に対して、所定タイミングごと(例えばフレームごと、1秒ごと、又は、数秒ごと)に声質を解析した結果の平均値、中央値、又は、標準偏差等を解析結果として算出してもよい。
【0040】
トレーニングツール提供部17は、声質解析部16による声質の解析結果に基づいて、ユーザに適した音声トレーニングツールを提供する。音声トレーニングツールは、
図1に示す音声トレーニング支援システム100で実行されるアプリケーション上でユーザに対して提供される。音声トレーニングツールは、ユーザの音声トレーニングを支援するためのツールである。トレーニングツール提供部17は、解析されたユーザの声質が、「PULL」、「MIX」、又は、「LIGHT」のいずれであるかに応じて、ユーザにとって適切な発声調整が可能なトレーニングツールを提供可能である。なお、声質に応じたトレーニングツールは、トレーニングツール情報TTIとして、音声トレーナ等の専門家によって予め作成され音声トレーニング支援システム100に登録される。
【0041】
音声トレーニング支援システム100には一又は複数の音声トレーニングツールが登録される。各音声トレーニングツールは、例えば、以下の要素(1)~(4)を備え、各要素に関してユーザが容易に発声を調整できるような音声トレーニングツールを含む。
(1)発音(例えば母音と子音)
(2)スケール(例えばメロディの形状)
(3)音域(例えばある音高Aから他の音高Bまでメロディを繰り返すか等)
(4)出し方(声の出し方の指定等)
【0042】
例えば、ユーザの音声の声質の解析結果が「LIGHT」(弱い又は軽い)のユーザに対しては、トレーニングツール提供部17は、以下の要素を含むトレーニングツールを推薦する。
(1)発音:Ah(ア)(地声を強く発声しやすい母音であるため)
(2)スケール:5tоne(ド‐レ‐ミ‐ファ‐ソ‐ファ‐ミ‐レ‐ド)(同じ発声状態を維持しやすいメロディであるため)
(3)音域:メロディの最高音がA3のところからD4まで(地声を発声しやすい音域であるため)
(4)出し方:スタッカート(音を短く切る発声)(地声を強く発声しやすい出し方のため)
【0043】
出力情報生成部18は、声質解析部16による、解析結果を反映する情報を出力するための出力情報を生成する。例えば、音声トレーニング支援サーバ1は、出力情報に基づいて、例えば
図5から
図12に示すような解析結果の例を
図1に示すユーザ端末3が備えるディスプレイにおいて出力する。これにより、ユーザは、自らが操作するユーザ端末3において解析結果画面を確認可能である。
【0044】
記録部20は、例えば、学習用データTDと、特徴情報FIと、解析結果情報ARIと、トレーニングツール情報TTIと、を記録する。
【0045】
<出力情報生成処理>
図4から
図12を参照して、本発明の実施形態に係る、解析結果を反映する情報を出力するための出力情報を生成する出力情報生成処理を説明する。
図4は、出力情報生成処理の一例を示すフローチャートである。
【0046】
図4に示すように、
図1及び
図3に示す音声トレーニング支援サーバ1は、ユーザの音声に基づいて特徴情報FIを取得する(S1)。音声トレーニング支援サーバ1は、取得した特徴情報に基づいて、ユーザの音声の音高及び強さに応じた声質を解析する(S3)。音声トレーニング支援サーバ1は、解析結果を反映する情報を出力するための出力情報を生成する(S5)。音声トレーニング支援サーバ1は、声質の解析結果に基づいて、ユーザに適した音声トレーニングツールを提供する(S7)。なお、音声トレーニング支援サーバ1は、ステップS7をステップS5よりも前に実行してもよいし、ステップS5とステップS7を同時に又は並行して実行してもよい。
【0047】
図5から
図12は、本発明の実施形態に係る解析結果の出力例(例えばスコア表示パターン例)を示す図である。
図5から
図12に示すように、
図1及び
図3に示す音声トレーニング支援サーバ1は、ユーザの音声の解析結果を反映する所定のスコアを出力するための出力情報を生成する。特に、
図5に示すように、音声トレーニング支援サーバ1は、解析結果を反映するグラフを含む画面であって、解析結果に応じて前記グラフの形態が変更される画面を出力するための出力情報を生成する。また、音声トレーニング支援サーバ1は、ユーザの音声の解析結果を含む解析結果画面であって、解析結果に応じて背景の形態が変更される解析結果画面を出力するための出力情報を生成する。例えば、
図5に示す解析結果画面は、30秒間のユーザの音声に対する、所定タイミングごとのユーザの声質の解析結果を出力する画面である。所定タイミングは、例えば、フレームごと、1秒ごと、又は、数秒ごとを含む。
【0048】
図5の例では、30秒間のユーザの音声のうち再生開始から5秒後(実線Lのタイミング)のユーザの声質の解析結果を示している。
図5の例は、グラフの表示形態の変化で解析結果(「PULL」、「MIX」、又は、「LIGHT」)を表す。具体的には、
図5の例では、実線Lのタイミングでは、ユーザの声質の解析結果は「MIX」であり、グラフの色は、「MIX」に対応する色(例えば緑色)で表示される。他方で、破線DLのタイミング(例えば再生開始から2秒後)のユーザの声質の解析結果は「PULL」であり、グラフの色は、「PULL」に対応する色(例えば赤色)で表示される。この構成によれば、ユーザは、例えばユーザ端末3に表示される解析結果画面のグラフの色を確認することで容易にユーザの声質の解析結果を把握可能である。なお、解析結果に応じたグラフの形態の変更内容は、任意であり、色の変更の他、グラフの線の太さ、又は、グラフの線の種類(例えば実線、破線、又は波線)の変更を含む。
【0049】
また、
図5の例は、画面の背景BGの表示形態の変化で解析結果(「PULL」、「MIX」、又は、「LIGHT」)を表す。具体的には、
図5の例では、実線Lのタイミングでは、ユーザの声質の解析結果は「MIX」であり、解析結果画面D1の背景BGの色は、「MIX」に対応する色(例えば緑色)で表示される。他方で、破線DLのタイミング(例えば再生開始から2秒後)のユーザの声質の解析結果は「PULL」であり、解析結果画面D1の背景BGの色は、「PULL」に対応する色(例えば赤色)で表示される。この構成によれば、ユーザは、例えばユーザ端末3に表示される解析結果画面の背景BGの色を確認することで容易にユーザの声質の解析結果を把握可能である。なお、解析結果に応じた背景BGの形態の変更内容は、任意であり、色の変更の他、模様、又は、色彩の変更を含む。
【0050】
図6に示す解析結果画面D3は、例えば40秒間のユーザの音声に対する所定タイミングごとのユーザの声質の解析結果が出力された画面である。
図6の例では、40秒間のユーザの音声に関して、例えば前半の再生期間に関するユーザの声質の解析結果は「LIGHT」であり、中盤の再生期間に関するユーザの声質の解析結果は「MIX」であり、後半の再生期間に関するユーザの声質の解析結果は「PULL」であることが容易に把握可能である。
【0051】
図7から
図9に示す例は、所定時間(例えば30秒間)のユーザの音声に対する所定タイミングごと(例えばフレームごと、1秒ごと、又は、数秒ごと)のユーザの声質の解析結果を出力する例である。例えば、
図7(A)、
図8(A)、及び、
図9(A)の例は、ユーザの声質の解析結果が「LIGHT」(例えば、発声が弱すぎる状態)であることを示す。また、
図7(B)、
図8(B)、及び、
図9(B)の例は、ユーザの声質の解析結果が「MIX」(例えば、発声が丁度良い状態)であることを示し、
図7(C)、
図8(C)、及び、
図9(C)の例は、ユーザの声質の解析結果が「PULL」(例えば、発声が強すぎる状態)であることを示す。つまり、
図1及び
図3に示す音声トレーニング支援サーバ1は、所定時間のユーザの音声に関して、所定タイミングごとに、ユーザの声質の解析結果を、必要に応じて切り替えて出力可能である。なお、
図7から
図9に示す例は、所定時間のユーザの音声に対する所定タイミングごとのユーザの声質の解析結果を出力する上記した例に限られず、所定時間のユーザの音声ごとのユーザの声質の解析結果を出力する例を含んでもよい。
【0052】
図10及び
図11は、ユーザの声質の解析結果を反映する声帯VCの状態の出力例を示す図である。特に
図10は、上部から見た場合の人の声帯VCの断面を表す図であり、
図11は、正面から見た場合の人の声帯VCの断面を表す図である。
図10及び
図11に示すように、
図1及び
図3に示す音声トレーニング支援サーバ1は、ユーザの声質の解析結果を反映する声帯VCの状態を出力するための出力情報を生成する。
【0053】
一般的に、人の声質は、発声の際の声帯の接触具合に基づいて決まる。例えば、声帯が比較的に接触しない場合には、人の声質は、「発声が弱すぎる状態」(例えば「LIGHT」)と判定される傾向がある。また、声帯が比較的に強く接触している場合には、人の声質は、「発声が強すぎる状態」(例えば「PULL」)と判定される傾向がある。さらに、声帯が丁度良い接触具合である場合には、人の声質は、「発声が丁度良い状態」(例えば「MIX」)と判定される傾向がある。
【0054】
例えば、
図9(A)、及び、
図10(A)の例は、ユーザの声質の解析結果が「LIGHT」(「発声が弱すぎる状態」)であることを示す。また、
図9(B)、及び、
図10(B)の例は、ユーザの声質の解析結果が「MIX」(「発声が丁度良い状態」)であることを示し、
図9(C)、及び、
図10(C)の例は、ユーザの声質の解析結果が「PULL」(「発声が強すぎる状態」)であることを示す。
図9及び
図10に示すように、音声トレーニング支援サーバ1は、所定時間のユーザの音声に関して、所定タイミングごとに、ユーザの声質の解析結果を、必要に応じて切り替えて出力可能である。
【0055】
図12は、本発明の実施形態に係る解析結果の出力例を示す図である。
図12に示すように、
図1及び
図3に示す音声トレーニング支援サーバ1は、ユーザの声質の解析結果を反映する音声の周波数成分を出力するための出力情報を生成する。
図12の例では、ユーザの声質の解析結果を反映する音声の周波数成分と関連付けて、目指すべき声質に対応する周波数成分も出力されている。この構成によれば、ユーザは、自らの声質の解析結果とともに、目指すべき声質に関する情報についてもあわせて確認することができる。
【0056】
ユーザの声質の解析結果を反映する音声の周波数成分と関連付けて画面に出力される、目指すべき声質に対応する周波数成分(目指すべき声質に対応する声(音声))は、
図1に示す音声トレーニング支援システム100で実行されるアプリケーション上において予め設定される。ユーザは、予め、一又は複数の目指すべき声質に対応する声から特定の目指すべき声質に対応する声を選択する。この構成によれば、ユーザは、自らが気に入った声を目指すべき声として設定することが可能である。なお、音声トレーニング支援サーバ1が、一又は複数の目指すべき声質に対応する声(音声)から特定の目指すべき声質に対応する声(音声)を自動的に選択してもよい。
【0057】
一又は複数の目指すべき声質に対応する声は、所定の機械学習モデルから生成されてもよい。所定の機械学習モデルとして、
図3に示す学習モデル30が採用されてもよい。この場合、音声トレーニング支援サーバ1は、声質の解析が可能な学習モデル30に基づいて、目指すべき声質(例えば「MIX」)に対応する周波数成分を生成して、当該周波数成分に対応する出力情報を生成する。つまり、音声トレーニング支援サーバ1は、目指すべき声質に関する情報を入力情報として学習モデル30に入力し、学習モデル30から目指すべき声質に対応する周波数成分を出力情報として取得する。
【0058】
なお、一又は複数の目指すべき声質に対応する声(音声)は、音声トレーナ等の専門家の指示に基づいて生成されてもよい。
【0059】
以上、本実施形態における、音声トレーニング支援サーバ1は、ユーザの音声に基づいて特徴情報FIを取得し、取得した特徴情報FIに基づいて、ユーザの音声の音高及び強さに応じた声質を解析し、解析結果を反映する情報を出力するための出力情報を生成する。よって、ユーザは、例えば自らが操作するユーザ端末3が備えるディスプレイ等において表示される解析結果画面で、自らの声質に関する解析結果を確認可能である。したがって、ユーザは、自らの声質の状態等を容易に把握できるから、ユーザに対する、ユーザの声質に基づく音声トレーニングの実施を支援可能である。
【0060】
<特徴情報取得処理>
図13を参照して、本発明の実施形態に係る特徴情報取得処理の一例を説明する。
図13は、本発明の実施形態に係る特徴情報取得処理の一例を示すフローチャートである。前提として、
図1及び
図3に示す音声トレーニング支援サーバ1は、まず、ユーザの歌声をユーザが操作するユーザ端末3におけるマイク(例えば
図15に示す入出力インターフェイス44に対応)で取得している。
【0061】
図13に示すように、音声トレーニング支援サーバ1は、取得したユーザの歌声をフレームごとに周波数成分に変換する(S11)。音声トレーニング支援サーバ1は、変換した周波数成分に基づいて振動スペクトルを抽出する(S13)。音声トレーニング支援サーバ1は、抽出した前記振動スペクトルに基づいて基底周波数を解析する(S15)。音声トレーニング支援サーバ1は、解析した基底周波数の倍音に対応する周波数成分を特徴情報として抽出する(S17)。
【0062】
<学習モデルの生成処理及び更新処理>
図14を参照して、本発明の実施形態に係る、学習モデルの生成処理、及び、更新処理の一例を説明する。
図14は、本発明の実施形態に係る、学習モデルの生成処理、及び、更新処理の一例を示すフローチャートである。
【0063】
図14に示すように、
図1及び
図3に示す音声トレーニング支援サーバ1は、音声に基づく特徴情報と、音声の音高及び強さに応じた声質に関する解析ラベルとを含む学習用データTDを生成する(S21)。音声トレーニング支援サーバ1は、学習用データTDを用いた第1学習により、学習モデル30を生成する(S23)。
【0064】
次に、音声トレーニング支援サーバ1は、新たな学習データが入力されたか否かを判断する(S25)。例えば、ユーザをトレーニングするトレーナ等によって、出力された解析結果であって既存学習モデルを使用した解析結果が誤りであると判断される場合に、音声トレーニング支援サーバ1は、解析結果に対応するユーザの音声に基づく特徴情報と、トレーナ等によってマニュアル修正された正解ラベルとが、新たな学習データとして既存の学習モデル30に取り込まれたか(入力されたか)否かを判断する。
【0065】
新たな学習データの入力がある場合(ステップS25においてYesの場合)は、ステップS27に進む。音声トレーニング支援サーバ1は、解析結果を学習用データとして用いた第2学習により、学習モデル30を更新する(S27)。
【0066】
新たな学習データの入力がない場合(ステップS25においてNoの場合)は、
図14に示す学習モデルの生成処理、及び、更新処理を終了する。
【0067】
図15は、本発明の一実施形態に係るコンピュータのハードウェア構成の一例を示す図である。
図15を参照して、
図1に示す情報処理サーバ1及びユーザ端末3を構成するのに用いることができるコンピュータのハードウェア構成の一例について説明する。
【0068】
図15に示すように、コンピュータ40は、ハードウェア資源として、主に、プロセッサ41と、主記録装置42と、補助記録装置43と、入出力インターフェイス44と、通信インターフェイス45とを備えており、これらはアドレスバス、データバス、コントロールバス等を含むバスライン46を介して相互に接続されている。なお、バスライン46と各ハードウェア資源との間には適宜インターフェイス回路(図示せず)が介在している場合もある。
【0069】
プロセッサ41は、コンピュータ全体の制御を行う。プロセッサ41は、例えば、
図3に示す情報処理サーバ1の情報処理部11に相当する。主記録装置42は、プロセッサ41に対して作業領域を提供し、SRAM(Static Random Access Memory)やDRAM(Dynamic Random Access Memory)等の揮発性メモリである。
【0070】
補助記録装置43は、ソフトウェアであるプログラム等やデータ等を格納する、HDDやSSD、フラッシュメモリ等の不揮発性メモリである。当該プログラムやデータ等は、任意の時点で補助記録装置43からバスライン46を介して主記録装置42へとロードされる。補助記録装置43は、例えば
図3に示す情報処理サーバ1の記録部20に相当する。
【0071】
入出力インターフェイス44は、情報を出力又は提示すること(
図3に示す出力情報生成部18が生成した出力情報に基づいて所定画面を出力すること等)、及び、情報の入力を受けることの一方又は双方を行うものであり、カメラ、キーボード、マウス、ディスプレイ、タッチパネル・ディスプレイ、マイク、スピーカ等である。通信インターフェイス45は、所定の通信ネットワークを介して、外部装置又は外部データベースと各種データを送受信するためのものである。
【0072】
通信インターフェイス45と所定の通信ネットワークとは、有線又は無線で接続されうる。通信インターフェイス45は、ネットワークに係る情報、例えば、Wi-Fiのアクセスポイントに係る情報、通信キャリアの基地局に関する情報等も取得することがある。
【0073】
上に例示したハードウェア資源とソフトウェアとの協働により、コンピュータ40は、所望の手段として機能し、所望のステップを実行し、所望の機能を実現させることできることは、当業者には明らかである。
【0074】
なお、上記各実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するものではない。本発明はその趣旨を逸脱することなく、変更/改良され得るとともに、本発明にはその等価物も含まれる。また、本発明は、上記各実施形態に開示されている複数の構成要素の適宜な組み合わせにより種々の開示を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素は削除してもよい。さらに、異なる実施形態に構成要素を適宜組み合わせてもよい。
【符号の説明】
【0075】
1…音声トレーニング支援サーバ、3a,3n…ユーザ端末、11…情報処理部、12…情報取得部、13…学習用データ生成部、14…学習モデル生成部、15…学習モデル更新部、16…声質解析部、17…トレーニングツール提供部、18…出力情報生成部、20…記録部、30…学習モデル、40…コンピュータ、41…プロセッサ、42…主記録装置、43…補助記録装置、44…入出力インターフェイス、45…通信インターフェイス、46…バスライン