IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 独立行政法人産業技術総合研究所の特許一覧

特開2024-25111音声物質化表示装置及び音声物質化表示変換方法
<>
  • 特開-音声物質化表示装置及び音声物質化表示変換方法 図1
  • 特開-音声物質化表示装置及び音声物質化表示変換方法 図2
  • 特開-音声物質化表示装置及び音声物質化表示変換方法 図3
  • 特開-音声物質化表示装置及び音声物質化表示変換方法 図4
  • 特開-音声物質化表示装置及び音声物質化表示変換方法 図5
  • 特開-音声物質化表示装置及び音声物質化表示変換方法 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024025111
(43)【公開日】2024-02-26
(54)【発明の名称】音声物質化表示装置及び音声物質化表示変換方法
(51)【国際特許分類】
   G10L 21/10 20130101AFI20240216BHJP
   G10L 25/51 20130101ALI20240216BHJP
   G10L 15/00 20130101ALI20240216BHJP
【FI】
G10L21/10
G10L25/51
G10L15/00 200E
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2022128297
(22)【出願日】2022-08-10
(71)【出願人】
【識別番号】301021533
【氏名又は名称】国立研究開発法人産業技術総合研究所
(72)【発明者】
【氏名】大山 潤爾
(57)【要約】
【課題】発声や発話を行うユーザへ、自己が発した音声の状態を直感的にイメージさせることができる音声物質化表示装置及び音声物質化表示変換方法を提供する。
【解決手段】
ユーザが発した音声を可視化する音声物質化表示装置1であって、上記音声を特徴づける音声要素データを抽出する音声解析部2と、上記音声解析部2により抽出された音声要素データを物質の運動を特定する物質運動特徴空間内の点へ変換する特徴空間変換部3と、上記特徴空間変換部3により得られた上記物質運動特徴空間内の点が示す物理量に応じて、物質の運動を示す画像を生成する画像生成部4と、上記画像生成部4により生成された画像を表示する表示部5を備えた音声物質化表示装置1を提供する。
【選択図】図1
【特許請求の範囲】
【請求項1】
ユーザが発した音声を可視化する音声物質化表示装置であって、
前記音声を特徴づける音声要素データを抽出する音声解析手段と、
前記音声解析手段により抽出された前記音声要素データを物質の運動を特定する物質運動特徴空間内の点へ変換する特徴空間変換手段と、
前記特徴空間変換手段により得られた前記物質運動特徴空間内の点が示す物理量に応じて、物質の運動を示す画像を生成する画像生成手段と、
前記画像生成手段により生成された前記画像を表示する表示手段を備えた音声物質化表示装置。
【請求項2】
前記特徴空間変換手段は、少なくとも二つの状態において得られた前記音声を特徴づける複数の前記音声要素データと、各々の前記状態における前記物理量を対応させる関数を規定して、規定された前記関数を用いて前記変換を実行する、請求項1に記載の音声物質化表示装置。
【請求項3】
前記特徴空間変換手段は、前記複数の前記音声要素データ間において差が最大となる音声要素を含む前記音声要素データを用いて前記関数を規定する、請求項2に記載の音声物質化表示装置。
【請求項4】
前記音声要素データは、前記音声の音圧、周波数、長さ、音色のうち、少なくとも一つを示すデータである、請求項1に記載の音声物質化表示装置。
【請求項5】
前記画像は、仮想現実空間、拡張現実空間、若しくは複合現実空間内における、2次元若しくは3次元の画像である、請求項1に記載の音声物質化表示装置。
【請求項6】
ユーザが発した音声を可視化する音声物質化表示変換方法であって、
前記音声を特徴づける音声要素データを抽出する第一のステップと、
前記第一のステップで抽出された前記音声要素データを物質の運動を特定する物質運動特徴空間内の点へ変換する第二のステップと、
前記第二のステップで得られた前記物質運動特徴空間内の点が示す物理量に応じて、物質の運動を示す画像を生成する第三のステップと、
前記第三のステップで生成された前記画像を表示する第四のステップを有する音声物質化表示変換方法。
【請求項7】
前記第二のステップでは、少なくとも二つの状態において得られた前記音声を特徴づける複数の前記音声要素データと、各々の前記状態における前記物理量を対応させる関数を規定し、規定された前記関数を用いて前記変換を実行する、請求項6に記載の音声物質化表示変換方法。
【請求項8】
前記第二のステップでは、前記複数の前記音声要素データ間において差が最大となる音声要素を含む前記音声要素データを用いて前記関数を規定する、請求項7に記載の音声物質化表示変換方法。
【請求項9】
前記音声要素データは、前記音声の音圧、周波数、長さ、音色のうち、少なくとも一つを示すデータである、請求項6に記載の音声物質化表示変換方法。
【請求項10】
前記画像は、仮想現実空間、拡張現実空間、若しくは複合現実空間内における、2次元若しくは3次元の画像である、請求項6に記載の音声物質化表示変換方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声を空気の振動である音声情報とは異なる質量を伴う物質の運動に変換して表示する技術に関するものである。
【背景技術】
【0002】
音声を可視化する技術は、これまでに種々考案されているが、特許文献1には、適切な発声発話訓練のために必要な情報を訓練者に提供すべく、発声のタイミング、発声長、音程、及び促音を表す図形を表示する発声発話訓練装置等が開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2003-186379号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、発声発話の訓練者へ、必要な情報として特許文献1に示された図形を呈示しても、声の周波数などの音声特徴情報の概念自体が日常生活で意識されない情報であるため、自己が発した音声の状態を必ずしも直感的にイメージさせることはできないという課題がある。なお、発声時に、音を物質化されたものを飛ばすように例えることは、実際に発声練習でのイメージトレーニングでも直感的にイメージしやすい手法として広く知られているが、あくまで言葉の比喩であり、実際に音声情報を分析して物質の運動に変換して表示する技術は存在していない。
【0005】
本発明は、このような課題を解決するためになされたもので、発声や発話を行うユーザへ、自己が発した音声の状態を、音声要素情報のままで表示するのではなく、音声情報とは異なる物質の運動の情報に変換して表示させることで、直観的に発声や発話の状態がイメージできる音声物質化表示装置及び音声物質化表示変換方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
上記課題を解決するため、本発明は、ユーザが発した音声を可視化する音声物質化表示装置であって、上記音声を特徴づける音声要素データを抽出する音声解析手段と、上記音声解析手段により抽出された音声要素データを物質の運動を特定する物質運動特徴空間内の点へ変換する特徴空間変換手段と、上記特徴空間変換手段により得られた上記物質運動特徴空間内の点が示す物理量に応じて、物質の運動を示す画像を生成する画像生成手段と、上記画像生成手段により生成された画像を表示する表示手段を備えた音声物質化表示装置を提供する。
【0007】
上記課題を解決するため、本発明は、ユーザが発した音声を可視化する音声物質化表示変換方法であって、上記音声を特徴づける音声要素データを抽出する第一のステップと、第一のステップで抽出された音声要素データを物質の運動を特定する物質運動特徴空間内の点へ変換する第二のステップと、第二のステップで得られた物質運動特徴空間内の点が示す物理量に応じて、物質の運動を示す画像を生成する第三のステップと、第三のステップで生成された画像を表示する第四のステップを有する音声物質化表示変換方法を提供する。
【発明の効果】
【0008】
本発明によれば、発声や発話を行うユーザへ、自己が発した音声の状態を直感的にイメージさせることができる音声物質化表示装置及び音声物質化表示変換方法を提供することができる。
【図面の簡単な説明】
【0009】
図1】本発明の実施の形態に係る音声物質化表示装置1の構成を示すブロック図である。
図2】本発明の実施の形態に係る音声物質化表示変換方法を示すフローチャートである。
図3図2に示された音声物質化表示変換方法の具体例を示すフローチャートである。
図4図3のステップS15及びステップS16に示された音声要素-運動特徴空間変換演算を説明するための図である。
図5図3のステップS17に示されたアニメーション表示の例を示す第一の図である。
図6図3のステップS17に示されたアニメーション表示の例を示す第二の図である。
【発明を実施するための形態】
【0010】
以下において、本発明の実施の形態を、図面を参照しつつ詳しく説明する。なお、図中同一符号は同一又は相当部分を示す。
【0011】
図1は、本発明の実施の形態に係る音声物質化表示装置1の構成を示すブロック図である。図1に示されるように、音声物質化表示装置1は、ノードNに接続されたバスBと、それぞれバスBに接続された音声解析部2、特徴空間変換部3、画像生成部4、表示部5、及び記憶部6を備える。
【0012】
ここで、音声解析部2は、ユーザが発した音声を解析して、音圧、周波数、音の長さ、音色(声色)等を示す音声要素データを抽出する。特徴空間変換部3は、音声解析部2により抽出された音声要素データを、物質の運動を特定する物質運動特徴空間内の点へ変換するが、本機能については後に詳しく説明する。画像生成部4は、特徴空間変換部3により得られた物質運動特徴空間内の点が示す物理量に応じて、物質の運動を示す画像を生成する。
【0013】
なお、これらの音声解析部2、特徴空間変換部3、及び画像生成部4は、例えば中央演算処理装置(CPU)により実現される。
【0014】
また、表示部5は、画像生成部4により生成された画像を表示する。記憶部6は、上記CPUで実行するプログラムの他、上記音声要素データや上記物質運動特徴空間内の点等に関する各種データを記憶する。
【0015】
図2は、本発明の実施の形態に係る音声物質化表示変換方法を示すフローチャートである。図2に示されるように、本音声物質化表示変換方法は、ユーザが発した音声を可視化する方法であって、最初のステップS1で、上記音声を特徴づける音圧や周波数、音の長さ、音色(声色)等の音声要素データを抽出する。
【0016】
次に、ステップS2で、ステップS1で抽出された音声要素データを物質の運動を特定する物質運動特徴空間内の点へ変換する。次に、ステップS3で、ステップS2で得られた物質運動特徴空間内の点が示す物理量に応じて、物質の運動を示す画像を生成する。そして、ステップS4では、ステップS3で生成された画像を表示する。
【0017】
図3は、図2に示された音声物質化表示変換方法の具体例を示すフローチャートである。以下において、図3を参照しつつ、図2に示された音声物質化表示変換方法を、図1に示された音声物質化表示装置1を用いて実施する場合について詳しく説明する。
【0018】
なお、具体的には例えば、音声物質化表示装置1は、図3に示されたステップS11からステップS17の手順を示すプログラムを上記CPUにより実行することによって、本図に示された方法を実現することができる。
【0019】
最初にステップS11で、ユーザは、トレーニングしたい声の使い方について、「低状態イメージ」と「高状態イメージ」の音声をマイク等で記録する。なお、記録された当該音声に関するデータは、外部からノードN及びバスBを介して記憶部6に記憶される。次に、ステップS12で、音声解析部2は上記データを解析することにより、音声の音圧、周波数、音の長さ、音色(声色)等の音声要素データを抽出する。
【0020】
次に、ステップS13で、ユーザは、記録した「低状態イメージ」音声に対応する「0%物質運動状態イメージ」と「高状態イメージ」音声に対応する「100%物質運動状態イメージ」を設定する。なお、記録された上記物質運動状態に関するデータは、外部からノードN及びバスBを介して記憶部6に記憶される。
【0021】
次に、ステップS14で、特徴空間変換部3は、記録した異なるイメージの音声の音声要素を時空間分析して、音声要素特徴空間における差が最大となる独立変数を算出、若しくは、寄与率が高い主成分や変数を算出する。
【0022】
次に、ステップS15で、特徴空間変換部3は、音声要素-運動特徴空間変換演算によって、N(Nは自然数)次元の音声要素特徴空間における「低状態イメージの音声特徴点」と「高状態イメージの音声特徴点」を、物質の質量、初期位置、初速度の大きさ及び方向等を変数とする運動特徴空間における「0%物質運動状態イメージ」と「100%物質運動状態イメージ」に変換する。ここで、上記N次元の音声要素は、例えば、ステップS14で算出された上記差が大きい変数、若しくは、寄与率が高い主成分や変数とされるが、上記差が最大となる変数を含むと好適である。音声要素特徴空間における上記「低状態イメージの音声特徴点」と「高状態イメージの音声特徴点」の距離が大きくなるような特徴要素を変数に取ることにより、上記「0%物質運動状態イメージ」と「100%物質運動状態イメージ」の差異を大きくし、ユーザへの発声結果のフィードバックをわかりやすくすることができる。
【0023】
以下では、上記の音声要素-運動特徴空間変換演算について説明する。音声要素特徴空間と物質運動特徴空間の間における本演算は、例えば以下の変換式(1)により実行される。
【0024】
【数1】
【0025】
式(1)において、右辺のXa1,Xa2は音声から抽出された2つの特徴量を示し、Xa1L,Xa2LとXa1H,Xa2Hは、それぞれ低状態と高状態として入力された音声の特徴量、例えば周波数と音圧を示す。また、左辺の物理量Xp1L,Xp2Lは、0%物質運動状態イメージにおける運動特徴空間の特徴量、Xp1H,Xp2Hは100%物質運動状態イメージにおける運動特徴空間の特徴量、例えば質量と初速の角度を示す。
【0026】
ここで、式(1)の右辺における音声に関する特徴量Xa1L,Xa2L,Xa1H,Xa2Hと、それらに対応させる左辺の物理量Xp1L,Xp2L,Xp1H,Xp2Hを設定することによって、λ11~λ22を要素とする変換行列が求められる。特徴空間変換部3は、このようにして算出された変換行列を記憶部6に記憶させる。
【0027】
なお、ユーザにより設定される上記物理量Xp1L,Xp2L,Xp1H,Xp2Hは、上記のように記録した低状態と高状態の音声に対応させる運動イメージとして選択されるものである。例えば、低状態として入力した音声は、物質表示化された音が3メートルくらい前まで放物線を描いて飛ぶイメージであり、高状態として入力した音声は初速度の角度がより上向きで、より高い放物線軌道で20メートルくらい届くといったイメージを設定する。
【0028】
また、本設定は、例えば、センサやQRコード(登録商標)等を付けた物を手で動かしてその動きを計測する、又は画像処理により手先自体の動きを抽出することにより上記放物線軌道を入力し、当該軌道から運動の特徴量を求めるようにしてもよい。また、物質運動の表示において、予め低状態と高状態の動きを再生しながら当該物理量等を変更して動きを設定し、又は、特徴的な運動(アニメーション)パターンの典型例を内部に保持して、音声を対応させるアニメーションを選択するようにしてもよい。
【0029】
また、上記音声要素特徴空間における変数の選択、すなわち、いくつの変数にし、どんな音声の特徴を変数にするかについては、上記のように高状態と低状態で設定すれば、当該2つの状態が特徴空間の中で異なる状態として表現できるような変数を主成分分析や機械学習などを用いて自動的に決定することができるが、ユーザが手動で設定してもよい。
【0030】
次に、ステップS16で、特徴空間変換部3は、新たに記録されたリアルタイムの音声を解析して上記音声要素-運動特徴空間変換演算を施し、音声情報を運動特徴空間上の点に変換して、当該音声を物質イメージ化した場合の質量、初期位置、初速度の大きさ及び方向等を算出する。
【0031】
具体的には、以下の式(2)に示されるように、評価対象とするリアルタイムに入力された音声から得られた音声要素特徴空間の変数Xa1(t),Xa2(t)に対して、記憶部6に記憶された上記変換行列を乗じることによって、上記低状態と高状態から得られる変換法則を使って、新しく入力された音声が同じ法則でどのような運動になるかを示す物理量Xp1(t),Xp2(t)を求めることができる。
【0032】
【数2】
【0033】
図4は、図3のステップS15及びステップS16に示された音声要素-運動特徴空間変換演算を説明するための図である。なお、上記式(1)及び式(2)では、物質運動の特徴空間が2次元の場合を例示したが、図4では3次元である場合を示す。
【0034】
なお、図4の具体例において、音声要素特徴空間を構成する三軸は、それぞれ周波数f、音圧dB、音色Q、運動特徴空間を構成する三軸は、それぞれ初速度の大きさV、初速度の方向θ、質量Mを示す。
【0035】
図4に示されるように、上記音声要素-運動特徴空間変換演算により、音声要素特徴空間における上記低状態の特徴点A-L、上記高状態の特徴点A-Hは、それぞれ上記運動特徴空間における特徴点P-L,P-Hに変換される。また同様に、時刻t0における音声を示す特徴点A[t0]、時刻t1における音声を示す特徴点A[t1]は、それぞれ上記運動特徴空間における特徴点P[t0],P[t1]に変換される。
【0036】
なお、上記の音声要素特徴空間と運動特徴空間は共に三軸で構成されるが、各軸が一対一で対応する変換とは限らない。例えば、音声要素特徴空間をなす1つ目と2つ目の軸の値から運動特徴空間のある軸の値が決まり、音声要素特徴空間をなす2つ目と3つ目の軸から運動特徴空間の別の軸の値が決まるという変換も考えられる。
【0037】
次に、ステップS17で、画像生成部4は、図5に示されるように、仮想現実(VR)描画技術と物理演算技術を用いて、分析された音声を一定時間や音声の分節単位などの時間単位ごとに、物質の運動に変換して運動軌跡を算出し、ヘッドマウントディスプレイやスマートグラス等に表示されるVR空間、若しくは現実に重畳する拡張現実(AR)/複合現実(MR)空間内において、3次元の物体や2次元の画像や文字などに質量や速度を設定した物理運動シミュレーションとして音声を物質化して動的に表示する。
【0038】
ここで、図5はボイストレーニングを行うユーザが声を出している状態を示している。一般的に、当該ユーザの口から発せられる音声は、実際には目に見えない音波情報といえるが、本情報をマイクから入力して上記のように音声特徴を抽出し、さらに、それを上記のように物質運動の特徴空間に変換することにより、図5においては、仮想空間内の三次元(3D)モデルをなす星形のオブジェクトが、当該仮想空間内で物理法則によって上記ユーザの口から飛び出すアニメーションが例示されている。
【0039】
より具体的には、図5に示されるように、上記ユーザが上記低状態で低い声を発した場合には、星形のオブジェクトGLが初速度VLで当該ユーザの口から発出され、上記高状態で高い声を発した場合には、質量Mがより小さく初速度VHがより大きな星形のオブジェクトGHが当該ユーザの口から発出される。このように、ユーザが高い声を発するほど、上記オブジェクトをより速く遠くまで飛翔するようアニメーション表示させることができる。
【0040】
ここで例えば、初期速度の方向は同じで速度の絶対値を、複数の音声特徴の組み合わせから求まる変数の値と対応させることにより、上記ユーザが澄んだ高いキーの声を出した場合には、ガラガラしたノイズの多い低い声よりも上記星のオブジェクトがより遠くに飛ぶようなアニメーションを作成することができる。
【0041】
すなわち、声の高さという1つの変数だけを考えた場合は、ユーザはイメージ化しなくても理解できる場合があるが、実際には声の高さが変わると、音程の安定性や声量も変化してしまうことがあり、音の高さと音程の安定性や声量を合わせて呈示したいが、それらがどのような関係にあるかは、それぞれの音声情報を音声情報のままで可視化しても違いを把握することは難しい。
【0042】
従って、上記のように音声の要素が物質運動に変換され、声が高いほど質量が軽く、音程が安定するほど初速度が速く、声量が多いほど表示される物質モデルのサイズが大きくなるというような、音声とは全く異なる物質運動空間に変換して呈示することで、多次元の情報を直観的にユーザへ理解させることができ、ユーザによるボイストレーニングの効果を向上させることができる。
【0043】
また、上記のようなアニメーション表示によれば、単に高い声ということだけではなく、声の出し方も関係して上記速度の絶対値が決定されるので、無理して高い声を出してガラガラしてしまうとオブジェクトは遠くに飛ばなくなる。従って、当該ユーザは、声に含まれるノイズの程度や声の高さを理解できなくても、直観的に声の出し方の良し悪しや、思いがけず出した声でオブジェクトが遠くに飛んだ場合には、そのときの喉の使い方が望ましいことを学習することができる。
【0044】
また、上記アニメーション表示は、図6に示されるように、ヘッドマウントディスプレイ(HMD)を装着してVR空間に没入しているユーザに対して、自己の体Yをアバターとして表示させると共に、上記オブジェクトGL,GHを表示させるようにしてもよい。また、画像生成部4が上記のようにAR空間やMR空間を描画する場合には、ユーザの周囲や自己の体は現実のものを表示すると共に、上記オブジェクトGL,GHが現実における自己の口から発出されて現実空間を飛んでいくようなアニメーション表示とすることもできる。
【0045】
なお、上記において、ユーザから発せられた音声は、当該ユーザの口や頭部などの身体から物質が発出される画像に変換されるため、当該物質が上記身体の近傍に最初に表示される時に、当該ユーザへ振動等の触覚情報を呈示してもよい。また、当該ユーザへ、上記物質の運動に合わせて効果音などの聴覚情報を呈示してもよい。このようなマルチモーダル(多感覚)情報の相互効果によって、当該ユーザへ与える直観的で現実に音声が物質化しているような体験をより強化することができる。
【0046】
また、一般的に、聞き取りやすい発声は、声量だけではなく、声の周波数や声色など、声に含まれる様々な成分の組み合わせで判断される。そこで、初めに、ユーザは設定モードにおいて、マイクに向かって2つの音声を録音し、専門家がそれを聞いて、どの程度聞き取りやすいか、それぞれに評価を入力するようにしてもよい。
【0047】
このとき、複数の状態における評価値の差と、音声特徴解析による特徴量の差を分析した上で、聞き取りやすさの評価と物質運動特徴のイメージの相関関係、例えば、聞き取りやすい音声ほど初期位置が頭の上方で、初期角度が上向きであるように設定することができる。
【0048】
このような設定により、練習モードにおいてユーザが発したリアルタイムの音声から、上記のように運動特徴空間での特徴量がリアルタイムに算出される。これにより、一般的に、聞き取りやすい声の特徴は非常に複雑な多数の要因が関係しているが、最終的に聞きやすい音声であるほど、頭の上方から上に物体が発射されるようなアニメーション表示を実現することができる。
【0049】
以上のような本発明の実施の形態に係る音声物質化表示装置1及び音声物質化表示変換方法によれば、ユーザが発した音声の状態を音声要素情報のままで表示するのではなく、音声情報とは異なる物質の運動の情報に変換して表示させることで、直観的に発声や発話の状態をイメージできる音声物質化表示装置及び音声物質化表示変換方法を提供することができる。
【0050】
また、ユーザにより入力された、上記低状態及び高状態といった基準となる音声を用いて上記音声要素-運動特徴空間変換を演算することにより、ユーザ毎に自己のボイストレーニングに最適なカスタマイズが可能な音声物質化表示装置1を提供することができる。
【符号の説明】
【0051】
1 音声物質化表示装置、2 音声解析部、3 特徴空間変換部、4 画像生成部、5 表示部。
図1
図2
図3
図4
図5
図6