IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 菱洋エレクトロ株式会社の特許一覧

<>
  • 特開-音情報処理装置及び音情報処理方法 図1
  • 特開-音情報処理装置及び音情報処理方法 図2
  • 特開-音情報処理装置及び音情報処理方法 図3
  • 特開-音情報処理装置及び音情報処理方法 図4
  • 特開-音情報処理装置及び音情報処理方法 図5
  • 特開-音情報処理装置及び音情報処理方法 図6
  • 特開-音情報処理装置及び音情報処理方法 図7
  • 特開-音情報処理装置及び音情報処理方法 図8
  • 特開-音情報処理装置及び音情報処理方法 図9
  • 特開-音情報処理装置及び音情報処理方法 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022141113
(43)【公開日】2022-09-29
(54)【発明の名称】音情報処理装置及び音情報処理方法
(51)【国際特許分類】
   H04R 3/00 20060101AFI20220921BHJP
   G10L 15/00 20130101ALI20220921BHJP
   G10K 15/04 20060101ALI20220921BHJP
【FI】
H04R3/00 310
G10L15/00 200Z
H04R3/00 320
G10K15/04 302F
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2021041266
(22)【出願日】2021-03-15
(71)【出願人】
【識別番号】391021684
【氏名又は名称】菱洋エレクトロ株式会社
(74)【代理人】
【識別番号】100120868
【弁理士】
【氏名又は名称】安彦 元
(72)【発明者】
【氏名】菊田 敦
(72)【発明者】
【氏名】越田 高広
【テーマコード(参考)】
5D208
5D220
【Fターム(参考)】
5D208DE01
5D220AA02
5D220BA06
5D220BB03
5D220BC05
5D220BC08
5D220CC00
(57)【要約】
【課題】環境音の影響を高精度に制御することができる、音情報処理装置及び音情報処理方法を提供する。
【解決手段】音情報を処理する音情報処理装置であって、環境音を含む音源に基づく音情報を取得する音情報取得部と、音情報の特徴に対応する音素を、音素認識により環境音認識対象情報として音情報から抽出する対象情報抽出部と、予め複数の環境音の特徴ごとに取得された、環境音の影響を制御するために用いられる環境音緩和情報と、1又は複数の音素とが紐づいた状態で複数記憶された環境音緩和情報データベースと、複数の環境音緩和情報のうち、環境音認識対象情報の特徴に対応する第1の環境音緩和情報を選択する環境音緩和情報選択部と、第1の環境音緩和情報を出力する出力部と、を備える、音情報処理装置を提供する。
【選択図】図1
【特許請求の範囲】
【請求項1】
音情報を処理する音情報処理装置であって、
環境音を含む音源に基づく前記音情報を取得する音情報取得部と、
前記音情報の特徴に対応する音素を、音素認識により環境音認識対象情報として前記音情報から抽出する対象情報抽出部と、
予め複数の前記環境音の特徴ごとに取得された、前記環境音の影響を制御するために用いられる環境音緩和情報と、1又は複数の前記音素とが紐づいた状態で複数記憶された環境音緩和情報データベースと、
複数の前記環境音緩和情報のうち、前記環境音認識対象情報の特徴に対応する第1の環境音緩和情報を選択する環境音緩和情報選択部と、
前記第1の環境音緩和情報を出力する出力部と、
を備える、音情報処理装置。
【請求項2】
前記対象情報抽出部は、前記音素に含まれる環境音音素を、環境音ひな型データベースを用いた前記音素認識により、前記環境音認識対象情報として前記音情報から抽出し、
前記環境音ひな型データベースには、予め取得された前記環境音の特徴と前記特徴を示す前記環境音音素とが紐づいた状態で複数記憶される、
請求項1に記載の音情報処理装置。
【請求項3】
前記環境音緩和情報データベースには、1又は複数の前記環境音音素と前記環境音緩和情報とが紐づいた状態で複数記憶される、
請求項2に記載の音情報処理装置。
【請求項4】
前記音素は音声音素をさらに含み、
前記音情報取得部は、前記出力部によって出力された前記第1の環境音緩和情報により前記環境音の影響が制御された補正音情報、の少なくとも1つを取得し、
前記対象情報抽出部は、前記補正音情報の特徴に対応する前記音声音素を、音声ひな型データベースを用いた前記音素認識により、音声評価情報として前記補正音情報から抽出し、
前記環境音緩和情報選択部は、前記音声評価情報に基づき音声認識処理を用いて音声評価結果を生成し、
前記出力部は、前記音声評価結果を出力し、
前記音声ひな型データベースには、予め取得された音声の特徴と前記音声音素とが紐づいた状態で複数記憶される、
請求項2に記載の音情報処理装置。
【請求項5】
前記環境音緩和情報データベースは、
予め取得された前記環境音音素と、前記環境音音素に付与された分類とが紐づいた状態で記憶される分類データベースと、
予め取得された前記分類の配列順序と、前記分類の前記配列順序を示す文法情報とが紐づいた状態で記憶される文法データベースと、
を含み、
前記環境音緩和情報選択部は、
前記分類データベースを参照し、前記環境音認識対象情報に対応する前記環境音音素を選択し、選択された前記環境音音素に紐づく前記分類を、複数検出する分類検出部と、
前記文法データベースを参照し、複数の、前記環境音音素である候補情報を前記文法情報に基づき組み合わせた環境音音素群を生成し、前記環境音音素群に含まれる前記候補情報ごとの前記環境音音素に対する信頼度を、算出する信頼性算出部と、
前記信頼度に基づき、評価情報テーブルを参照して、複数の前記環境音音素群から優先度に基づいて複数の前記環境音音素群の1つに対応する前記環境音緩和情報を評価情報として選択し、前記第1の環境音緩和情報とする評価情報選択部と、
を有し、
前記評価情報テーブルは、前記環境音音素群と前記優先度とが紐づいた状態で複数記憶される、
請求項2に記載の音情報処理装置。
【請求項6】
さらにラベル情報生成部と、ラベル情報出力部とを備え、
前記ラベル情報生成部は、前記第1の環境音緩和情報からラベル情報を生成し、
前記ラベル情報出力部は、前記ラベル情報を出力する、
請求項2に記載の音情報処理装置。
【請求項7】
音素に基づいて音情報を処理する音情報処理装置による音情報処理方法であって、
環境音を含む音源に基づく前記音情報を取得する第1のステップと、
前記音情報の特徴に対応する音素を、音素認識により環境音認識対象情報として前記音情報から抽出する第2のステップと、
複数の、前記環境音の影響を制御するために用いられる環境音緩和情報のうち、前記環境音認識対象情報の特徴に対応する第1の環境音緩和情報を、予め複数の前記環境音の特徴ごとに取得された、前記環境音緩和情報と、1又は複数の前記音素とが紐づいた状態で複数記憶された環境音緩和情報データベースを用いて、選択する第3のステップと、
前記第1の環境音緩和情報を出力する第4のステップと、
を備える、音情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音情報処理装置及び音情報処理方法に関する。
【背景技術】
【0002】
例えば特許文献1には、環境音を再現できる環境音合成システムが開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2018-186386号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
例えば工場や工事現場などのような、複数種類の音が組み合わされた環境音が発生するような場所において、環境音を原因とした作業効率の低下が懸念として挙げられる。特に環境音や音声のような音情報を処理する音情報処理装置などを使用する場合、処理対象となる音情報の中に含まれる不要な環境音が処理精度に影響を及ぼす懸念があるため、環境音の影響を高精度に制御することが望まれている。
【0005】
ここで特許文献1に記載された環境音を再現する手法では対象とする環境音の音量を表す情報を抽出し、抽出された音量に基づき合成音を生成する。このため特許文献1に開示された技術では、環境音の特徴を十分に捉えることができず、環境音の影響を高精度に制御することが難しい。
【0006】
本発明の実施の形態の一態様は、環境音の影響を高精度に制御することができる、音情報処理装置及び音情報処理方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
音情報を処理する音情報処理装置であって、環境音を含む音源に基づく音情報を取得する音情報取得部と、音情報の特徴に対応する音素を、音素認識により環境音認識対象情報として音情報から抽出する対象情報抽出部と、予め複数の環境音の特徴ごとに取得された、環境音の影響を制御するために用いられる環境音緩和情報と、1又は複数の音素とが紐づいた状態で複数記憶された環境音緩和情報データベースと、複数の環境音緩和情報のうち、環境音認識対象情報の特徴に対応する第1の環境音緩和情報を選択する環境音緩和情報選択部と、第1の環境音緩和情報を出力する出力部と、を備える、音情報処理装置を提供する。
【0008】
音素に基づいて音情報を処理する音情報処理装置による音情報処理方法であって、環境音を含む音源に基づく音情報を取得する第1のステップと、音情報の特徴に対応する音素を、音素認識により環境音認識対象情報として音情報から抽出する第2のステップと、複数の環境音緩和情報のうち、環境音認識対象情報の特徴に対応する第1の環境音緩和情報を、予め複数の環境音の特徴ごとに取得された、環境音の影響を制御するために用いられる環境音緩和情報と、1又は複数の音素とが紐づいた状態で複数記憶された環境音緩和情報データベースを用いて、選択する第3のステップと、第1の環境音緩和情報を出力する第4のステップと、を備える、音情報処理方法を提供する。
【発明の効果】
【0009】
本発明の実施の形態の一態様によれば、環境音音素を用いて環境音を緩和する音情報処理装置を実現できる。
【図面の簡単な説明】
【0010】
図1図1は、第1の実施の形態による音情報処理装置の構成を示すブロック図である。
図2図2は、第1の実施の形態による音情報処理の処理手順を示すフローチャートである。
図3図3は、第2の実施の形態による音情報処理装置の構成を示すブロック図である。
図4図4は、第2の実施の形態による環境音ひな型データベースを示す図である。
図5図5は、第2の実施の形態による環境音緩和情報データベースを示す図である。
図6図6は、第3の実施の形態による音情報処理装置の構成を示すブロック図である。
図7図7は、第3の実施の形態において補助記憶装置に記憶される情報を示す図である。
図8図8は、第4の実施の形態による音情報処理装置の構成を示すブロック図である。
図9図9は、第4の実施の形態による音情報処理機能の説明に供するシーケンス図である。
図10図10は、第5の実施の形態による環境音緩和情報データベースが備える参照データベースを示す。
【発明を実施するための形態】
【0011】
以下図面を用いて、本発明の実施の形態の一態様を詳述する。
【0012】
(第1の実施の形態)
図1を用いて本実施の形態による音情報処理装置1の一例について説明する。図1は、本実施の形態による音情報処理装置1の構成を示すブロック図である。音情報処理装置1は、音情報を処理し、中央演算装置2、主記憶装置3及び補助記憶装置4を備える。
【0013】
中央演算装置2は、例えばCPU(Central Processing Unit)であって、主記憶装置3に記憶されたプログラムを呼び出すことで処理を実行する。主記憶装置3は、例えばRAM(Random Access Memory)であって、後述の音情報取得部7、対象情報抽出部8、環境音緩和情報選択部9及び出力部10といったプログラムを記憶する。
【0014】
プログラムには、例えばJuliusのような公知の音声認識ライブラリが用いられてもよい。またプログラムはPythonのような公知の汎用プログラミング言語によって記述されてもよい。補助記憶装置4は、例えばSSD(Solid State Drive)やHDD(Hard Disk Drive)であって、後述の環境音緩和情報データベースDB1を記憶する。
【0015】
音情報取得部7は、環境音を含む音源に基づく音情報を例えばマイクなどの収音装置5から取得する。環境音とは例えば、工場などにおいて、所定の時刻ごとに放送されるチャイムの音や、金属を定期的にたたく音や、機器が動作する際の動作音などを示すほか、これらの音が混ざったような音とする。
【0016】
音情報とは、アナログ情報である音源をデジタル情報に変換した情報であって、例えば波形で示すことができる。例えば収音装置5は、アナログデジタル変換器、反響抑制器、自動利得制御器及び雑音抑圧器を備えるものとする。後述の発音装置6もアナログデジタル変換器を備えるものとする。
【0017】
音情報に関して反響抑制器は音響エコーを抑制し、自動利得制御器は入力レベルに応じてゲインを自動補正しレベル差のある信号の出力レベルを一定に保ち、雑音抑圧器は信号に含まれる不要な要素を軽減するものとする。また収音装置5は、例えば、複数のマイクから構成される高い指向性を持つマイクロホンアレイとし、指向性制御機能を備えるものとする。
【0018】
対象情報抽出部8は、音情報の特徴に対応する音素を、音素認識により環境音認識対象情報として音情報から抽出する。音情報の特徴は例えば所定の期間における振幅の度合いから特定することができる。
【0019】
音素は、公知の音声認識技術を用いることで、音情報の特徴から抽出することができ、音情報の内容に応じて複数抽出される。本実施の形態における環境音認識対象情報は、音素又は音素を複数組み合わせた配列を示し、例えば金属を定期的にたたく音(以下、これを金属音と呼んでもよい)を表す「kakinkakinkakin」といったような擬音語とする。
【0020】
環境音緩和情報データベースDB1には、例えば、予め複数の環境音の特徴ごとに取得された、環境音の影響を制御するために用いられる環境音緩和情報と、環境音認識対象情報(すなわち1又は複数の音素)とが紐づいた状態で複数記憶される。
【0021】
例えば、金属音を表す「kakinkakinkakin」といった環境音認識対象情報には、金属音のような、環境音に含まれる所定の音を緩和するような環境音緩和情報が紐づけられる。なお緩和するようなとは、例えば制御の対象とする情報である環境音認識対象情報に対して任意の位相差や時間差を与えることを指すものとし、例えば位相を反転させることを指す。
【0022】
また例えば、時刻を知らせるような鐘の音を表す「gooongooon」といった環境音認識対象情報には、鐘の音のような、環境音に含まれる所定の音を緩和するような環境音緩和情報が紐づけられる。
【0023】
また環境音認識対象情報には、「kagonkagonkagon」といったような金属音と、鐘の音とが混ざったような音の特徴が表されてもよく、金属音と鐘の音とのような、環境音に含まれる複数の所定の音を緩和するような環境音緩和情報が紐づけられる。
【0024】
環境音緩和情報は、環境音に対して位相が異なる情報であって、ホワイトノイズのような情報であってもよい。環境音緩和情報は、例えば公知のノイズキャンセリング技術を用いて生成された情報が用いられてもよい。
【0025】
環境音緩和情報データベースDB1には、例えば環境音認識対象情報と環境音緩和情報との関係を示すリレーショナルデータベースが記憶される。また環境音緩和情報データベースDB1には、例えば環境音認識対象情報と環境音緩和情報とを一対の学習データとして、複数の学習データを用いた機械学習により生成された学習済みモデルが記憶されてもよい。
【0026】
学習済みモデルは、例えばCNN(Convolutional Neural Network)などのニューラルネットワークモデルを示すほか、SVM(Support vector machine)などを示す。また機械学習として例えば深層学習を用いることができる。
【0027】
環境音緩和情報と、音素との紐づいた状態は、例えば百分率などの関係の度合いにより表されるほか、任意の関数で表されてもよい。環境音緩和情報データベースDB1は、複数のデータベースを含んでもよく、環境音緩和情報データベースDB1に記憶された環境音緩和情報と音素との紐づいた状態は、複数のデータベースを介して表されてもよい。
【0028】
換言すると、環境音緩和情報と音素との紐づいた状態は、例えば環境音緩和情報と他の情報との間の関係を示す関数、及び、他の情報と音素との間の関係を示す関数により表されてもよい。
【0029】
環境音緩和情報選択部9は、複数の環境音緩和情報のうち、対象情報抽出部8によって抽出された環境音認識対象情報の特徴に対応する第1の環境音緩和情報を選択する。例えば環境音緩和情報選択部9は、例えば音素ごとに予め設定された値である信頼度によって重みづけをすることにより、第1の環境音緩和情報を選択する。
【0030】
出力部10は、例えばスピーカなどの発音装置6に第1の環境音緩和情報を出力する。発音装置6は、第1の環境音緩和情報を、音として空間に放出してもよいし、収音装置5に情報として直接入力をしてもよい。なお例えば出力部10は、第1の環境音緩和情報を収音装置5に直接出力してもよい。
【0031】
発音装置6を経由するか経由しないかにかかわらず、第1の環境音緩和情報が直接入力された場合、収音装置5は、第1の環境音緩和情報を用い、反響抑制器、自動利得制御器及び雑音抑圧器によって、収音した音源に対して補正を行ったうえで例えば後述の補正音情報のような音情報を生成する。
【0032】
上述のように、第1の環境音緩和情報が直接入力された場合、収音装置5は、新たな音情報を生成する際に、第1の環境音緩和情報を組み合わせることができる。これにより、新たな音情報に含まれる環境音の影響を容易に制御することが可能となる。
【0033】
なお収音装置5及び発音装置6と音情報処理装置1との間に図示せぬ音情報入出力制御装置を備えてもよいものとする。音情報入出力制御装置は、収音装置5及び発音装置6の代わりにアナログデジタル変換器、反響抑制器、自動利得制御器及び雑音抑圧器や指向性制御機能を備えてもよいものとする。また収音装置5と発音装置6とが1つの装置であってもよいものとする。
【0034】
図2を用いて音情報処理方法の一例について説明する。図2は、本実施の形態による音情報処理の処理手順を示すフローチャートである。まず音情報取得部7は、環境音を含む音源に基づく音情報を、例えばマイクなどの収音装置5から取得する(S1)。
【0035】
次に対象情報抽出部8は、音情報の特徴に対応する音素を、音素認識により環境音認識対象情報として音情報から抽出する(S2)。次に環境音緩和情報選択部9は、複数の環境音緩和情報のうち、対象情報抽出部8が抽出した環境音認識対象情報の特徴に対応する第1の環境音緩和情報を選択する(S3)。次に出力部10は、第1の環境音緩和情報を出力する(S4)。
【0036】
以上のように対象情報抽出部8は、1又は複数の音素を環境音認識対象情報として音情報から抽出し、環境音緩和情報選択部9は、環境音の影響を制御するために用いられる複数の環境音緩和情報のうち、抽出された環境音認識対象情報の特徴に対応する第1の環境音緩和情報を選択することができる。
【0037】
このように本実施の形態による音情報処理装置1は、例えば複数種類の音が組み合わされた環境音の影響を抑制するための環境音緩和情報を、想定される環境音ごとに予め準備する。
【0038】
このため、音情報処理装置1の取得する音情報に影響を与えている環境音に適した第1の環境音緩和情報を選択し、出力することができる。これにより、本実施の形態による音情報処理装置1は、環境音の影響を高精度に制御することが可能となる。
【0039】
(第2の実施の形態)
図3を用いて本実施の形態による音情報処理装置1の一例について説明する。図3は、本実施の形態による音情報処理装置1の構成を示すブロック図である。本実施の形態による音情報処理装置1は、環境音ひな型データベースDB2及び音声ひな型データベースDB3の少なくとも1つを備える点で、第1の実施の形態による音情報処理装置1と異なる。
【0040】
まず音情報処理装置1が環境音ひな型データベースDB2を備える場合について述べる。この場合対象情報抽出部8は、音素に含まれる環境音音素を、環境音ひな型データベースDB2を用いた音素認識により環境音認識対象情報として音情報から抽出する。
【0041】
環境音ひな型データベースDB2には、例えば図4に示すように予め取得された環境音の特徴と特徴を示す環境音音素とが紐づいた状態で複数記憶される。図4は、本実施の形態による環境音ひな型データベースDB2を示す図である。例えば環境音ひな型データベースDB2はリレーショナルデータベースとする。
【0042】
環境音音素は、環境音のみに基づく音情報の特徴に特化した音素を示す。環境音音素は、例えば音声に紐づく母音である「/a」や子音である「/k」などの音声音素とは異なる符号を用いて表される。
【0043】
環境音音素は、例えば「#」や「@」や「&」といった符号とする。また環境音の特徴は、「#.wav」や「@.wav」や「&.wav」に示す通り、例えば所定の期間における振幅の度合いから特定することができる。
【0044】
例えば音声音素を用いると、「kakinkakinkakin」と音声音素で表される金属音と「gooongooon」と音声音素で表される鐘の音とが混ざったような音は「kagonkagonkagon」と表される。
【0045】
これに対して、環境音音素を用いると、金属音と鐘の音とが混ざったような音は「#@」などと表される。例えば環境音音素の「#」は音声音素の「kakinkakinkakin」に対応し、環境音音素の「@」は音声音素の「gooongooon」に対応するように、環境音音素は音声音素とは異なる条件に基づき音情報の特徴と紐づくことができる。
【0046】
なお別の例として、金属音を示す音声音素の「kakinkakinkakin」は、環境音音素として「^$!」のように示してもよい。環境音音素の「^」は、音声音素の「kaki」に対応し、環境音音素の「$」は、音声音素の「nkakinkaki」に対応し、環境音音素の「!」は、音声音素の「n」に対応するよう、に環境音音素は音声音素とは異なる条件に基づき音情報の特徴と紐づくことができる。
【0047】
以上のように環境音音素は、音情報の特徴をまとめたり、音情報の特徴を区切ったりすることができるため、音声と紐づかない音情報の処理に対して適切に対応することができる。
【0048】
環境音ひな型データベースDB2は、例えば複数の学習データを用いた機械学習により生成される。学習データは、音情報で示される説明変数と、環境音音素で示される目的変数とを含む。説明変数として例えば環境音のみが存在する環境において収集された音情報が用いられ、目的変数として例えば環境音の特徴に対して予め設定された環境音音素が用いられる。
【0049】
環境音緩和情報データベースDB1には、例えば図5に示すように本実施の形態における環境音認識対象情報である1又は複数の環境音音素と環境音緩和情報との紐づけを示す情報が複数記憶される。図5は、本実施の形態による環境音緩和情報データベースDB1を示す図である。
【0050】
環境音認識対象情報は、例えば「-###」や「-@」や「―#@&」とする。ここで「―」は、例えば波形を反転させることを意味し、対象情報抽出部8が環境音認識対象情報を抽出する際に付加されるものとする。
【0051】
以上のように本実施の形態において対象情報抽出部8は、環境音ひな型データベースDB2を用いた音素認識により、環境音音素を環境音認識対象情報として音情報から抽出する。
【0052】
このため環境音緩和情報選択部9が、環境音緩和情報を選択する際、環境音に特化した環境音音素が用いられるため、本実施の形態による音情報処理装置1は、選択精度を向上させることができる。これにより本実施の形態による音情報処理装置1は、環境音の影響をさらに高精度に制御することが可能となる。
【0053】
また本実施の形態において環境音緩和情報選択部9は、環境音音素に対応する環境音の特徴を例えば組み合わせにより詳細に生成された環境音緩和情報から、第1の環境音緩和情報を選択してもよい。このため第1の環境音緩和情報がより環境音に対応することが期待される。これにより本実施の形態による音情報処理装置1は、出力する環境音緩和情報の精度が向上される。
【0054】
次に音情報処理装置1が環境音ひな型データベースDB2及び音声ひな型データベースDB3を備える場合に、環境音緩和情報を収音装置5が取得した状態で、音情報処理を行う場合について説明する。
【0055】
この場合音声音素には音素が含まれ、音情報取得部7が取得する例えば後述する補正音情報のような新たな音情報にはさらに音声が含まれるものとする。音情報取得部7は、出力部10によって出力された第1の環境音緩和情報により環境音の影響が制御された補正音情報を取得する。また対象情報抽出部8は、補正音情報の特徴に対応する音声音素を、音声ひな型データベースDB3を用いた音素認識により音声評価情報として補正音情報から抽出する。
【0056】
音声ひな型データベースDB3には、予め取得された音声の特徴と音声音素とが紐づいた状態で複数記憶される。例えば音声ひな型データベースDB3はリレーショナルデータベースとする。
【0057】
また例えば音声ひな型データベースDB3は、例えば複数の学習データを用いた機械学習により生成される。学習データは、音情報で示される説明変数と、音声音素で示される目的変数とを含む。説明変数として例えば音声のみが存在する環境において収集された音情報が用いられ、目的変数として例えば音声の特徴に対して予め設定された音声音素が用いられる。
【0058】
環境音緩和情報選択部9は、音声評価情報に基づき音声認識処理を用いて音声評価結果を生成する。なお音声認識処理は、公知の音声認識技術を用いて行うことができるものとする。出力部10は、音声評価結果を出力する。
【0059】
以上のように本実施の形態において音情報取得部7は、出力部10によって出力された第1の環境音緩和情報により環境音の影響が制御された補正音情報を取得する。このため補正音情報は音情報処理装置1にとって音声の特徴をとらえやすくなる。また音声の特徴をとらえやすくするうえでの音圧レベルによる影響を緩和することができる。これにより本実施の形態による音情報処理装置1は、音声認識の精度を上げることができる。
【0060】
(第3の実施の形態)
図6を用いて本実施の形態による音情報処理装置1の一例について説明する。図6は、本実施の形態による音情報処理装置1の構成を示すブロック図である。本実施の形態による音情報処理装置1は、環境音緩和情報データベースDB1が分類データベースDB4及び文法データベースDB5を備える点及び評価情報テーブルTB1を備える点で、第2の実施の形態による音情報処理装置1と異なる。
【0061】
なお本実施の形態による音情報処理装置1において、分類データベースDB4及び文法データベースDB5の情報を使用する環境音緩和情報選択部9は、分類検出部11、信頼性算出部12及び評価情報選択部13を備える。
【0062】
例えば本実施の形態において対象情報抽出部8は、音情報に含まれる抽出対象区間を音素認識により抽出し、抽出対象区間内の音素及び休止区間の配列を、音素認識により環境音認識対象情報として音情報から抽出する。なお第1の実施の形態においても対象情報抽出部8は、休止区間を抽出してもよい。
【0063】
休止区間は、環境音の環境ごとの特徴を踏まえたうえでそれぞれの環境ごとに設定される所定の時間とする。また抽出対象区間は例えば所定の鐘の音などの環境音音素や休止区間が抽出されてから次に所定の環境音音素や休止区間が抽出されるまでとする。なお抽出対象区間は開始無音区間「silB」と終了無音区間「silE」との間の区間であってもよい。
【0064】
次に図7を用いて本実施の形態による補助記憶装置4が記憶する情報の一例について説明する。図7は、本実施の形態において補助記憶装置4に記憶される情報を示す図である。図7に示すように分類データベースDB4には、予め取得された環境音音素と、環境音音素に付与された分類とが紐づいた状態で記憶される。分類は例えば「C1」、「C2」、「C3」、「C4」、「C5」と表される。
【0065】
文法データベースDB5には、予め取得された分類の配列順序と、分類の配列順序を示す文法情報とが紐づいた状態で記憶される。文法情報は例えば「G1」、「G2」、「G3」のように表され、配列情報は例えば「C1,C2,C3」、「C4,C5,C3」、「C4,C2,C3」のように表される。
【0066】
評価情報テーブルTB1には、複数の候補情報が文法情報に基づき組み合わされた環境音音素群と、優先度とが紐づいた状態で複数記憶される。ここで候補情報とは環境音音素を指す。なお評価情報テーブルTB1には、環境音音素群に含まれる候補情報ごとの環境音音素に対する信頼度と、それぞれの候補情報とが紐づいた状態で記憶される。
【0067】
優先度は、例えば「RANK1」、「RANK2」、「RANK3」、「RANK4」、「RANK5」のように表され、数字が小さいほど優先度が高いものとする。候補情報は、環境音音素である「#」や「@」や「&」や「*」や「$」や「%」や「+」などとする。環境音音素群は、「#@&」や「#@*」や「$%&」などを含むものとする。信頼度は、1以下の数であって「0.982」や「1.000」とする。
【0068】
分類検出部11は、分類データベースDB4を参照し、環境音認識対象情報の有する環境音音素に対応する環境音音素を選択し、選択された環境音音素に紐づく分類を、検出する。
【0069】
信頼性算出部12は、文法データベースDB5を参照し、複数の候補情報を文法情報に基づき組み合わせた環境音音素群を生成し、環境音音素群に含まれる候補情報ごとの環境音音素に対する信頼度を、例えば文法データベースDB5を用いて算出する。信頼度の算出には例えば文法データベースDB5を参照したスタックデコーディングサーチが行われる。
【0070】
例えば信頼度として、それぞれの環境音音素に対して予め設定された値が用いられてもよい。予め設定された値は、例えば、文法データベースDB5に記憶される。また例えば信頼度として分類検出部11において検出された分類の種類及び数に応じた相対値が用いられてもよい。例えば分類検出部11において検出された複数の分類において、1つの分類が付与された環境音音素の種類が多くなるにつれて、それぞれの環境音音素に対して低い信頼度を算出するようにしてもよい。
【0071】
評価情報選択部13は、信頼度に基づき、評価情報テーブルTB1を参照して、複数の環境音音素群から例えば優先度に基づいて複数の環境音音素群のうちの1つに対応する環境音緩和情報を評価情報として選択し、第1の環境音緩和情報とする。本実施の形態における音情報処理装置1は、信頼度のような重みを用いることで、重みを用いない場合と比較して状況に応じた環境音緩和情報を出力することが可能となる。
【0072】
例えば環境音緩和情報選択部9は、音情報処理装置1が取得する場所情報や時間情報を、重みを用いる際に参照して、第1の環境音緩和情報を選択する。音情報処理装置1は、例えば場所情報を図示せぬGPS(Global Position System)から取得し、時間情報を図示せぬ時間管理サーバから取得する。
【0073】
(第4の実施の形態)
図8を用いて本実施の形態による音情報処理装置1の一例について説明する。図8は、本実施の形態による音情報処理装置1の構成を示すブロック図である。本実施の形態による音情報処理装置1は、ラベル情報処理部14を備える点で、第3の実施の形態による音情報処理装置1と異なる。ラベル情報処理部14は、ラベル情報生成部15及びラベル情報出力部16を備える。
【0074】
ラベル情報生成部15は、評価情報のような第1の環境音緩和情報に関係する情報や第1の環境音緩和情報から例えば予め用意された環境音音素とラベル情報とが紐づいた状態で記憶される図示せぬラベルデータベースを参照してラベル情報を生成する。
【0075】
またラベル情報出力部16は、ラベル情報を出力する。例えばラベル情報は「金属音と鐘の音と風の音」のような、第1の環境音緩和情報の内容を説明するようなテキスト情報とする。またラベル情報は、例えば音情報処理装置1に接続された図示せぬサーバなどに出力される。
【0076】
次に図9を用いて本実施による音情報処理機能の一例について説明する。図9は、本実施の形態による音情報処理機能の説明に供するシーケンス図である。音情報取得部7は、収音装置5から取得した環境音を含む音源に基づく音情報を対象情報抽出部8へと送信する(S11)。
【0077】
対象情報抽出部8は、音情報に含まれる抽出対象区間を音素認識により抽出し、抽出対象区間内の音素及び休止区間の配列を、音素認識により「-#@&」のような情報を環境音認識対象情報として音情報から抽出する(S12)。
【0078】
分類検出部11は、分類データベースDB4を参照し、環境音認識対象情報の有する環境音音素に対応する環境音音素を選択し、選択された環境音音素に紐づく分類を、検出する(S13)。例えば環境音音素「#」に紐づく分類として分類「C1」が検出され、環境音音素「@」に紐づく分類として分類「C2」が検出され、環境音音素「&」に紐づく分類として分類「C3」が検出される。
【0079】
信頼性算出部12は、文法データベースDB5を参照し、複数の候補情報を文法情報に基づき組み合わせた環境音音素群を生成し、環境音音素群に含まれる候補情報ごとの環境音音素に対する信頼度を、文法データベースDB5を用いて算出する(S14)。
【0080】
例えば候補情報である環境音音素「#」の信頼度は0.982となり、環境音音素「@」の信頼度は、1.000となり、環境音音素「&」の信頼度は、0.990となる。信頼性算出部12は、評価情報テーブルTB1に信頼度を記憶させる(S15)。信頼性算出部12は、評価情報テーブルTB1に信頼度を記憶させる際に、例えば信頼度の合計値が高いものを高い優先度とする。
【0081】
評価情報選択部13は、信頼度に基づき、評価情報テーブルTB1を参照して、複数の環境音音素群から例えば優先度に基づいて複数の環境音音素群の1つに対応する環境音緩和情報を評価情報として選択し、第1の環境音緩和情報とする(S16)。例えば評価情報選択部13は、優先度「RANK1」の環境音音素群に対応する環境音緩和情報を評価情報として選択する。
【0082】
ラベル情報生成部15は、評価情報からラベル情報を生成し、ラベル情報出力部16へと送信する(S17)。ラベル情報は「金属音と鐘の音と風の音」のようなテキスト情報とする。
【0083】
本実施の形態による音情報処理装置1は、ラベル情報を出力することで、例えば環境音緩和情報がどういった情報であるかを音情報処理装置1の利用者に知らせることが可能となる。
【0084】
(第5の実施の形態)
図10を用いて本実施の形態による音情報処理装置1の一例について説明する。図10は、第5の実施の形態による環境音緩和情報データベースDB1が備える参照データベースDB6を示す。本実施の形態による音情報処理装置1は、環境音緩和情報データベースDB1が参照データベースDB6を備える点で、第3の実施の形態による音情報処理装置1と異なる。
【0085】
参照データベースDB6には、複数の候補情報が文法情報に基づき組み合わされた環境音音素群と、参照情報とが紐づいた状態で記憶される。なお参照データベースDB6には、環境音音素群に含まれる候補情報ごとの環境音音素に対する閾値と、それぞれの候補情報とが紐づいた状態で記憶される。
【0086】
参照情報は例えば「SG1」、「SG2」などのように表され、それぞれ優先度「RANK1」、「RANK2」などに対応するものとする。閾値は信頼度と比較する値であって、例えば評価情報選択部13は、評価情報テーブルTB1を参照する際に、参照データベースDB6も参照し、ある優先度の環境音音素群において閾値以下の候補情報が1つ以上ある場合は、次の優先度の環境音音素群を選択するようにする。
【0087】
以上のように、本実施の形態において評価情報選択部13は、評価情報テーブルTB1に加えて参照データベースDB6も参照することで、評価情報を選択し、第1の環境音緩和情報とする。
【0088】
本実施の形態における音情報処理装置1は、閾値のような重みである信頼度と比較する値を用いることで、閾値を用いない場合と比較してさらに状況に応じた環境音緩和情報を出力することが可能となる。例えば状況におじて参照データベースDB6を使い分けることなどが考えられる。
【符号の説明】
【0089】
1……音情報処理装置、2……中央演算装置、3……主記憶装置、4……補助記憶装置、5……収音装置、6……発音装置、7……音情報取得部、8……対象情報抽出部、9……環境音緩和情報選択部、10……出力部。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10