(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0014】
本発明の実施の形態では、音データから、特徴的な区間を例えば音の異常度合い又は音の非日常度合いに基づき抽出して、例えば当該特徴的な区間の音データによる音の要約データを生成する。
【0015】
本発明の一実施の形態に係る情報処理装置100の構成例を
図1に示す。本実施の形態に係る情報処理装置100は、第1データ格納部101と、特徴量算出部102と、第2データ格納部103と、区間抽出部104と、第3データ格納部105と、出力処理部106と、出力データ格納部107とを有する。情報処理装置100は、例えばパーソナルコンピュータであり、図示した構成要素の他に、キーボードやマウスなどの入力部、表示装置などの出力装置、他のコンピュータとインターネットやLAN(Local Area Network)などのネットワークを介して接続するための通信部、周辺機器などに接続するためのインタフェース等をさらに有している。
【0016】
第1データ格納部101は、例えば、マイクなどを用いて収録された音データを格納する。特徴量算出部102は、第1データ格納部101に格納されている音データに対して後に詳細に述べる処理を行って、単位時間(以下、フレームと呼ぶ)毎に特徴量を算出し、第2データ格納部103に格納する。なお、第1データ格納部101は、区間抽出部104で用いられる設定データをも格納しているものとする。設定データは、例えば目標要約率xと、変動許容幅dとを含む。
【0017】
区間抽出部104は、第2データ格納部103に格納されている各フレームの特徴量に基づき、音データにおいて特徴的な時間帯(以下、特徴区間と呼ぶ)を抽出し、当該特徴区間を特定するためのデータを第3データ格納部105に格納する。なお、特徴区間を抽出する際には、第1データ格納部101に格納されている設定データを用いる。
【0018】
出力処理部106は、第1データ格納部101に格納されている音データから、第3データ格納部105に格納されている特徴区間を特定するためのデータを用いて、特徴区間の音データを抽出し、出力データ格納部107に格納する。
【0019】
特徴量算出部102は、例えば
図2に示すような構成を有する。すなわち、特徴量算出部102は、フレーム分割部1021と、第1音量分析部1022と、変化分析部1023と、第1BPF(Band-Pass Filter)1024と、第2音量分析部1025と、第2BPF1026と、第3音量分析部1027と、周期性抽出部1028と、乗算器1029乃至1033と、加算器1034とを含む。
【0020】
フレーム分割部1021は、音データを単位時間(フレーム)毎に分割して、フレームの音データを第1音量分析部1022と、第1BPF1024と、第2BPF1026と、周期性抽出部1028とに出力する。
【0021】
第1音量分析部1022は、フレームの音データにおける音量(例えば平均値など)を算出する。音量は、例えば音圧レベル(dB SPL(Sound Pressure Level))として測定される。0dB SPLは、人間の知覚で感知できる最低の気圧変化である20μPaに相当する。本実施の形態では、音量は単純な音量として算出される場合もあれば、定常的な騒音レベルを求め、その騒音レベルから対象音がどれくらい大きな音であるかを表す騒音相対音量(騒音レベルに対する相対音量)を用いるようにしても良い。このようにすれば、測定場所で意味のある目立った音(異常音又は非日常音)の指標値が得られるようになる。例えば、騒音レベルが70dB SPLの場所で、85dB SPLの音は、騒音相対音量は15dBとなる。
【0022】
変化分析部1023は、フレーム内の音量の変化を分析する処理を行う。具体的には、音の出だしの場面であれば、音量の立ち上がり速度(dB/秒)を算出し、音が止む場面であれば、音量の立ち下がり速度を算出する。このようなスピードが大きいものは、聴覚上のマッハ効果で目立った音と人間に認識されやすい。なお、立ち上がりのみに着目するようにしても良い。
【0023】
第1BPF1024は、フレームの音データから第1の周波数帯域(例えば500Hzから5000Hz(音声のフォルマントが存在する帯域))のみを抽出し、第2音量分析部1025に出力する。人間の耳は周波数帯によって感度が異なっているので、例えば上で述べたような周波数帯に着目するものである。第2音量分析部1025は、第1BPF1024からの出力に対して音量を算出する。処理内容は第1音量分析部1022と同様である。
【0024】
第2BPF1026は、フレームの音データから第2の周波数帯域(例えば2000Hzから4500Hz(特に耳の感度が高い帯域。音声の第2フォルマント及び第3フォルマントが存在する帯域。又はスポーツの審判などが使用している笛の帯域など。))のみを抽出して、第3音量分析部1027に出力する。第3音量分析部1027は、第2BPF1026からの出力に対して音量を算出する。処理内容は第1音量分析部1022と同様である。
【0025】
周期性抽出部1028は、フレーム内において自己相関関数の最大値を算出する。周期性抽出部1028の処理は、例えば従来技術の欄で述べた方法により行われる。
【0026】
乗算器1029は、第1音量分析部1022の出力pに対して予め定められた係数a
1を乗じて加算器1034に出力する。乗算器1030は、変化分析部1023の出力p_speedに対して予め定められた係数a
2を乗じて加算器1034に出力する。
【0027】
乗算器1031は、第2音量分析部1025の出力p_band1に対して予め定められた係数a
3を乗じて加算器1034に出力する。乗算器1032は、第3音量分析部1027の出力p_band2に対して予め定められた係数a
4を乗じて加算器1034に出力する。乗算器1033は、周期性抽出部1028の出力periodicityに対して予め定められた係数a
5を乗じて加算器1034に出力する。
【0028】
加算器1034は、乗算器1029乃至1033の出力と、予め定められた係数a
0とを加算して、特徴量として、第2データ格納部103に格納する。
【0029】
なお、特徴量を算出する際に用いるパラメータについては、これらに限定されるものではなく、例えば所定レベル以上の音量が継続する時間をさらに用いるようにしても良いし、従来用いられている他のパラメータを加えるようにしても良い。さらに、上で述べたパラメータの一部を採用するようにしても良い。
【0030】
さらに係数a
0乃至a
5については、従来技術で述べられているSVMを用いて算出する。具体的には、抽出すべき異常音などについてb=a
0+a
1×p+a
2×p_speed+a
3×p_band1+a
4×p_band2+a
5×periodicityを算出すると0を超える値になり、それ以外の音などについてbを算出すると0未満となるように、係数a
0乃至a
5を算出する。但し、例えば経験則によってパラメータの重み付けを行って、係数a
0乃至a
5を設定するようにしても良い。
【0031】
次に、
図3乃至
図7を用いて、情報処理装置100の処理内容を説明する。
【0032】
まず、情報処理装置100は、例えばユーザによる音データ及び設定データの入力を受け付け、第1データ格納部101に格納する(
図3:ステップS1)。そして、特徴量算出部102は、第1データ格納部101に格納されているデータを用いて特徴量算出処理を実行し、処理結果を第2データ格納部103に格納する(ステップS3)。特徴量算出処理については、
図4を用いて説明する。
【0033】
まず、フレーム分割部1021は、第1データ格納部101に格納されている音データを単位時間毎に分割する(
図4:ステップS11)。この際、フレーム総数i
maxを特定する。また、特徴量算出部102は、カウンタiを1に初期化する(ステップS13)。
【0034】
そうすると、第1音量分析部1022は、i番目のフレームについての音量を算出する(ステップS15)。また、変化分析部1023は、i番目のフレームについて音量の立ち上がり速度又は立ち下がり速度を算出する(ステップS17)。
【0035】
さらに、第1BPF1024は、i番目のフレームについて第1の周波数帯域の成分のみを抽出して、第2音量分析部1025は、当該第1の周波数帯域に係る音量を算出する(ステップS19)。同様に、第2BPF1026は、i番目のフレームについて第2の周波数帯域の成分のみを抽出して、第3音量分析部1027は、当該第2の周波数帯域に係る音量を算出する(ステップS21)。さらに、周期性抽出部1028は、i番目のフレームについてフレーム内の自己相関係数の最大値を算出する(ステップS23)。
【0036】
ステップS15乃至S23については、
図2に示すように並列に行っても良いし、
図4に示すように順番に行っても良い。順番は入れ替え可能である。
【0037】
そして、乗算器1029乃至1033と加算器1034は、算出されたパラメータの値からi番目のフレームについての特徴量b
iを算出し、第2データ格納部103に格納する(ステップS25)。
【0038】
そして、特徴量算出部102は、iがi
maxを超えたか否かを判断する(ステップS27)。iがi
maxを超えていない場合には、特徴量算出部102は、iを1インクリメントし(ステップS29)、処理はステップS15に戻る。一方、iがi
maxを超えた場合には、処理は呼び出し元の処理に戻る。
【0039】
このような処理を行うことで、各フレームについて音の異常度合い又は音の非日常度合いを表す指標値である特徴量が算出される。
【0040】
図3の処理の説明に戻って、次に、区間抽出部104は、第2データ格納部103に格納されているデータを用いて区間抽出処理を実行し、処理結果を第3データ格納部105に格納する(ステップS5)。区間抽出処理については、
図5乃至
図7を用いて説明する。
【0041】
まず、区間抽出部104は、算出された特徴量の系列b
iの中から、最大値fMaxを算出する(
図5:ステップS31)。また、区間抽出部104は、以下の設定を行う(ステップS33)。
fth =fMAX/2
fSearchMax =fMax
fSearchMin =0
【0042】
すなわち、閾値fthに、最大値fMaxの半分を設定する。また、閾値の上限値fSearchMaxに、最大値fMaxを設定する。さらに、閾値の下限値fSearchMinに、0を設定する。
【0043】
そして、区間抽出部104は、目標要約率xと変動許容幅dから、要約時間の上限dMax及び下限dMinを算出する(ステップS35)。具体的には、音データの時間長Lとすると、L×x−d=dMinと算出し、L×x+d=dMaxと算出する。dが割合を表す場合には、L×x×(1−d)=dMinとなり、L×x×(1+d)=dMaxとなる。
【0044】
また、区間抽出部104は、特徴量の系列b
iから、閾値fthを超えている区間(すなわちフレーム列)を抽出し、例えば第3データ格納部105に格納する(ステップS37)。
【0045】
例えば、
図7(a)に示すような特徴量の系列b
iが得られたものと仮定する。すなわち、縦軸は特徴量を表し、横軸は時間を表しており、特徴量の時間変化が示されている。ここでは、特徴量の系列をアナログ的に示しているが、実際には離散的な値として得られる。この例では、特徴量がfthを超える4つの区間が抽出される。すなわち、
図7(b)に示すように、区間a乃至dが抽出される。なお、区間のデータについては、開始時刻及び終了時刻のデータを含むものとする。
【0046】
そして、区間抽出部104は、抽出された区間のうち未処理の区間を1つ特定する(ステップS39)。ここでは処理を簡単にするため、出現順に未処理の区間を特定するものとする。すなわち、
図7(b)の場合、区間aから特定する。
【0047】
その後、区間抽出部104は、特定された区間の終了時刻と次の区間の開始時刻との時間差が所定時間以内であるか否かを判断する(ステップS41)。例えば、
図7(b)の場合には、区間aの終了時刻と区間bの開始時刻との差は、矢印Aで表される。区間bの終了時刻と区間cの開始時刻との差は、矢印Bで表される。区間cの終了時刻と区間dの開始時刻との差は、矢印Cで表される。
【0048】
図7(c)の場合、矢印Aの長さは長いので、ステップS41の条件を満たさないと判断される。一方、矢印B及びCの長さは短いので、ステップS41の条件を満たすものと判断される。
【0049】
矢印Aのように時間差が所定時間より長い場合には(ステップS41:Noルート)、処理はステップS49に移行する。一方、矢印B及びCのように時間差が所定時間以内である場合には(ステップS41:Yesルート)、区間抽出部104は、特定された区間が既に結合済みであるか否かを判断する(ステップS43)。最初は結合されていないので、未結合であると判断される。
【0050】
特定された区間が未結合である場合には、区間抽出部104は、特定された区間と次の区間を結合し、結合後の区間についてのデータを第3データ格納部105に格納する(ステップS47)。例えば、結合後の区間の開始時刻及び終了時刻と、結合後の区間に含まれる各区間の開始時刻及び終了時刻とを格納する。
図7(c)の場合、区間bと区間cとが結合されて、その間の期間と共に、
図7(d)に示すように、結合区間b1が生成される。なお、結合区間b1についてのデータについては、その開始時刻及び終了時刻に加えて、区間b及びcのデータを含む。そして処理はステップS49に移行する。なお、結合された次の区間についても、ステップS39ではステップS37で抽出された区間として、処理対象となる。
【0051】
一方、特定された区間が結合済みである場合、すなわち、特定された区間が、結合後の区間に含まれるいずれかの区間に該当する場合には、区間抽出部104は、特定された区間を含む結合区間に、次の区間を結合し、さらなる結合後の区間についてのデータを第3データ格納部105に格納する(ステップS45)。
図7(b)及び(c)に示すように、区間cと区間dの間の矢印Cも短くてステップS41の条件を満たすため、区間cを処理の対象としたとき、区間dは、区間cと結合されることになる。しかし、既に区間cは結合されているので、
図7(e)に示すように、区間cを含む結合区間b1にさらに区間dを結合することになって、結合区間b2が生成される。結合区間b2についてのデータは、その開始時刻及び終了時刻に加えて、区間b、c及びdについてのデータを含む。そして処理はステップS49に移行する。
【0052】
その後、区間抽出部104は、ステップS37で抽出した区間のうち未処理の区間が存在するか否かを判断する(ステップS49)。未処理の区間が存在する場合には、処理はステップS39に戻る。一方、未処理の区間が存在しない場合には、処理は端子Aを介して
図6の処理に移行する。
【0053】
このように
図7(e)に示すように、
図7(a)の例では、区間a及び結合区間b2が特徴区間として特定される。
【0054】
図6の処理の説明に移行して、区間抽出部104は、抽出された孤立区間(抽出されたが結合されなかった区間。
図7(e)の区間a)及び結合区間の合計時間を算出する(ステップS51)。そして、区間抽出部104は、合計時間がdMin未満であるか否かを判断する(ステップS53)。合計時間がdMin未満である場合には、閾値fthが高すぎて、目標要約率xに適合するような要約ができないことを意味する。従って、合計時間がdMin未満であれば、区間抽出部104は、以下の設定を行う(ステップS55)。その後処理は端子Bを介して
図5のステップS37に戻る。
fSearchMax =fth
fth =(fth+fSearchMin)/2
すなわち、閾値の上限値fSearchMaxに、現在の閾値fthを設定し、閾値fthを、下げるように設定する。
【0055】
一方、合計時間がdMin以上である場合には、区間抽出部104は、合計時間がdMaxを超えたか判断する(ステップS57)。合計時間がdMaxを超えるということは、閾値fthが低すぎることを意味する。従って、合計時間がdMaxを超えた場合、区間抽出部104は、以下の設定を行う(ステップS59)。その後処理は端子Bを介して
図5のステップS37に戻る。
fSearchMin =fth
fth =(fth+fSearchMax)/2
すなわち、閾値の下限値fSearchMinに、現在の閾値fthを設定し、閾値fthを、上げるように設定する。
【0056】
一方、合計時間がdMaxを超えていない場合には、ちょうど良い合計時間の区間が抽出されたことになる。本実施の形態では、このような合計時間の区間を特徴区間と呼ぶことにする。なお、区間抽出部104は、特徴区間を特定するためのデータ(例えば開始時刻及び終了時刻の組み合わせ)を第3データ格納部105に格納する。そして、処理は
図3の処理に戻る。
【0057】
図3の処理の説明に戻って、出力処理部106は、第2データ格納部103に格納されている特徴量の系列及び第3データ格納部105に格納されている特徴区間のデータを、例えば表示装置に表示する(ステップS7)。
【0058】
例えば
図7(a)及び(e)のようなデータを表示装置に表示する。ユーザは、このような表示を確認の上、特徴区間の音データを抽出するように指示するようにしても良い。なお、ユーザは、特徴区間を入力装置を用いて修正するような指示を行うようにしても良い。また、ユーザは、自動的に抽出された特徴区間に加えて抽出すべき区間を追加指定するようにしても良い。
【0059】
その後、出力処理部106は、第1データ格納部101に格納されている音データから、特徴区間(自動抽出された特徴区間のまま、修正後の特徴区間、追加された区間を含む特徴区間など)における音データを抽出して結合し、出力データ格納部107に格納する(ステップS9)。なお、特徴区間を特定するためのデータを出力データ格納部107に格納するようにしてもよい。また、特徴区間における音データに付随する他のデータを取得して、出力データ格納部107に格納するようにしてもよい。さらに、スピーカなどがあれば、スピーカから特徴区間における音データを出力するようにしても良い。
【0060】
このようにすれば、音データから特徴的なデータを抽出できるようになる。より具体的には、特徴的な区間を特定でき、その区間の音データも抽出できる。
【0061】
以上本発明の実施の形態を説明したが、本発明はこれに限定されるものではない。例えば、処理フローについては、処理結果が変わらない限り、処理順番を入れ替えたり、並列に実行するようにしても良い。また、
図1及び
図2に示したような機能ブロック構成は、プログラムモジュール構成とは一致しない場合もある。
【0062】
また、
図5及び
図6では、区間の結合を行う例を示したが、区間の結合を行わないようにしても良い。例えば、特徴量が閾値を超えるようなフレームを抽出することのみを行うようにしても良い。さらに、上で述べたように閾値の調整は行うが、区間の結合を行わないようにしてもよい。
【0063】
また、出力処理部106は、データを、ネットワークに接続された他のコンピュータに出力するようにしても良い。すなわち、情報処理装置100が、サーバ装置であって、クライアント装置である他のコンピュータからの指示に従って処理を行い、処理結果をクライアント装置に送信するようにしても良い。
【0064】
なお、上で述べた情報処理装置100は、コンピュータ装置であって、メモリとCPU(Central Processing Unit)とハードディスク・ドライブ(HDD:Hard Disk Drive)と表示装置に接続される表示制御部とリムーバブル・ディスク用のドライブ装置と入力装置とネットワークに接続するための通信制御部とがバスで接続されている。オペレーティング・システム(OS:Operating System)及び本実施例における処理を実施するためのアプリケーション・プログラムは、HDDに格納されており、CPUにより実行される際にはHDDからメモリに読み出される。CPUは、アプリケーション・プログラムの処理内容に応じて表示制御部、通信制御部、ドライブ装置を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリに格納されるが、HDDに格納されるようにしてもよい。本発明の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスクに格納されて頒布され、ドライブ装置からHDDにインストールされる。インターネットなどのネットワーク及び通信制御部を経由して、HDDにインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU、メモリなどのハードウエアとOS及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。
【0065】
以上述べた本実施の形態をまとめると以下のようになる。
【0066】
本実施の形態に係る情報処理方法は、(A)音データにおける各フレームについて、当該フレームにおける音の特徴量を算出し、データ格納部に格納する特徴量算出ステップと、(B)データ格納部に格納された各フレームについての特徴量に基づき、音データにおける特徴区間を特定する特定ステップとを含む。
【0067】
このようにすれば、音データから特徴的なデータを抽出できるようになる。例えば、音の特徴量が大きいフレームを抽出することで、特徴的な区間が抽出できるようになる。
【0068】
なお、上で述べた音の特徴量が、音の異常度合いを表す特徴量、又は音の非日常度合いを表す特徴量である場合もある。例えば、例えば、街角、家庭内、事務所内、店舗内、駅構内、空港ロビー内、工場内といった様々な場所で録音された音データにおいて、突然大きな物音がした区間や、人が叫んだ声を含む区間などが、要約として抽出できるようになる。
【0069】
さらに、上で述べた情報処理方法は、(C)音データから、特定された特徴区間内のデータを抽出するステップをさらに含むようにしても良い。これによって、音データの要約音データが生成され、録音場所における状況把握を効率的に行うことができるようになる。
【0070】
また、上で述べた特定ステップが、特徴量が閾値以上となるフレームを特定し、特定したフレームから音データにおける特徴区間を構成するステップを含むようにしても良い。このような簡易な方法でもある程度有効な特徴区間が得られる。
【0071】
また、上で述べた特定ステップが、特徴量が閾値以上となるフレームの合計時間が、予め定められた範囲内に収まるように閾値を決定し、特徴量が、決定した閾値以上となるフレームから音データにおける特徴区間を構成する構成ステップを含むようにしても良い。このような方法を採用しても、長時間の音データから、一定の時間的範囲に限定された特徴的な区間を特定できるようになる。よって、音データの効率的な確認又は活用が可能となる。
【0072】
さらに、上で述べた特定ステップが、特徴量が閾値以上となる第1のフレームと、第1のフレームに挟まれ且つ特徴量が閾値未満であり且つ所定時間以内で連続する第2のフレームとの合計時間が、予め定められた範囲内に収まるように閾値を決定し、決定した閾値についての第1のフレームと第2のフレームとから音データにおける特徴区間を構成する構成ステップを含むようにしても良い。
【0073】
このようにすれば、より状況を正しく把握できるような区間を一定範囲に時間を制限しつつ特定できるようになる。
【0074】
なお、上で述べた特徴量算出ステップは、各フレームについて、全体音量についての指標値と、人間の耳の感度に基づき設定された所定周波数帯における音量についての指標値と、音の周期性についての指標値と、音量の変化度合いについての指標値とのうち少なくともいずれかに基づき、音の特徴量を算出するステップを含むようにしても良い。より適切に異常度合い又は非日常度合いを特定できる。
【0075】
なお、上記方法をコンピュータに行わせるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブルディスク、CD−ROM、光磁気ディスク、半導体メモリ、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納される。尚、中間的な処理結果はメインメモリ等の記憶装置に一時保管される。